首页 新闻中心 企业动态 让AI读懂人物描写!新框架GA-DMS突破“以文找人”技术难题

让AI读懂人物描写!新框架GA-DMS突破“以文找人”技术难题

来源格灵深瞳 作者格灵深瞳 发布时间2025-09-22

对计算机来说,理解“穿红色上衣的长发女性”这类特征性描述,并在海量图片中精准找到对应人物,是一项复杂的技术难题。尽管多模态预训练模型CLIP在多种视觉任务中展示出强大的性能,但其在人物表征学习的应用中,也就是“以文找人”时,面临两个关键挑战:

一是缺乏专注于人物中心图像的大规模训练数据;二是容易受到噪声文本标记的影响。

格灵深瞳参与研究的GA-DMS框架,为攻破上述技术难题提供了全新解决方案。研究团队通过数据构建和模型架构的协同改进,推动CLIP在人物表征学习中的应用,显著提升了基于文本的人物检索效果。该成果已入选EMNLP 2025 主会(自然语言处理领域的顶级国际会议之一)。

首先,团队开发了一个抗噪声的数据构建管道,利用机器学习语言模型(MLLMs)的上下文学习能力,自动过滤和标注网络来源的图像。这产生了一个大规模数据集WebPerson,包含500万高质量的人物中心图像-文本对。

其次,团队引入了梯度-注意力引导的双重遮蔽协同(GA-DMS)框架,用来改善跨模态对齐。

此外,团队还加入了遮蔽标记预测目标,让模型能够预测信息丰富的文本标记,增强细粒度语义表征学习。

广泛的实验表明,GA-DMS在多个基准测试中达到了最先进的性能,实现了更精准的“以文找人”检索能力——在CUHK-PEDES数据集上的准确率达到77.6%,在RSTPReid上准确率达到71.25%。

关于技术报告的更多细节,欢迎点击下方链接体验。

论文题目:Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

研究团队:格灵深瞳、东北大学、华南理工大学

报告链接:https://arxiv.org/pdf/2509.09118

项目主页:https://github.com/Multimodal-Representation-Learning-MRL/GA-DMS


更多精彩内容
即刻开启企业AI之旅
该信息仅用于格灵深瞳与您沟通以及了解您的业务需求,如您不同意提供个人信息,请关闭本表单页面。
*联系人:
*联系电话:
*联系邮箱:
*获取验证码:
点击获取验证码
立即提交
提交成功
感谢提交,近期将有格灵深瞳工作人员与您取得联系, 请您保持电话畅通。
资料下载
*姓名:
*手机号:
*邮箱:
*获取验证码:
点击获取验证码
*公司名称:
*职位:
*您是否有其他具体的业务需求?
是,请尽快与我取得联系
否,暂时无其他需求
立即下载