首页 新闻中心 企业动态 格灵深瞳如何打造视觉模型基座?Glint-MVT成长记

格灵深瞳如何打造视觉模型基座?Glint-MVT成长记

来源格灵深瞳 作者格灵深瞳 发布时间2025-09-03

8月28-30日,2025百度云智大会在北京举办。在算力平台专题论坛上,格灵深瞳技术副总裁、算法研究院院长冯子勇分享了《视觉基座:通向世界模型之路——格灵深瞳Glint-MVT让AI看懂世界》主题演讲,从热点话题“世界模型”引入,介绍格灵深瞳自研视觉基础模型Glint-MVT的发展脉络和技术亮点,讲述视觉模型基座如何让AI理解复杂世界。

子勇百度演讲.png
专题论坛现场

此次分享的主角:Glint-MVT(Margin-based pretrained Vision Transformer),是格灵深瞳灵感实验室自研的视觉基础模型。自2023年发布MVT v1.0以来,模型逐步迭代,在今年7月发布了MVT v1.5,同时MVT v2.0也在筹备中。

截屏2025-09-02 10.20.15.png


MVT的诞生:引入间隔Softmax函数

MVT最大的技术创新性在于,团队应用基于间隔的Softmax损失函数进行模型训练。Softmax损失函数主要应用于分类训练,而基于间隔的Softmax(Margin-based Softmax),可以让模型提取的特征更具区分度,提升视觉编码器的能力。

灵感团队将这一函数特性应用在视觉基础模型训练上,推出MVT v1.0,构建起视觉理解的坚实基础。

截屏2025-09-02 10.40.51.png

传统Softmax(左)与带间隔的Softmax(右)

在MVT v1.0训练过程中,团队通过特征聚类的方法,为4亿无标注图片打上伪标签,形成100万个类别。为解决伪标签类别太多和标签噪声的问题,团队提出了标签采样的方法,不仅大量减少卡间通信时延,还降低了标签噪声对训练精度的影响,带来训练效果和模型性能的双重提升。

从MVT v1.0到 v1.1:突破单标签限制

在图像识别过程中,一幅图像通常包含多个物体,对应着多个标签。因此,格灵深瞳将单标签升级为多标签,提升图像编码器的表达能力,由此得到MVT v1.1。

MVT v1.1可识别图像中的多个物体,这一能力提升源自损失函数的优化。灵感团队在1.0版softmax公式的基础上进行简单修改,让多个正标签参与计算;在工程上,由读取一个正类别的中心特征变成读取固定多个正类别的中心特征。

MVT v1.5:局部和文字特征再增强

随着下游任务对预训练模型能力的更高要求,灵感团队增强了模型对局部特征和文字特征的表达能力,推出MVT v1.5。

微信图片_20250902122700_289_163.png

Region Attention技术方法示意图

在实现方法上,团队利用专家分割模型和OCR模型,生成局部数据伪标签,得到20亿局部区域和4亿文字区域。同时,团队提出了Region Attention的方法——利用Mask Attention机制,更高效地提取局部区域特征。从检测、分割等下游任务表现上看,MVT v1.5的多项分数高于SigLIP等模型。

20250902-161003.png
MVT v1.5(RICE)在OCR任务上的表现

灵感团队将MVT v1.5应用到VLM开源框架LLaVA-NeXT和LLaVA-OneVision中。对比其他视觉编码器,如OpenAI的CLIP、谷歌的SigLIP、苹果的DFN5B和AIMv2,MVT v1.5在OCR任务上表现更优。这表明MVT v1.5在局部和文字特征上具有更好的表达能力。

MVT v2.x:图片视频统一支持

人类和环境的交互以及任务完成,不只是一张张离散的图片,而是一个时空连续的视频流。下一步,灵感团队计划对视频进行高效编码,推出统一支持图片视频的视觉编码器MVT v2.x,提升视频特征表达能力。

📌 欢迎持续关注灵感实验室的最新技术进展

Glint-MVT官网:https://glint-mvt.com/

体验MVT v1.5:https://github.com/deepglint/MVT

学术成果:

MVT v1.0:Unicom: Universal and Compact Representation Learning for Image Retrieval. (ICLR2023) 
链接:https://arxiv.org/abs/2304.05884

MVT v1.1:Multi-label Cluster Discrimination for Visual Representation Learning. (ECCV2024) 
链接:https://arxiv.org/abs/2407.17331

MVT v1.5:Region-based Cluster Discrimination for Visual Representation Learning. (ICCV2025)
链接:https://arxiv.org/abs/2507.20025

更多精彩内容
即刻开启企业AI之旅
该信息仅用于格灵深瞳与您沟通以及了解您的业务需求,如您不同意提供个人信息,请关闭本表单页面。
*联系人:
*联系电话:
*联系邮箱:
*获取验证码:
点击获取验证码
立即提交
提交成功
感谢提交,近期将有格灵深瞳工作人员与您取得联系, 请您保持电话畅通。
资料下载
*姓名:
*手机号:
*邮箱:
*获取验证码:
点击获取验证码
*公司名称:
*职位:
*您是否有其他具体的业务需求?
是,请尽快与我取得联系
否,暂时无其他需求
立即下载