格灵深瞳如何打造视觉模型基座？Glint-MVT成长记

来源格灵深瞳作者格灵深瞳发布时间2025-09-03

8月28-30日，2025百度云智大会在北京举办。在算力平台专题论坛上，格灵深瞳技术副总裁、算法研究院院长冯子勇分享了《视觉基座：通向世界模型之路——格灵深瞳Glint-MVT让AI看懂世界》主题演讲，从热点话题“世界模型”引入，介绍格灵深瞳自研视觉基础模型Glint-MVT的发展脉络和技术亮点，讲述视觉模型基座如何让AI理解复杂世界。

子勇百度演讲.png
专题论坛现场

此次分享的主角：Glint-MVT（Margin-based pretrained Vision Transformer），是格灵深瞳灵感实验室自研的视觉基础模型。自2023年发布MVT v1.0以来，模型逐步迭代，在今年7月发布了MVT v1.5，同时MVT v2.0也在筹备中。

MVT的诞生：引入间隔Softmax函数

MVT最大的技术创新性在于，团队应用基于间隔的Softmax损失函数进行模型训练。Softmax损失函数主要应用于分类训练，而基于间隔的Softmax（Margin-based Softmax），可以让模型提取的特征更具区分度，提升视觉编码器的能力。

灵感团队将这一函数特性应用在视觉基础模型训练上，推出MVT v1.0，构建起视觉理解的坚实基础。

截屏2025-09-02 10.40.51.png

传统Softmax（左）与带间隔的Softmax（右）

在MVT v1.0训练过程中，团队通过特征聚类的方法，为4亿无标注图片打上伪标签，形成100万个类别。为解决伪标签类别太多和标签噪声的问题，团队提出了标签采样的方法，不仅大量减少卡间通信时延，还降低了标签噪声对训练精度的影响，带来训练效果和模型性能的双重提升。

从MVT v1.0到 v1.1：突破单标签限制

在图像识别过程中，一幅图像通常包含多个物体，对应着多个标签。因此，格灵深瞳将单标签升级为多标签，提升图像编码器的表达能力，由此得到MVT v1.1。

MVT v1.1可识别图像中的多个物体，这一能力提升源自损失函数的优化。灵感团队在1.0版softmax公式的基础上进行简单修改，让多个正标签参与计算；在工程上，由读取一个正类别的中心特征变成读取固定多个正类别的中心特征。

MVT v1.5：局部和文字特征再增强

随着下游任务对预训练模型能力的更高要求，灵感团队增强了模型对局部特征和文字特征的表达能力，推出MVT v1.5。

微信图片_20250902122700_289_163.png

Region Attention技术方法示意图

在实现方法上，团队利用专家分割模型和OCR模型，生成局部数据伪标签，得到20亿局部区域和4亿文字区域。同时，团队提出了Region Attention的方法——利用Mask Attention机制，更高效地提取局部区域特征。从检测、分割等下游任务表现上看，MVT v1.5的多项分数高于SigLIP等模型。

MVT v1.5（RICE）在OCR任务上的表现

灵感团队将MVT v1.5应用到VLM开源框架LLaVA-NeXT和LLaVA-OneVision中。对比其他视觉编码器，如OpenAI的CLIP、谷歌的SigLIP、苹果的DFN5B和AIMv2，MVT v1.5在OCR任务上表现更优。这表明MVT v1.5在局部和文字特征上具有更好的表达能力。

MVT v2.x：图片视频统一支持

人类和环境的交互以及任务完成，不只是一张张离散的图片，而是一个时空连续的视频流。下一步，灵感团队计划对视频进行高效编码，推出统一支持图片视频的视觉编码器MVT v2.x，提升视频特征表达能力。

📌 欢迎持续关注灵感实验室的最新技术进展

Glint-MVT官网：https://glint-mvt.com/

体验MVT v1.5：https://github.com/deepglint/MVT

学术成果：

MVT v1.0：Unicom: Universal and Compact Representation Learning for Image Retrieval. (ICLR2023)

链接：https://arxiv.org/abs/2304.05884

MVT v1.1：Multi-label Cluster Discrimination for Visual Representation Learning. (ECCV2024)

链接：https://arxiv.org/abs/2407.17331

MVT v1.5：Region-based Cluster Discrimination for Visual Representation Learning. (ICCV2025)

链接：https://arxiv.org/abs/2507.20025

返回列表

格灵深瞳如何打造视觉模型基座？Glint-MVT成长记

格灵深瞳6篇论文亮相国际顶级学术舞台，涵盖视觉基座模型、人脸3D重建等领域

格灵深瞳入选信通院《2023元宇宙产业图谱》和动作捕捉相关标准核心参编单位

格灵深瞳受邀参加“人工智能+”赋能京津冀创新发展应用研讨会

凝聚力量勇往直前-格灵深瞳2025年春季全员大会活动回顾

行业认可 | 格灵深瞳2024年底接连斩获8项大奖

AI裁判再上岗！格灵深瞳为北京门头沟区体育中考全程“护航”

格灵深瞳受邀参加中关村论坛系列活动，分享最新AI洞察

格灵深瞳如何打造视觉模型基座？Glint-MVT成长记

格灵深瞳6篇论文亮相国际顶级学术舞台，涵盖视觉基座模型、人脸3D重建等领域

格灵深瞳入选信通院《2023元宇宙产业图谱》和动作捕捉相关标准核心参编单位

格灵深瞳受邀参加“人工智能+”赋能京津冀创新发展应用研讨会

凝聚力量 勇往直前-格灵深瞳2025年春季全员大会活动回顾

行业认可 | 格灵深瞳2024年底接连斩获8项大奖

AI裁判再上岗！格灵深瞳为北京门头沟区体育中考全程“护航”

格灵深瞳受邀参加中关村论坛系列活动，分享最新AI洞察

凝聚力量勇往直前-格灵深瞳2025年春季全员大会活动回顾