格灵深瞳亮相百度 Create 2026，打造新一代视觉 AI 技术产品

来源格灵深瞳作者格灵深瞳发布时间2026-05-15

5月13日-14日，Create 2026 百度 AI 开发者大会在北京国家会议中心二期举行。作为百度的生态伙伴，格灵深瞳在专题论坛和公开课上分享了最新的 AI 原生视觉智能产品：视觉智能工坊，以及新一代全开源多模态大模型 LLaVA-OneVision-2.0。

同时，格灵深瞳还在展台展示了视觉智能工坊产品的多项功能。系统级 AI 助手 DeepBot 也在现场与观众们交流互动。

从多模态能力迭代到视觉应用升级，格灵深瞳持续深耕 AI 技术应用转化，不断打磨和沉淀产品化能力，打造自进化的 AI 原生产品矩阵，让 AI 真正走进现实业务场景，实现规模化应用落地。

视觉智能工坊：

三大核心能力，构建视觉AI落地闭环

在“AI+数据”专题论坛，格灵深瞳研发副总裁闫梓祯分享《智能数据赋能视觉 AI：Agent 驱动的视觉智能工坊实践》主题演讲，介绍新一代 AI 原生的视觉智能产品——视觉智能工坊。

微信图片_20260515125807_872_163.jpg

格灵深瞳研发副总裁闫梓祯分享视觉智能工坊

现实业务场景和数据复杂多变，但传统模式下的 AI 项目往往是“一次性交付”，交付即结束，难以复用和持续迭代。这导致企业 AI 落地成本高企，且无法持续融入实际业务流程。面对企业 AI 落地需求和痛点，格灵深瞳推出一套具备完整工程化系统能力的视觉 AI 智能产品：视觉智能工坊。

视觉智能工坊搭载 M-E-S 三大核心能力，具体包括：MENTOR 算法训练中心、EXPERT 算法运营中心、SENTINEL 边缘哨兵，覆盖算法的训练、运营、感知全周期。M-E-S 三层协同构建“数据采集-模型训练-算法运营-边缘部署-实时告警-数据回流-模型迭代”的产品能力闭环，形成可自进化的数据飞轮，让视觉模型越用越懂业务。

基于视觉智能工坊的产品能力，可将 AI 从一次性算法交付，转化为在业务现场持续进化的 AI 原生能力，赋能企业业务专家快速构建 AI 应用，让模型算法在业务现场真正用起来，实现 AI 在银行、政务、能源、园区、工厂等行业场景下的规模化落地。

LLaVA-OneVision-2.0：

多模态迈向全帧率视频理解时代

在 AI Infra 专题论坛，灵感实验室 Glint Lab 负责人冯子勇分享《LLaVA-OneVision-2.0：全开源全帧率多模态大模型的低成本突破》主题演讲，介绍新一代全开源多模态大模型 LLaVA-OneVision-2.0 和它的视觉模型基座 Glint-MVT v2.0 的技术创新性和行业应用价值。

微信图片_20260515125608_867_163.jpg

灵感实验室负责人冯子勇分享LLaVA-OneVision-2.0

同时，在 AI 创意开放日公开课环节，灵感实验室 Glint Lab 核心成员谢尹分享《LLaVA-OneVision-2.0：首个视频全帧率理解的多模态模型》，介绍 LLaVA-OneVision-2.0 的技术细节和训练流程。

微信图片_20260515125611_870_163.jpg

灵感实验室成员谢尹分享技术细节

LLaVA-OneVision-2.0 是一款原生支持全帧率视频理解的全开源多模态大模型。新一代模型把优化对象从“模型规模”转向“模型看视频的方式”，在全帧率前提下重构视频理解路径。

在实现方式上，LLaVA-OneVision-2.0 通过引入升级后的视觉编码器 Glint-MVT v2.0 和有针对性的视频数据训练，获得视频高效分析的能力。用 Glint MVT 2.0 替代传统视觉编码方式，可更充分利用视频编码原有信息，在更少输入下保持理解能力。

从训练流程来看，LLaVA-OneVision-2.0 通过视频化引导-指令微调-长视频理解-适配 Codec（编解码）数据和空间理解数据，分四个阶段完成模型训练，实现从数据准备到测评发布的流程闭环。在任务表现方面，LLaVA-OneVision-2.0 8B 模型在 VideoMME(sub) 等 Benchmark 评测上超过同等规模的国内主流同类模型。

作为 LLaVA-OneVision-2.0 的技术基石，升级后的视觉基础模型 Glint-MVT v2.0 打破图像与视频编码“分而治之”的传统模式，将视频与图像统一在同一个编码器（Encoder），通过视频编码在压缩域进行高效分析，最大程度上可削减 90% 视频 Token，极大节约计算资源和成本。

从 Glint-MVT v2.0 到 LLaVA-OneVision-2.0，灵感实验室不断探索在全帧率前提下，让视频理解以更高效率、更低成本的技术路径真正走进业务现场。

DeepBot：

系统级 AI 助手，打个招呼就开工！

除了分享视觉智能工坊和 LLaVA-OneVision-2.0，格灵深瞳还在活动展区展示了系统级 AI 助手 DeepBot。现场观众可通过微信扫码进入对话框，体验与 DeepBot 的实时互动：向 DeepBot 打个招呼，便可收到来自大会现场的实时视频画面，以及 AI 对画面的智能分析结果。此外，还可以了解格灵深瞳的更多信息和展会动态。

微信图片_20260515125606_865_163.jpg

格灵深瞳展台

DeepBot 是格灵深瞳灵感实验室开发的一款开源系统级 AI 助手，能够与企业现有系统深度结合，通过多 Agent 协作模式实现复杂业务流程的自动化。它支持多任务并行处理、定时任务、技能扩展等功能，同时通过严格的安全机制保护企业系统安全。

近期，DeepBot 进行了版本升级。新版支持企业微信与智能客服，可为企业微信创建多个 Tab，为每个 Tab 设置不同模型，并通过加强文件系统访问控制等方式强化安全保障。

大会落幕，但 AI 技术和产品进化的步履不停。未来，格灵深瞳将持续优化升级以视觉智能工坊为代表的 AI 原生自进化产品矩阵，不断沉淀产品化能力，加速打通 AI 商业化闭环，推动 AI 真正落地转化为企业生产力，赋能更多行业客户智能化升级。

返回列表

格灵深瞳亮相百度 Create 2026，打造新一代视觉 AI 技术产品

视觉智能工坊：

三大核心能力，构建视觉AI落地闭环

LLaVA-OneVision-2.0：

多模态迈向全帧率视频理解时代

DeepBot：

系统级 AI 助手，打个招呼就开工！

元宇宙赋能科普场馆，北京科学中心携手格灵深瞳与尚亦城开启沉浸式科普新纪元

多场景落地！格灵深瞳智慧体育解决方案提升AI应用实效

企业Agent如何从“能用”到“好用”？格灵深瞳的评测实战方法论

格灵深瞳携手北京铁路局：AI助力京哈高速铁路安全高效巡检

跨时空重逢，格灵深瞳再次助力寻回被拐儿童

AI裁判再上岗！格灵深瞳为北京门头沟区体育中考全程“护航”

格灵深瞳荣登《2023中国大模型产业创新服务商TOP30榜单》