5月13日-14日,Create 2026 百度 AI 开发者大会在北京国家会议中心二期举行。作为百度的生态伙伴,格灵深瞳在专题论坛和公开课上分享了最新的 AI 原生视觉智能产品:视觉智能工坊,以及新一代全开源多模态大模型 LLaVA-OneVision-2.0。
同时,格灵深瞳还在展台展示了视觉智能工坊产品的多项功能。系统级 AI 助手 DeepBot 也在现场与观众们交流互动。
从多模态能力迭代到视觉应用升级,格灵深瞳持续深耕 AI 技术应用转化,不断打磨和沉淀产品化能力,打造自进化的 AI 原生产品矩阵,让 AI 真正走进现实业务场景,实现规模化应用落地。
在“AI+数据”专题论坛,格灵深瞳研发副总裁闫梓祯分享《智能数据赋能视觉 AI:Agent 驱动的视觉智能工坊实践》主题演讲,介绍新一代 AI 原生的视觉智能产品——视觉智能工坊。
格灵深瞳研发副总裁闫梓祯分享视觉智能工坊
现实业务场景和数据复杂多变,但传统模式下的 AI 项目往往是“一次性交付”,交付即结束,难以复用和持续迭代。这导致企业 AI 落地成本高企,且无法持续融入实际业务流程。面对企业 AI 落地需求和痛点,格灵深瞳推出一套具备完整工程化系统能力的视觉 AI 智能产品:视觉智能工坊。
视觉智能工坊搭载 M-E-S 三大核心能力,具体包括:MENTOR 算法训练中心、EXPERT 算法运营中心、SENTINEL 边缘哨兵,覆盖算法的训练、运营、感知全周期。M-E-S 三层协同构建“数据采集-模型训练-算法运营-边缘部署-实时告警-数据回流-模型迭代”的产品能力闭环,形成可自进化的数据飞轮,让视觉模型越用越懂业务。
基于视觉智能工坊的产品能力,可将 AI 从一次性算法交付,转化为在业务现场持续进化的 AI 原生能力,赋能企业业务专家快速构建 AI 应用,让模型算法在业务现场真正用起来,实现 AI 在银行、政务、能源、园区、工厂等行业场景下的规模化落地。
在 AI Infra 专题论坛,灵感实验室 Glint Lab 负责人冯子勇分享《LLaVA-OneVision-2.0:全开源全帧率多模态大模型的低成本突破》主题演讲,介绍新一代全开源多模态大模型 LLaVA-OneVision-2.0 和它的视觉模型基座 Glint-MVT v2.0 的技术创新性和行业应用价值。
灵感实验室负责人冯子勇分享LLaVA-OneVision-2.0
同时,在 AI 创意开放日公开课环节,灵感实验室 Glint Lab 核心成员谢尹分享《LLaVA-OneVision-2.0:首个视频全帧率理解的多模态模型》,介绍 LLaVA-OneVision-2.0 的技术细节和训练流程。
灵感实验室成员谢尹分享技术细节
LLaVA-OneVision-2.0 是一款原生支持全帧率视频理解的全开源多模态大模型。新一代模型把优化对象从“模型规模”转向“模型看视频的方式”,在全帧率前提下重构视频理解路径。
在实现方式上,LLaVA-OneVision-2.0 通过引入升级后的视觉编码器 Glint-MVT v2.0 和有针对性的视频数据训练,获得视频高效分析的能力。用 Glint MVT 2.0 替代传统视觉编码方式,可更充分利用视频编码原有信息,在更少输入下保持理解能力。
从训练流程来看,LLaVA-OneVision-2.0 通过视频化引导-指令微调-长视频理解-适配 Codec(编解码)数据和空间理解数据,分四个阶段完成模型训练,实现从数据准备到测评发布的流程闭环。在任务表现方面,LLaVA-OneVision-2.0 8B 模型在 VideoMME(sub) 等 Benchmark 评测上超过同等规模的国内主流同类模型。
作为 LLaVA-OneVision-2.0 的技术基石,升级后的视觉基础模型 Glint-MVT v2.0 打破图像与视频编码“分而治之”的传统模式,将视频与图像统一在同一个编码器(Encoder),通过视频编码在压缩域进行高效分析,最大程度上可削减 90% 视频 Token,极大节约计算资源和成本。
从 Glint-MVT v2.0 到 LLaVA-OneVision-2.0,灵感实验室不断探索在全帧率前提下,让视频理解以更高效率、更低成本的技术路径真正走进业务现场。
除了分享视觉智能工坊和 LLaVA-OneVision-2.0,格灵深瞳还在活动展区展示了系统级 AI 助手 DeepBot。现场观众可通过微信扫码进入对话框,体验与 DeepBot 的实时互动:向 DeepBot 打个招呼,便可收到来自大会现场的实时视频画面,以及 AI 对画面的智能分析结果。此外,还可以了解格灵深瞳的更多信息和展会动态。
格灵深瞳展台
DeepBot 是格灵深瞳灵感实验室开发的一款开源系统级 AI 助手,能够与企业现有系统深度结合,通过多 Agent 协作模式实现复杂业务流程的自动化。它支持多任务并行处理、定时任务、技能扩展等功能,同时通过严格的安全机制保护企业系统安全。
近期,DeepBot 进行了版本升级。新版支持企业微信与智能客服,可为企业微信创建多个 Tab,为每个 Tab 设置不同模型,并通过加强文件系统访问控制等方式强化安全保障。
大会落幕,但 AI 技术和产品进化的步履不停。未来,格灵深瞳将持续优化升级以视觉智能工坊为代表的 AI 原生自进化产品矩阵,不断沉淀产品化能力,加速打通 AI 商业化闭环,推动 AI 真正落地转化为企业生产力,赋能更多行业客户智能化升级。
