企业Agent如何从“能用”到“好用”？格灵深瞳的评测实战方法论

来源格灵深瞳作者格灵深瞳发布时间2025-07-09

当前AI界和产业界，Agent成为现象级话题。企业Agent已经从热门概念走进产业现实，成为探索AI落地的新锚点。

6月27-28日，由极客邦科技旗下InfoQ中国主办的“AICon全球人工智能开发与应用大会”在北京举办。作为行业领先的视觉AI公司，格灵深瞳受邀参会。

在“AI Agent构建与多场景实践”专题现场，格灵深瞳研发副总裁、AI Infra负责人闫梓祯分享了名为《构建高可信自动化企业Agent评测体系的实战方法论》的主题演讲，从企业Agent评测的重要性、现状、实战方法等维度，讲述了格灵深瞳团队对于这一话题的思考与实践。

格灵深瞳研发副总裁、AI Infra负责人闫梓祯

“If you can't measure it,you can't improve it.” （如果你不去评测它，便无法提升它。）谈及评测对于企业Agent开发与落地的重要性，闫梓祯表示，有效评测是提升Agent应用效果的关键。随着模型能力快速提升，技术刷爆榜单的速度越来越快，应用层Agent开发亟需更有效、更严格的评估机制，才能更客观地反映AI的真实表现，解决技术参数与实际效果之间的gap问题。

基于多年的开发与交付经验，闫梓祯分享了现阶段企业Agent评测的发展状态和面临的问题。当前，企业Agent在各行业、各场景下的落地尚处于早期起步阶段，具体到评测环节，企业往往面临“如何评测”、“对接真实业务系统后如何保证应用效果”等实际问题。

对企业来说，真实反映AI能力、客观衡量AI效果的需求越来越迫切，相应地，实现难度也越来越大。如何构建一套高可信度、自动化、规模化的企业Agent评测系统，成为业内关注的焦点。

相较于单纯依靠人工评测，闫梓祯建议，使用大模型或者Agent相关技术来构建评测体系——让Agent自动生成评测数据集、自动对评测对象进行打分，从而实现整个评测流程的规模化和自动化。在格灵深瞳，已经鼓励研发人员和产品经理使用大模型来辅助评测工作，并取得了不错的表现。

但这种“Agent as a judge”的范式并不是万金油。当AI技术落地到复杂多变的现实工况中，依旧需要行业专家经验作为评测支撑。高自动化评测系统+人工介入，是目前更为有效的实际解决方案。

基于对评测体系的思考与实践，格灵深瞳构建了一套自研的Agent评测平台。在该平台能力的支撑下，开发者可以快速响应、高效优质地交付各行业定制化Agent。

评测系统架构图_2025-07-01_165711_327.jpg

格灵深瞳自研Agent评测系统架构图

例如，格灵深瞳在为金融机构、政企客户打造专属Agent时，该评测平台能够助力极大缩短开发周期，依靠数据生成快速构建场景，并利用沙箱环境提前模拟测试，提高交付质量。更重要的是，该平台的多维度指标和真实环境仿真，可以让Agent的输出结果既准确又合规，成为真正的专业级产品，经得住实际业务中的复杂考验。

在该评测系统的支撑下，企业Agent不仅是一个“能用”的工具，更是一个稳定、可靠、能持续进化的智能伙伴。未来，如何衡量企业Agent的价值，如何构建可靠、自动的评测系统，这背后的道与术，将是格灵深瞳持续思考和实践的致力方向。

返回列表

企业Agent如何从“能用”到“好用”？格灵深瞳的评测实战方法论

AI+轨交运维｜格灵深瞳列车智能检测解决方案获GDEC权威认可

AI赋能智慧交管，格灵深瞳子公司开云智联亮相第十四届交博会

格灵深瞳打造 Glint Box 视觉智能工坊：自进化的“AI 驻场总工”来了！

格灵深瞳受邀参加昇思人工智能框架峰会2024并发表主题演讲

格灵深瞳受邀参加ChinaJoy AIGC大会，分享AI产业新洞察

格灵深瞳入围「2023 AIGC赋能金融创新引领者TOP 20」和「2023 AGI独角兽TOP 100」榜单

格灵深瞳AI体育产品助力2所中学入选「北京市智慧校园示范校」