首页 新闻中心 企业动态 企业Agent如何从“能用”到“好用”?格灵深瞳的评测实战方法论

企业Agent如何从“能用”到“好用”?格灵深瞳的评测实战方法论

来源格灵深瞳 作者格灵深瞳 发布时间2025-07-09
当前AI界和产业界,Agent成为现象级话题。企业Agent已经从热门概念走进产业现实,成为探索AI落地的新锚点。


6月27-28日,由极客邦科技旗下InfoQ中国主办的“AICon全球人工智能开发与应用大会”在北京举办。作为行业领先的视觉AI公司,格灵深瞳受邀参会。


在“AI Agent构建与多场景实践”专题现场,格灵深瞳研发副总裁、AI Infra负责人闫梓祯分享了名为《构建高可信自动化企业Agent评测体系的实战方法论》的主题演讲,从企业Agent评测的重要性、现状、实战方法等维度,讲述了格灵深瞳团队对于这一话题的思考与实践。

2_2954125.jpg

格灵深瞳研发副总裁、AI Infra负责人闫梓祯

“If you can't measure it,you can't improve it.” (如果你不去评测它,便无法提升它。)谈及评测对于企业Agent开发与落地的重要性,闫梓祯表示,有效评测是提升Agent应用效果的关键。随着模型能力快速提升,技术刷爆榜单的速度越来越快,应用层Agent开发亟需更有效、更严格的评估机制,才能更客观地反映AI的真实表现,解决技术参数与实际效果之间的gap问题。


基于多年的开发与交付经验,闫梓祯分享了现阶段企业Agent评测的发展状态和面临的问题。当前,企业Agent在各行业、各场景下的落地尚处于早期起步阶段,具体到评测环节,企业往往面临“如何评测”、“对接真实业务系统后如何保证应用效果”等实际问题。


对企业来说,真实反映AI能力、客观衡量AI效果的需求越来越迫切,相应地,实现难度也越来越大。如何构建一套高可信度、自动化、规模化的企业Agent评测系统,成为业内关注的焦点。


相较于单纯依靠人工评测,闫梓祯建议,使用大模型或者Agent相关技术来构建评测体系——让Agent自动生成评测数据集、自动对评测对象进行打分,从而实现整个评测流程的规模化和自动化。在格灵深瞳,已经鼓励研发人员和产品经理使用大模型来辅助评测工作,并取得了不错的表现。


但这种“Agent as a judge”的范式并不是万金油。当AI技术落地到复杂多变的现实工况中,依旧需要行业专家经验作为评测支撑。高自动化评测系统+人工介入,是目前更为有效的实际解决方案。


基于对评测体系的思考与实践,格灵深瞳构建了一套自研的Agent评测平台。在该平台能力的支撑下,开发者可以快速响应、高效优质地交付各行业定制化Agent。

评测系统架构图_2025-07-01_165711_327.jpg

格灵深瞳自研Agent评测系统架构图

例如,格灵深瞳在为金融机构、政企客户打造专属Agent时,该评测平台能够助力极大缩短开发周期,依靠数据生成快速构建场景,并利用沙箱环境提前模拟测试,提高交付质量。更重要的是,该平台的多维度指标和真实环境仿真,可以让Agent的输出结果既准确又合规,成为真正的专业级产品,经得住实际业务中的复杂考验。


在该评测系统的支撑下,企业Agent不仅是一个“能用”的工具,更是一个稳定、可靠、能持续进化的智能伙伴。未来,如何衡量企业Agent的价值,如何构建可靠、自动的评测系统,这背后的道与术,将是格灵深瞳持续思考和实践的致力方向。

更多精彩内容
即刻开启企业AI之旅
该信息仅用于格灵深瞳与您沟通以及了解您的业务需求,如您不同意提供个人信息,请关闭本表单页面。
*联系人:
*联系电话:
*联系邮箱:
*获取验证码:
点击获取验证码
立即提交
提交成功
感谢提交,近期将有格灵深瞳工作人员与您取得联系, 请您保持电话畅通。
资料下载
*姓名:
*手机号:
*邮箱:
*获取验证码:
点击获取验证码
*公司名称:
*职位:
*您是否有其他具体的业务需求?
是,请尽快与我取得联系
否,暂时无其他需求
立即下载