企业级 Agent 落地实战:如何建立可量化的 SLA 指标体系

张开发
2026/4/12 21:00:05 15 分钟阅读

分享文章

企业级 Agent 落地实战:如何建立可量化的 SLA 指标体系
企业级 Agent 落地实战:如何建立可量化的 SLA 指标体系一、引言1.1 钩子:那些年被“AI 救火队”坑过的百万订单去年11月的一个深夜11:47,我收到了前同事——某上市SaaS公司客服中心技术负责人老李的微信语音,带着哭腔的尾音里夹杂着键盘敲击声和此起彼伏的电话铃:“完了完了,这次至少丢3个年付费百万级的客户,还要赔至少120万的违约金!Agent 上周才全量上线的,怎么关键时刻掉链子啊……”后来我才知道,那天是他们SaaS平台的年终结算大促预热前夕,C端流量暴涨17倍,原本承诺给这3个TOP客户的**“专属AI售前咨询SLA响应时间≤1秒、解决率≥98%、转人工率≤2%”** 全泡汤了:专属Agent集群直接因为Prompt缓存池并发冲突挂掉了3/4,剩下的Agent要么卡30秒以上才蹦出一句“对不起,请您稍后再试”,要么识别不了客户的专业术语直接全转人工——当天晚上人工客服从200人临时加派到1200人还是接不住,投诉量直接破了全年单日记录,3个客户当天就发了解约意向函,还有17个年付费10-50万的客户发了降配申请。这件事给了我极大的震动:老李他们上线Agent之前明明也做了内测,内测期SLA指标响应时间0.8秒、解决率98.5%、转人工率1.8%,怎么一到生产环境就全崩了?后来深入复盘才发现,他们所谓的“SLA指标体系”根本就是**“拍脑袋定的、用实验室数据凑的、没有分场景分层级的、没有任何监控预警和兜底机制的废纸一张”**:内测期用的是1000条精心筛选的历史标准咨询数据,Prompt是资深产品经理手写的3页纸“完美Prompt”,缓存池没有预热机制,并发测试只测了峰值流量的1/3,分层级场景只做了C端通用咨询,根本没碰过TOP客户的专属复杂场景(比如跨产品包定制功能咨询、API对接排期实时查询这类需要调用内部CRM、ERP、BI、工单系统多个数据源的Agent任务)。1.2 定义问题/阐述背景:为什么企业级 Agent 需要可量化的 SLA 指标体系?1.2.1 什么是企业级 Agent?在正式展开之前,我们必须先明确一个核心概念:企业级 Agent ≠ 普通的C端聊天机器人(Chatbot)、对话式AI(Conversational AI)、甚至单功能的RPA机器人。根据Gartner在2024年3月发布的《企业级自主代理(Enterprise Autonomous Agent, EAA)技术成熟度曲线报告》,企业级Agent是指具备“感知(Sense)-认知(Cognize)-决策(Decide)-行动(Act)-反思(Reflect)”完整闭环能力、能够自主或半自主完成特定企业级业务流程或复杂任务、具备可扩展性、可审计性、可维护性、安全性等企业级核心特性的智能系统。这里我给大家举几个典型的企业级Agent落地场景,方便大家理解:TOP客户专属售前/售后咨询Agent:比如老李他们SaaS公司的场景,需要调用CRM查客户的合同信息、产品包信息、历史服务记录,调用ERP查库存信息、生产排期,调用BI查客户的使用数据、ROI数据,调用工单系统查当前正在处理的工单进度,甚至可以直接给客户发起在线会议邀请、生成定制化的解决方案PDF、提交API对接申请单——整个流程不需要人工介入。财务报销智能审核Agent:比如腾讯、阿里、华为这些大厂用的场景,需要调用OCR识别发票、行程单、打车票等报销凭证的真实性和合规性,调用企业内部的差旅标准、报销标准、预算标准做比对,调用部门预算池查剩余预算,调用钉钉/飞书/企业微信查审批链,自动给合规的报销单打款、自动给不合规的报销单标注原因并退回、自动生成月度/季度/年度的财务报销分析报告——整个流程可以把原来人工审核需要的72小时压缩到30秒以内,准确率可以达到99.9%以上。代码审查智能Agent:比如GitHub Copilot Enterprise、CodeGuru Reviewer Enterprise这类场景,需要调用静态代码分析工具查语法错误、安全漏洞、代码规范问题,调用动态代码分析工具查性能瓶颈、内存泄漏问题,调用代码库查历史类似的问题修复方案、最佳实践代码,自动生成代码审查报告、自动标注优先级最高的问题、自动给开发者提供修复建议——整个流程可以把原来资深工程师需要的4小时代码审查压缩到5分钟以内,发现安全漏洞的概率可以提高300%以上。供应链智能预警与调度Agent:比如京东、顺丰、特斯拉这些大厂用的场景,需要调用IoT传感器查仓库库存、车辆位置、货物状态,调用天气预报API查未来7天的天气情况,调用交通实时路况API查道路拥堵情况,调用供应商系统查原材料供应情况,调用生产系统查生产排期,自动生成库存预警、原材料供应预警、运输延迟预警,自动调整库存调度方案、运输路线、生产排期——整个流程可以把原来人工预警需要的24小时压缩到5分钟以内,供应链中断的概率可以降低80%以上。1.2.2 为什么普通的C端聊天机器人指标体系不适用于企业级 Agent?很多企业在上线Agent的时候,都会直接照搬C端聊天机器人的指标体系,比如“响应时间、对话轮数、转人工率、用户满意度”——但这些指标根本无法衡量企业级Agent的核心价值(比如降本增效的具体金额、业务流程优化的具体程度、风险防控的具体效果),也无法支撑企业级Agent的企业级核心特性(比如可扩展性、可审计性、可维护性、安全性),更无法应对企业级业务场景的复杂性和不确定性(比如跨系统调用的失败率、Prompt Injection的概率、Agent幻觉的频率、复杂任务的完成率)。为了让大家更直观地理解普通C端聊天机器人指标体系和企业级Agent指标体系的区别,我先给大家列一个简单的对比表(后面章节还会有更详细的核心属性维度对比markdown表格):指标类型普通C端聊天机器人指标体系企业级Agent指标体系核心价值指标用户满意度、活跃用户数、日均对话量降本增效金额、业务流程优化率、风险防控成功率、复杂任务完成率业务功能指标响应时间、对话轮数、转人工率、意图识别准确率响应时间(分层级、分场景)、任务完成时间(分层级、分场景)、意图识别准确率(分层级、分场景)、实体提取准确率(分层级、分场景)、跨系统调用成功率、Prompt Injection概率、Agent幻觉频率、合规性通过率企业级特性指标无(或极少)可扩展性指标(水平扩展能力、垂直扩展能力)、可审计性指标(日志覆盖率、日志保留时长、审计报告生成时间)、可维护性指标(代码覆盖率、单元测试通过率、回归测试通过率、Bug修复时间)、安全性指标(数据加密覆盖率、身份认证通过率、授权控制通过率、漏洞修复时间)监控预警指标无(或极少)实时监控指标(集群CPU使用率、集群内存使用率、集群网络带宽使用率、缓存池命中率、API调用QPS/TPS)、历史趋势指标(响应时间增长率、任务完成时间增长率、跨系统调用失败率增长率、Agent幻觉频率增长率)、阈值预警指标(CPU使用率阈值、内存使用率阈值、响应时间阈值、跨系统调用失败率阈值、Agent幻觉频率阈值)兜底机制指标无(或极少)转人工兜底成功率、临时降级方案启用率、临时降级方案任务完成率、临时降级方案用户满意度1.2.3 可量化的SLA指标体系对企业级Agent落地的重要性Gartner在2024年3月发布的《企业级自主代理落地成功关键因素报告》中指出,“建立可量化、分场景、分层级、可监控、可预警、可兜底的SLA指标体系”是企业级Agent落地成功的第一关键因素,占比高达67.2%——排在第二的是“明确的业务目标和业务场景定义”(占比58.9%),排在第三的是“完善的Prompt工程和RAG系统搭建”(占比49.7%)。为什么可量化的SLA指标体系这么重要?我从以下五个维度给大家展开分析:1.2.3.1 维度一:明确业务目标,对齐利益相关方的期望企业级Agent的落地通常涉及多个利益相关方:业务部门(比如客服中心、财务部、供应链部、技术开发部)、产品部门、技术部门、运营部门、安全部门、合规部门、甚至董事会和投资人——每个利益相关方对企业级Agent的期望都是不一样的:业务部门:期望Agent能够降本增效、提升业务流程效率、降低风险;产品部门:期望Agent能够提升用户体验、增加用户粘性、扩大市场份额;技术部门:期望Agent能够稳定运行、可扩展、可维护、安全;运营部门:期望Agent能够被快速推广、被用户接受、运营成本可控;安全部门:期望Agent能够保护用户数据和企业数据的安全、防止Prompt Injection、防止数据泄露;合规部门:期望Agent能够符合行业合规要求(比如GDPR、CCPA、HIPAA、等保2.0/3.0);董事会和投资人:期望Agent能够带来明确的ROI回报。如果没有可量化的SLA指标体系,这些利益相关方的期望就会非常模糊,甚至会产生冲突——比如业务部门期望Agent的响应时间≤1秒、解决率≥98%,而技术部门可能会说“这个指标太高了,我们现在的技术架构和预算根本达不到”;比如安全部门期望Agent的Prompt Injection概率≤0.001%,而产品部门可能会说“这个指标会严重影响Agent的用户体验,我们能不能稍微放宽一点?”而有了可量化的SLA指标体系之后,我们就可以把这些模糊的期望转化为具体的、可测量的、可达成的、相关的、有时间限制的(SMART原则)指标——然后通过这些指标对齐所有利益相关方的期望,避免产生冲突。1.2.3.2 维度二:指导技术架构设计和开发,降低落地风险很多企业在上线Agent的时候,都会犯一个错误:“先把Agent上线再说,SLA指标后面再慢慢调”——但这个错误的代价是非常大的,比如老李他们公司的例子,上线之后SLA指标全崩了,丢了客户,赔了钱,还浪费了大量的人力、物力、财力。而有了可量化的SLA指标体系之后,我们就可以在技术架构设计和开发之前,就明确SLA指标的要求——然后根据这些SLA指标的要求,选择合适的技术架构、合适的技术栈、合适的第三方服务,设计合适的缓存机制、负载均衡机制、容错机制、监控预警机制、兜底机制——这样就可以大大降低企业级Agent的落地风险。比如,如果我们的SLA指标要求“分层级TOP客户专属Agent的响应时间≤1秒、跨系统调用成功率≥99.99%、可扩展性水平扩展能力≥100倍”——那么我们在技术架构设计的时候,就应该选择微服务架构+云原生架构+Kubernetes容器编排+Redis集群缓存池+CDN静态资源加速+API网关限流熔断+Prometheus+Grafana实时监控+Elasticsearch+Kibana日志分析+Istio服务网格灰度发布+备用人工客服兜底集群——这样的技术架构才能够满足我们的SLA指标要求。1.2.3.3 维度三:评估Agent的性能和效果,优化Agent的迭代方向很多企业在上线Agent之后,都会犯另一个错误:“不知道怎么评估Agent的性能和效果,也不知道怎么优化Agent的迭代方向”——比如上线之后只看用户满意度,但是用户满意度低的原因是什么?是响应时间太长?是意图识别不准确?是Agent幻觉太多?是跨系统调用失败了?还是用户的问题本身就太复杂?根本不知道——所以优化Agent的迭代方向也只能是“瞎试”:今天改一下Prompt,明天加一点RAG数据,后天换一个大模型——结果可能越改越差。而有了可量化的SLA指标体系之后,我们就可以通过实时监控和历史趋势分析,全面评估Agent的性能和效果——然后找出性能和效果不达标的原因,优化Agent的迭代方向:如果响应时间太长:我们可以优化Prompt的长度、优化RAG系统的检索速度、优化缓存池的命中率、优化跨系统调用的顺序、优化API网关的限流熔断策略、水平扩展Agent集群;如果意图识别不准确:我们可以增加意图识别的训练数据、优化意图识别的模型架构、优化Prompt的意图识别部分、增加Few-shot/CoT/ToT等Prompt工程技巧;如果Agent幻觉太多:我们可以增加RAG系统的数据源、优化RAG系统的检索策略、增加Prompt的幻觉抑制部分、增加外部工具调用的验证机制、增加人类反馈强化学习(RLHF)/直接偏好优化(DPO)/近端偏好优化(PPO)等对齐技术;如果跨系统调用失败率太高:我们可以优化API网关的限流熔断策略、增加API调用的重试机制、增加API调用的超时设置、增加备用数据源、增加备用API服务;如果复杂任务完成率太低:我们可以优化Agent的任务拆解能力、优化Agent的规划能力、优化Agent的反思能力、增加更多的外部工具、增加Few-shot/CoT/ToT等Prompt工程技巧。1.2.3.4 维度四:监控Agent的运行状态,及时发现和解决问题企业级Agent的生产环境通常是非常复杂的:可能会遇到大模型API的限流、可能会遇到内部系统的故障、可能会遇到缓存池的并发冲突、可能会遇到网络的拥堵、可能会遇到Prompt Injection的攻击、可能会遇到数据泄露的风险——如果没有可监控的SLA指标体系,我们就无法及时发现这些问题,等到问题爆发的时候,可能已经造成了不可挽回的损失。而有了可监控的SLA指标体系之后,我们就可以通过Prometheus+Grafana等实时监控工具,24小时不间断地监控Agent的运行状态——然后通过阈值预警机制,在问题爆发之前就发现问题,及时解决问题:如果集群CPU使用率超过了80%的阈值:我们可以提前水平扩展Agent集群;如果缓存池命中率低于了90%的阈值:我们可以提前优化缓存池的预热机制、优化缓存池的淘汰策略;如果响应时间超过了2秒的阈值(预留给我们解决问题的缓冲时间):我们可以提前检查大模型API的状态、检查内部系统的状态、检查网络的状态、检查缓存池的状态;如果跨系统调用失败率超过了0.1%的阈值:我们可以提前检查API网关的限流熔断策略、检查内部系统的状态、增加API调用的重试机制;如果Agent幻觉频率超过了0.5%的阈值:我们可以提前检查RAG系统的数据源、优化Prompt的幻觉抑制部分、增加外部工具调用的验证机制。1.2.3.5 维度五:建立完善的兜底机制,降低用户体验损失和业务损失无论我们的SLA指标体系设计得多么完善,无论我们的技术架构设计得多么健壮,企业级Agent的生产环境还是有可能会遇到不可预测的问题——比如大模型API的全线下线、比如内部系统的大规模故障、比如网络的大面积中断——这时候我们就需要有完善的兜底机制,来降低用户体验损失和业务损失。而有了可兜底的SLA指标体系之后,我们就可以在技术架构设计的时候,就明确兜底机制的要求——然后根据这些要求,设计合适的兜底机制:如果Agent的响应时间超过了5秒的绝对阈值:我们可以自动启用临时降级方案(比如用预定义的FAQ机器人代替Agent);如果Agent的跨系统调用失败率超过了1%的绝对阈值:我们可以自动启用备用数据源或备用API服务;如果Agent的集群全部挂掉了:我们可以自动启用备用人工客服兜底集群;如果发生了Prompt Injection的攻击:我们可以自动启用Prompt防火墙,拦截攻击;如果发生了数据泄露的风险:我们可以自动启用数据加密和数据脱敏机制,防止数据泄露。同时,我们还可以通过可量化的兜底机制指标,评估兜底机制的性能和效果,优化兜底机制的迭代方向。1.3 亮明观点/文章目标:读完这篇文章你能学到什么?1.3.1 文章核心观点本文的核心观点是:企业级Agent的落地必须建立一套“以业务目标为导向、分场景分层级、可量化可测量、可监控可预警、可兜底可追溯”的SLA指标体系——这套指标体系不是“拍脑袋定的、用实验室数据凑的”,而是“基于明确的业务目标和业务场景定义、基于SMART原则、基于行业最佳实践、基于企业自身的实际情况”设计的;这套指标体系也不是“一成不变的”,而是“随着业务目标的变化、随着业务场景的变化、随着技术的发展、随着用户反馈的变化”不断优化的。1.3.2 文章目标读完这篇文章之后,你将能够:理解企业级Agent的核心概念和核心价值:区分企业级Agent和普通C端聊天机器人的区别,理解企业级Agent对企业的重要性;掌握企业级Agent SLA指标体系的设计原则和设计方法:基于SMART原则、分场景分层级原则、可量化可测量原则、可监控可预警原则、可兜底可追溯原则,设计一套适合企业自身实际情况的SLA指标体系;掌握企业级Agent SLA指标体系的落地实战步骤:从明确业务目标和业务场景定义开始,到设计分场景分层级的SLA指标体系,再到搭建实时监控和日志分析系统,再到设置阈值预警机制,再到建立完善的兜底机制,最后到评估和优化SLA指标体系——通过一个完整的实战案例,带你从零开始落地一套可量化的SLA指标体系;掌握企业级Agent SLA指标体系的进阶探讨和最佳实践:了解常见的陷阱和避坑指南,了解性能优化和成本考量的方法,了解行业发展和未来趋势;获取企业级Agent SLA指标体系的实用工具和资源:包括实时监控工具、日志分析工具、测试工具、Prompt工程工具、对齐技术工具、行业最佳实践报告、官方文档等。1.3.3 文章主要内容预告为了让大家更好地理解文章的结构,我先给大家简要预告一下文章将要涵盖的主要内容:第二章:基础知识/背景铺垫:解释企业级Agent的核心概念和核心要素组成,解释SLA的核心概念和核心要素组成,解释企业级Agent SLA指标体系的核心概念和核心要素组成,对比普通C端聊天机器人指标体系和企业级Agent SLA指标体系的核心属性维度,介绍企业级Agent SLA指标体系的常用工具和技术;第三章:核心内容/实战演练:通过一个完整的实战案例——“某上市SaaS公司TOP客户专属售前/售后咨询Agent SLA指标体系的落地”,带你从零开始落地一套可量化的SLA指标体系:包括明确业务目标和业务场景定义、设计分场景分层级的SLA指标体系、搭建实时监控和日志分析系统、设置阈值预警机制、建立完善的兜底机制、评估和优化SLA指标体系;第四章:进阶探讨/最佳实践:介绍常见的陷阱和避坑指南,介绍性能优化和成本考量的方法,介绍可扩展性、可审计性、可维护性、安全性等企业级核心特性的指标设计方法,介绍如何用数学模型来优化SLA指标体系,介绍如何用算法来自动化评估和优化SLA指标体系;第五章:结论:总结文章的核心要点,展望企业级Agent SLA指标体系的未来发展趋势,给读者留下一个开放性问题,引发其进一步思考,鼓励读者亲手尝试,在评论区交流,提供进一步学习的资源链接。二、基础知识/背景铺垫2.1 企业级Agent的核心概念和核心要素组成2.1.1 企业级Agent的核心概念的再定义在第一章的引言中,我已经给大家简单介绍了Gartner对企业级自主代理(Enterprise Autonomous Agent, EAA)的定义——但为了让大家更深入地理解企业级Agent的核心概念,我在这里给大家做一个更详细的、更符合国内企业实际情况的再定义:企业级Agent是指:部署在企业内部或企业信任的云环境中(通常是私有云、混合云或专属云,很少使用公有云的共享环境);具备“感知(Sense)-认知(Cognize)-决策(Decide)-行动(Act)-反思(Reflect)-学习(Learn)”完整的六步闭环能力(比Gartner的定义多了“学习”这一步,因为国内企业非常重视Agent的持续学习能力);能够自主或半自主完成特定的、高价值的、重复性的企业级业务流程或复杂任务(高价值是指能够带来明确的降本增效或风险防控效果,重复性是指能够被标准化和自动化,特定是指不能什么任务都做,必须有明确的边界);具备可扩展性、可审计性、可维护性、安全性、合规性、高可用性、高可靠性等企业级核心特性(这些特性是企业级Agent区别于普通C端聊天机器人的最核心的标志);能够与企业内部的现有系统(比如CRM、ERP、BI、工单系统、OA系统、HR系统、财务系统、供应链系统等)和外部系统(比如大模型API、第三方服务API、天气API、交通API等)无缝集成(无缝集成是指不需要人工介入,Agent可以自动调用这些系统的API);能够为不同层级的用户(比如TOP客户、VIP客户、普通客户、企业内部员工等)提供个性化的服务(个性化是指Agent可以根据用户的身份、历史行为数据、偏好等信息,调整自己的服务内容和服务方式);能够被人类用户(比如企业内部员工、客户等)信任和控制(信任是指Agent的行为是透明的、可解释的,控制是指人类用户可以随时干预Agent的行为、可以随时暂停Agent的服务、可以随时修改Agent的规则);2.1.2 企业级Agent的六步闭环能力详解企业级Agent的六步闭环能力是其最核心的能力——下面我给大家详细解释每一步能力的含义和实现方法:2.1.2.1 第一步:感知(Sense)感知能力是指企业级Agent能够接收和理解来自内部系统、外部系统、人类用户等各种渠道的输入信息的能力——输入信息的类型可以是文本、语音、图片、视频、结构化数据(比如JSON、XML、CSV)等。感知能力的实现方法通常包括:文本感知:用大模型的文本理解能力、用自然语言处理(NLP)工具(比如spaCy、NLTK、HanLP、LTP)的意图识别、实体提取、情感分析等能力;语音感知:用自动语音识别(ASR)工具(比如阿里云语音识别、腾讯云语音识别、百度语音识别、OpenAI Whisper)把语音转化为文本;图片感知:用计算机视觉(CV)工具(比如阿里云视觉识别、腾讯云视觉识别、百度视觉识别、OpenAI GPT-4V、Google Gemini Pro Vision)把图片转化为文本;视频感知:用计算机视觉(CV)工具把视频的每一帧转化为图片,然后再把图片转化为文本,或者用专门的视频理解工具(比如阿里云视频理解、腾讯云视频理解、百度视频理解)直接理解视频的内容;结构化数据感知:用API调用的方式从内部系统或外部系统获取结构化数据,然后用大模型的结构化数据理解能力理解这些数据;2.1.2.2 第二步:认知(Cognize)认知能力是指企业级Agent能够基于感知到的输入信息、结合自己的知识储备(比如Prompt知识、RAG知识、预训练知识)、结合自己的规则库(比如业务规则、合规规则、安全规则)、结合自己的历史经验(比如历史对话记录、历史任务记录、历史反馈记录),对输入信息进行分析和推理,理解用户的真实需求的能力。认知能力的实现方法通常包括:知识储备管理:用Prompt工程(比如Few-shot、CoT、ToT、ReAct、Plan-and-Execute)管理Prompt知识,用检索增强生成(RAG)系统管理RAG知识,用大模型的预训练能力管理预训练知识;规则库管理:用规则引擎(比如Drools、Easy Rules、Aviator、QLExpress)管理业务规则、合规规则、安全规则;历史经验管理:用向量数据库(比如Pinecone、Chroma、Weaviate、Milvus、Zilliz)存储和检索历史对话记录、历史任务记录、历史反馈记录;分析和推理:用大模型的分析和推理能力、用Few-shot/CoT/ToT等Prompt工程技巧提高分析和推理的准确性;2.1.2.3 第三步:决策(Decide)决策能力是指企业级Agent能够基于认知到的用户真实需求、结合自己的知识储备、结合自己的规则库、结合自己的历史经验,制定出一个或多个可行的解决方案,并选择出最优的解决方案的能力。决策能力的实现方法通常包括:方案制定:用大模型的方案制定能力、用Plan-and-Execute等Prompt工程技巧提高方案制定的合理性;方案评估:用规则引擎评估方案的合规性、安全性、可行性,用数学模型(比如成本效益分析模型、风险评估模型)评估方案的成本效益、风险;方案选择:用大模型的方案选择能力、用数学模型(比如多目标决策模型、层次分析法AHP、模糊综合评价法)选择出最优的解决方案;2.1.2.4 第四步:行动(Act)行动能力是指企业级Agent能够基于决策出的最优解决方案,调用内部系统或外部系统的API,执行具体的行动步骤,完成用户的真实需求的能力。行动能力的实现方法通常包括:工具调用:用大模型的工具调用能力(比如OpenAI Function Calling、Google Gemini Function Calling、Anthropic Claude Tools)、用LangChain、LlamaIndex、AutoGPT、CrewAI等Agent开发框架管理工具调用;API调用管理:用API网关(比如Kong、Apigee、AWS API Gateway、阿里云API网关)管理API调用的限流熔断、超时设置、重试机制、身份认证、授权控制;任务执行管理:用任务调度器(比如Celery、Quartz、XXL-Job、Elastic-Job)管理任务的执行顺序、执行时间、执行重试;2.1.2.5 第五步:反思(Reflect)反思能力是指企业级Agent能够基于行动的结果、结合自己的知识储备、结合自己的规则库、结合自己的历史经验,反思自己的感知、认知、决策、行动是否正确,找出存在的问题和不足的能力。反思能力的实现方法通常包括:结果评估:用规则引擎评估行动结果的合规性、安全性、准确性,用用户反馈(比如评分、评论)评估行动结果的用户满意度,用业务指标(比如任务完成率、业务流程优化率、降本增效金额)评估行动结果的业务价值;问题诊断:用大模型的问题诊断能力、用日志分析工具(比如Elasticsearch+Kibana、Loki+Grafana、Splunk)诊断存在的问题和不足;反思记录:用向量数据库存储和检索反思记录;2.1.2.6 第六步:学习(Learn)学习能力是指企业级Agent能够基于反思的结果、结合自己的知识储备、结合自己的规则库、结合自己的历史经验,更新自己的知识储备、更新自己的规则库、更新自己的模型参数,提高自己的感知、认知、决策、行动、反思能力的能力。学习能力的实现方法通常包括:知识储备更新:用Prompt工程更新Prompt知识,用RAG系统的增量更新功能更新RAG知识,用人类反馈强化学习(RLHF)/直接偏好优化(DPO)/近端偏好优化(PPO)等对齐技术更新预训练知识(即微调大模型);规则库更新:用规则引擎的增量更新功能更新业务规则、合规规则、安全规则;模型参数更新:用大模型的微调功能更新模型参数,用在线学习(Online Learning)的方式实时更新模型参数;为了让大家更直观地理解企业级Agent的六步闭环能力,我给大家画一个mermaid架构图:

更多文章