Agentic AI：评估与安全防护，释放大模型潜力的关键

随着人工智能技术的飞速发展，我们正步入一个由 Agentic AI（自主智能体）系统驱动的新时代。这些系统超越了简单的模式识别和响应生成，具备了规划、推理和实时适应能力，如同人类助手一般。然而，这种强大的能力也带来了前所未有的责任。为了确保 Agentic AI 系统的可靠性、安全性以及符合伦理规范，至关重要的是建立完善的评估体系和 安全防护 (Guardrails)机制。本文将深入探讨评估和 安全防护 在 Agentic AI 系统开发中的关键作用，并分析其定义、类型、组成部分、优势、挑战和最佳实践，旨在帮助组织机构在充分利用 Agentic AI 变革潜力的同时，有效降低风险，并确保其与人类价值观和社会规范相符。

Agentic AI：超越传统AI的自主智能体

Agentic AI 代表了人工智能发展的一个根本性转变。与传统的 AI 模型不同，Agentic AI 系统能够以最小的人工干预执行复杂的多步骤流程。它们被设计成能够独立行动以实现特定目标，协调多个组件，并根据对环境和任务需求的理解做出决策。例如，一个标准的聊天机器人可能只是对特定查询提供预先设定的回应，而 Agentic AI 系统则能完成更复杂的任务，比如撰写一篇营销邮件，需要进行市场调研，提炼产品卖点，生成草稿，并根据反馈进行修改，最终完成高质量的邮件发送。

Agentic AI 的能力远不止于简单的问答或内容生成。它们可以规划行动顺序，推理这些行动的后果，并根据反馈和变化的环境调整其策略。这使得它们在需要复杂问题解决、决策制定和适应动态环境的任务中尤为有价值。

例如，在金融交易领域，Agentic AI 系统可以分析市场趋势并自主执行复杂的交易策略。在医疗保健领域，它们可以通过考虑患者病史、当前症状和最新的医学研究来协助治疗计划的制定。在客户服务领域，它们可以通过检索相关文档、规划多个响应步骤，甚至安排后续行动来帮助客服代表解决复杂问题。这些实际应用都证明了 Agentic AI 的变革潜力。

评估：全面衡量Agentic AI性能的必要性

传统的评估方法通常侧重于准确率、精确率、召回率或 F1 分数等指标。虽然这些指标对于评估简单 AI 模型在明确定义的任务中的表现很有价值，但它们不足以评估 Agentic AI 系统复杂、多步骤和上下文相关的行为。

评估 Agentic AI 系统面临诸多挑战：

复杂的输入和行动空间：Agentic AI 必须处理大量的可能用户意图、环境条件和历史背景。每次交互都可能向多个方向分支，使得通过手动测试实现全面覆盖几乎是不可能的。例如，在自动驾驶汽车领域，系统需要应对各种天气、路况和交通状况，其复杂性远超传统图像识别任务。
多步骤决策过程：这些系统规划相互关联的行动序列，其中每一步都影响后续步骤，从而产生分支路径、依赖关系和潜在的级联错误。仅仅关注最终输出正确性的评估忽略了中间的规划或工具使用是否高效、连贯或适当。例如，一个电商平台的推荐系统不仅要推荐用户可能购买的商品，还要考虑用户的历史购买记录、浏览行为、社交关系等等，任何一个环节的错误都可能导致推荐效果不佳。
组件间依赖性：Agentic AI 系统通常包括用于规划、记忆管理、外部工具使用等模块。性能问题通常源于这些模块的交互方式，而不是任何单个组件的孤立问题。例如，一个智能家居系统，如果语音识别模块出现问题，可能导致整个系统的功能失效。

这些挑战突显了为什么传统的评估方法在评估 Agentic AI 系统时会显得不足。我们需要一种更全面的方法，系统地覆盖巨大的输入空间，评估多步骤推理和决策过程，评估组件级别的性能和集成，纳入领域专业知识和人类反馈，提供持续改进的机制，并确保安全和可控的部署。

Raga.ai 提出的一个包含八个互连步骤的整体、多方面的评估框架，旨在全面评估 Agentic AI 系统的性能、安全性和可靠性：

Agent 轨迹的合成数据生成：Agentic AI 系统通常执行多步骤推理，处理扩展对话，并集成外部 API。真实世界的日志可能受到限制或偏向于典型的用户行为，从而使边缘或对抗性案例未经测试。合成数据有助于通过系统地引入边缘场景、启用对抗性压力测试和模拟自适应对话来确保彻底覆盖。
组件级评估：在评估整个系统之前，至关重要的是评估单个组件，如规划模块、记忆系统和工具集成。此步骤涉及测量每个组件的准确性和效率，识别潜在的瓶颈或故障点，并确保组件满足其特定的性能要求。
端到端评估：此步骤测试完整系统在真实世界任务和场景中的性能。它涉及测量总体任务完成率，评估输出的质量和适当性，并评估系统处理复杂的多步骤流程的能力。
人机协作评估：人类反馈和领域专业知识对于评估 Agentic AI 系统至关重要。此步骤包含专家评审、用户满意度指标以及与人类性能的比较评估。它有助于识别系统在技术上可能正确但在实践上无帮助或可能遗漏重要上下文因素的领域。
持续监控：评估不应在部署后结束。持续监控对于实时捕获问题、适应不断变化的用户需求以及识别新兴的故障或成功模式至关重要。此步骤涉及实施日志记录和监控系统，建立警报阈值，并定期审查性能指标。
安全性和一致性测试：确保 Agentic AI 系统尊重界限并与人类价值观保持一致至关重要。此步骤涉及测试系统对潜在有害请求的响应，评估其对道德准则的遵守情况，并验证其是否与组织价值观和政策保持一致。
对抗性测试：探测漏洞和边缘案例对于构建强大的 Agentic AI 系统至关重要。此步骤涉及尝试通过提示工程来操纵系统，测试其对冲突或含糊不清的指令的响应，并评估其对各种形式的攻击或滥用的弹性。
文档和透明度：维护评估方法、结果和局限性的清晰记录对于负责任的 AI 开发至关重要。此步骤涉及记录评估过程，与利益相关者分享结果，并公开系统的功能和局限性。

安全防护 (Guardrails)：确保AI系统安全可控运行

虽然全面的评估对于评估 Agentic AI 系统至关重要，但 安全防护 同样重要，以确保这些系统安全、合乎道德地运行，并符合组织价值观和监管要求。安全防护 是旨在执行政策和程序的技术，以及旨在指导 AI 智能体的行动以防止不必要或有害输出的技术措施。

可以将 安全防护 根据其目的和解决的风险类型分为以下几类：

适当性/道德安全防护：检查 AI 生成的内容是否具有毒性、有害、有偏见或基于刻板印象，并在任何此类不当内容到达用户之前将其过滤掉。它们确保 AI 响应符合人类价值观和社会规范，检查是否存在基于性别、种族或年龄等因素的偏见和歧视。
幻觉安全防护：确保 AI 生成的内容不包含在事实上错误或具有误导性的信息。它们有助于防止传播虚假或不准确的信息，这在事实准确性至关重要的领域（如医疗保健、金融或法律服务）中尤其重要。
法规遵从性安全防护：验证生成的内容是否符合法规要求，无论这些要求是通用的还是特定于行业或用例。它们确保系统符合法律法规，包括处理个人数据和保护个人权利。
对齐安全防护：确保生成的内容与用户期望保持一致，并且不会偏离其主要目的。它们有助于保持品牌一致性，并确保 AI 响应与上下文保持相关和适当。
验证安全防护：检查生成的内容是否符合特定标准，即内容包含或不包含某些信息。如果一段生成的内容被验证安全防护标记，则可以将该内容导入到更正循环中以修复错误。
技术安全防护：这些措施可以保护系统免受黑客或试图泄露敏感信息的用户进行的提示注入的攻击。它们还可以保护应用程序免受幻觉和其他技术漏洞的侵害。

例如，在医疗领域，安全防护 可以防止AI诊断系统给出不准确或有偏见的建议，确保患者的安全。在金融领域，安全防护 可以阻止AI交易系统进行非法或高风险的交易，保护投资者的利益。

Guardrails 的运作机制

安全防护 由四个相互关联的组件组成，每个组件都发挥着至关重要的作用：

检查器 (Checker)：检查器扫描 AI 生成的内容以检测错误并标记问题，例如冒犯性语言或有偏见的响应。它充当第一道防线，在潜在问题造成损害或违反道德准则之前识别它们。
校正器 (Corrector)：检查器识别出问题后，校正器会根据需要改进、更正和/或改进 AI 的输出。它可以纠正不准确之处，删除不适当的内容，并确保响应既准确又符合预期消息。校正器以迭代方式工作，不断改进内容，直到其达到要求的标准。
轨道 (Rail)：轨道管理检查器和校正器之间的交互。它对内容运行检查，如果内容未达到任何标准，则触发校正器进行调整。重复此过程，直到内容通过所有检查或达到预定义的校正限制。轨道还记录检查器和校正器的过程，为进一步分析提供数据。
保护器 (Guard)：保护器与所有其他三个组件交互，启动检查器和校正器以及轨道，协调和管理轨道，聚合来自轨道的结果，并传递更正后的消息。

实施安全防护的收益

在 Agentic AI 系统中实施 安全防护 具有许多好处，这些好处不仅限于基本的安全性和合规性：

隐私和安全：安全防护 可以加强 AI 系统，防止恶意行为者利用漏洞来操纵 AI 生成的结果。它们有助于保护组织及其客户，防止数据泄露、未经授权的访问和其他安全漏洞。
法规遵从性：随着政府对 AI 的审查力度越来越大，组织需要确保其 AI 系统符合现有和新兴的法律和标准。通过帮助公司维持其通用 AI 合规性，安全防护 可以降低因使用这些工具而产生的法律处罚和责任的风险。
信任：与客户和更广泛的公众保持信任对于组织来说至关重要。安全防护 可以持续监控和审查 AI 生成的输出，从而降低在公司外部发布错误内容的风险。这可以通过一致和安全的交互来建立用户信任。
一致的输出：智能体的交互变得一致且安全，因此可以建立用户信任。用户可以自信地与系统交互，并期望每次都能获得准确和可靠的结果。
减少偏差：安全防护 有助于确保 AI 系统产生较少的偏差输出，从而产生更公平和更准确的交互。这在偏差会产生重大负面影响的领域（如招聘、贷款或刑事司法）中尤其重要。
精简流程：自动合规性检查和基于道德原则的运营可以自动最大限度地减少通过手动检查进行监控的工作量，从而提高运营效率。
可扩展的解决方案：安全防护 可以在应用程序之间进行扩展，从而在组织内与道德和合规性相关的标准中提供一致性。这使得跨不同部门或业务部门部署 AI 系统变得更加容易，同时保持一致的标准。

评估与安全防护的最佳实践

基于研究和行业经验，在 Agentic AI 系统中实施评估框架和 安全防护 时，会出现一些最佳实践：

全面的方法：与其他程序控制（例如，AI 信任框架、监控和合规性软件、测试和评估实践）以及适当的 AI 运营技术堆栈一起实施 安全防护，从而可以在整个组织范围内扩展 AI 治理。
与现有系统集成：确保 安全防护 可以轻松地与现有技术堆栈和工作流程集成。这可以最大限度地减少中断，并使 安全防护 更有可能得到一致的应用。
针对不同用例的定制：使 安全防护 可定制以满足不同用例和领域的需求。这允许组织根据其特定要求调整 安全防护，同时保持一致的整体方法。
人工监督：对于需要人工推理的模糊案例，包括人工验证器。虽然自动化对于可扩展性很重要，但人工判断对于处理复杂或细微的情况仍然至关重要。
持续监控和改进：在部署期间实施持续评估，以实时捕获问题，并根据真实世界的性能持续提高 安全防护 的有效性。
整体评估：应用超越单轮准确性的评估框架，以评估 Agentic AI 系统中决策、规划和执行的整个过程。
文档和透明度：维护评估方法、结果和局限性的清晰记录。这支持问责制，促进改进，并与利益相关者建立信任。
对抗性测试：定期探测漏洞和边缘案例，以确保 安全防护 能够抵御潜在的攻击或滥用。
自主性和控制之间的平衡：在允许 AI 系统具有足够的自主性以发挥作用和创造力的同时，确保它们在适当的约束范围内运行之间找到适当的平衡。
利益相关者参与：让不同的利益相关者（包括技术专家、领域专家、伦理学家和最终用户）参与到 安全防护 的设计和评估中，以确保它们能够解决广泛的观点和问题。

未来发展方向

随着 Agentic AI 系统不断发展并更加融入商业和社会的各个方面，一些趋势和发展可能会影响评估和 安全防护 的未来：

作为安全防护的 AI 智能体：AI 智能体正在成为可以充当 安全防护 本身的工具。组织可以使用 AI 智能体自动检查和更正已被 安全防护 标记的 LLM 生成的内容。AI 智能体的早期模型可以像其他 AI 安全防护 一样，自主监控、调整和管理 AI 生成的输出。
集成到企业范围的 AI 治理中：安全防护 可能会更多地集成到企业范围的 AI 治理框架中，从而为确保整个组织中 AI 系统的安全和合乎道德的运营提供一致的方法。
更复杂的评估方法：随着 Agentic AI 系统变得更加复杂和强大，评估方法需要不断发展，以应对新的挑战和能力。这可能包括更高级的模拟环境、更复杂的用于评估多步骤推理的指标以及更好的用于分析新兴行为的工具。
跨行业标准化：跨行业 安全防护 实施的标准化可能会增加，从而开发可适应不同上下文的通用框架、工具和最佳实践。
监管框架：随着政府和监管机构制定针对 AI 系统的更具体的指导方针和要求，安全防护 需要不断发展，以确保符合这些框架。这可能包括针对某些类型 安全防护 的更标准化方法，特别是那些与安全性、隐私和公平性相关的 安全防护。
增强的透明度和可解释性：未来的 安全防护 可能会更加强调透明度和可解释性，使用户和利益相关者更容易理解 AI 系统如何做出决策以及 安全防护 如何影响这些决策。

结论

Agentic AI 系统的开发和部署代表了人工智能的重大进步，为自动化、辅助和决策提供了前所未有的能力。然而，这些强大的系统也带来了新的挑战和风险，必须谨慎管理，以确保它们能够安全、合乎道德地运行，并符合人类价值观和社会规范。

评估框架和 安全防护 在应对这些挑战方面发挥着关键作用。全面的评估确保 Agentic AI 系统经过全面测试和评估，涵盖多个维度，从技术性能到道德一致性。安全防护 提供了必要的保护措施，指导这些系统的行为，防止有害或不适当的行为，同时允许有益的自主性和创造力。

通过实施强大的评估框架和 安全防护，组织可以利用 Agentic AI 的变革潜力，同时降低风险，并确保与他们的价值观、政策和监管要求保持一致。这种平衡的方法对于建立信任、确保合规性以及最大限度地发挥这些强大技术的积极影响至关重要。

随着 Agentic AI 的不断发展，评估和 安全防护 的方法也将不断发展。行业、学术界和监管机构之间的持续研究、开发和协作对于应对新的挑战和机遇至关重要。通过始终站在这些发展的前沿，并采用评估和 安全防护 的最佳实践，组织可以定位自己，以便在未来几年内有效且负责任地利用 Agentic AI。

Agentic AI：评估与安全防护，释放大模型潜力的关键