AI Evals：大模型时代风险管理的基石

在大模型技术飞速发展的今天，企业竞相推出各种AI功能。然而，一项至关重要的环节却常常被忽视，那就是 AI Evals (AI 评估)。AI Evals 不仅仅是测试，而是结构化、可验证的安全措施，用于确保AI系统按照预期运行。可以将 AI Evals 视为AI系统的单元测试和持续集成(CI)关卡，但其重要性甚至更高。做好 AI Evals 可以避免代价高昂的错误，而忽略它们则可能导致混乱甚至法律纠纷。因此，理解并有效实施 AI Evals 是大模型时代风险管理的基石。

缺失 AI Evals 的惨痛教训：真实世界的风险警示

缺乏有效的 AI Evals 会带来严重的后果，以下是一些真实世界的案例：

加拿大航空的聊天机器人诉讼：一个聊天机器人错误地告诉客户他们可以追溯获得丧亲机票优惠。当客户尝试兑现时，航空公司拒绝退款。法院最终判决加拿大航空败诉，认为航空公司应为聊天机器人的回应负责。这个案例凸显了缺乏 AI Evals 导致的法律风险和财务损失。由于没有对聊天机器人提供的信息进行严格评估，导致了错误信息的产生，并最终损害了公司的声誉和利益。
营养应用程序中误算的卡路里：一个读取杂货收据的应用程序将“$12.50”错误地识别为“$1250.00”。这严重影响了依赖该应用程序进行饮食管理的用户的卡路里追踪，导致客户困惑、流失和信任度下降。这个案例说明了 AI Evals 在数据准确性方面的必要性。一个简单的正则表达式检查就可以避免这种低级错误，从而保护用户体验和公司声誉。
金融科技机器人导致云账单暴增10倍：一个对提示语的微小调整，导致大型语言模型(LLM)增加了一次额外的往返。延迟从120毫秒跃升至820毫秒，token使用量激增，AWS云账单一夜之间爆炸式增长。直到工程团队意识到问题，才紧急制止。这个案例警示了缺乏 AI Evals 对成本控制的潜在威胁。对于涉及大量计算资源的大模型应用，延迟和成本 AI Evals 至关重要，可以有效防止资源浪费和预算超支。
律师因ChatGPT生成的虚假引文而被罚款：两名律师提交了一份法律摘要，其中包含由ChatGPT生成的虚假法庭引文。法院对他们处以罚款，他们的信誉也受到打击。这个案例强调了 AI Evals 在确保信息真实性和可靠性方面的重要性。特别是对于法律、医疗等高风险领域，必须进行严格的合规性 AI Evals，以防止虚假信息传播和法律风险。

这些案例清晰地表明，AI Evals 不是可选项，而是确保AI系统安全、可靠、合规运行的必要条件。

AI Evals 的类型：全方位保障大模型应用

为了应对不同类型的AI应用和风险，需要实施不同类型的 AI Evals 。以下是一些常见的 AI Evals 类型：

提取 Evals：
- 用途：用于验证结构化输出，例如总数、日期或客户ID。
- 防止：防止下游系统无法处理的静默数据损坏。
- 方法：对预期输出设置正则表达式检查。如果即使有1%的失败率，也阻止部署。
- 案例：在电子商务应用中，提取 Evals 可以确保订单总金额、支付日期等信息的准确性，防止因金额错误导致的用户投诉或财务损失。
延迟与成本 Evals：
- 用途：用于可扩展的LLM应用程序，其中性能会影响用户体验或利润率。
- 防止：防止成本爆炸和用户流失。
- 方法：跟踪p95延迟和token成本。根据限制设置合并门槛。
- 案例：在在线客服应用中，延迟 Evals 可以确保机器人响应速度在可接受范围内，避免用户因等待时间过长而流失。同时，成本 Evals 可以监控token使用量，防止因LLM调用成本过高而影响利润。
RAG Evals (检索增强生成)：
- 用途：用于使用内部数据生成答案的应用程序。
- 防止：防止幻觉（hallucinations）、不准确的引用和信任破裂。
- 方法：使用RAGAS等工具来评估忠实度和引用精确度。
- 案例：在企业知识库应用中，RAG Evals 可以确保机器人根据企业内部文档生成答案，避免生成与事实不符或未经授权的信息，从而保护企业知识产权和用户信任。RAGAS 可以评估答案的忠实度（faithfulness），即答案是否完全基于检索到的文档内容，以及引用精确度（citation precision），即答案中的引用是否准确地指向相关文档。
合规性 Evals：
- 用途：用于面向公众或受监管的用例（法律、医疗、金融）。
- 防止：防止PII泄露、未经批准的建议或损害品牌形象的输出。
- 方法：使用边缘案例提示进行红队测试。如果安全性<0.9，则阻止部署。
- 案例：在医疗诊断应用中，合规性 Evals 可以确保机器人不会泄露患者个人信息，不会提供未经批准的医疗建议，并且符合相关法律法规，从而避免法律风险和道德问题。
Agentic Evals：
- 用途：用于做出决策或调用工具的多步骤智能体。
- 防止：防止滚雪球效应、API滥用或级联故障。
- 方法：评估宏观成功和微观步骤安全性。分析跟踪日志。
- 案例：在自动化客户服务流程中，Agentic Evals 可以确保机器人不会进行超出授权范围的操作，例如未经授权的退款或更改客户信息，并且可以正确处理各种异常情况，避免出现滚雪球效应，导致更大的问题。

如何构建有效的 AI Evals 流程：从入门到精通

构建一个稳健的 AI Evals 流程需要系统性的方法和合适的工具。以下是一些建议：

从小型、可控的开始：不要一开始就试图构建一个全面的 AI Evals 框架。从一个简单的目标开始，例如格式化、延迟或幻觉检测。
设置明确的阈值：为每个 AI Evals 指标设置明确的阈值。例如，如果格式化错误率超过1%，则阻止部署。
不断迭代和完善：随着对AI系统的理解不断加深，不断迭代和完善 AI Evals 流程。
利用现有资源：利用现有的 AI Evals 指南、工具和框架，例如：
- OpenAI Evals GitHub Repo：包含各种 AI Evals 示例和工具。
- OpenAI Cookbook — Getting Started with Evals：提供 AI Evals 的入门指南。
- Braintrust Evals Framework：一个用于构建和管理 AI Evals 的框架。

除了这些资源，还可以参考一些实践指南，例如：

Show, Don’t Tell: Writing GenAI Evals：介绍如何编写有效的GenAI AI Evals。
AI Evals — ThoughtWorks Decoder：探讨 AI Evals 的重要性和实践方法。
OpenAI Evals Explained with Examples (YouTube)：通过示例解释 OpenAI AI Evals 的用法。

AI Evals：从负债到伙伴，大模型风险管理的未来

AI Evals 是区分AI作为一种负债和AI作为一种可靠伙伴的关键。只有通过有效的 AI Evals ，才能确保AI系统安全、可靠、合规地运行，从而真正发挥其潜力，为企业创造价值。

起步可以从小处着手，每次只关注一个方面——格式、延迟或幻觉。让阈值随着时间推移而不断演进，并在这个过程中积累经验。重要的是，不要等到需要一份长达20页的基准测试报告时才开始行动，一个简单的4行YAML检查就能阻止一个六位数的错误。

因为在AI的世界里，任何未经过评估的东西最终都会进入生产环境——并且可能最终进入法庭。因此，立即行动，将 AI Evals 纳入您的AI开发流程，为您的企业保驾护航，迎接大模型时代的挑战与机遇。

总结来说，AI Evals 通过以下方式将AI从潜在的负债转化为可靠的伙伴：

降低风险：通过预防错误、数据泄露和法律纠纷，降低企业的运营风险。
提高效率：通过优化性能和控制成本，提高AI系统的效率和 ROI。
增强信任：通过确保信息的准确性和可靠性，增强用户对AI系统的信任度。
促进创新：通过提供反馈和改进方向，促进AI技术的持续创新和发展。

因此，AI Evals 不仅仅是一种技术手段，更是一种企业战略，是实现AI价值最大化的关键。忽视 AI Evals 就如同在高速公路上蒙眼驾驶，风险巨大，后果不堪设想。只有重视 AI Evals ，才能真正把握大模型时代的机遇，实现可持续发展。

AI Evals：大模型时代风险管理的基石