从改造到重塑：如何架构一个AI优先的平台 (GPT-4o视角)

在人工智能(AI)浪潮席卷全球的今天，简单地将AI功能“嫁接”到现有的传统架构上已经远远不够。真正具有前瞻性的做法是彻底重塑系统架构，使其围绕AI的本质和需求而构建。这不仅仅是添加几个提示词或API接口，而是从根本上重新思考平台的构建方式。本文将深入探讨如何架构一个AI优先的平台，借鉴FAIT团队在API Days Singapore的分享和实际经验，提炼出三个核心原则，并着重强调以人为本的设计理念。

架构分层：确定性、概率性和判断性任务的区分

并非所有任务都适合由AI处理。一个经常被忽视的关键架构决策在于明确AI的应用范围。企业系统中的每个工作流程都包含逻辑、推理和判断任务。FAIT团队通过实践经验，将这些任务划分为三个截然不同的类别：确定性任务、概率性任务和判断性任务。

确定性任务是指那些逻辑驱动、可重复、基于规则的任务。如果传统的编程方法能够以更快的速度、更低的成本并保证正确性，那么就应该毫不犹豫地采用传统方法。例如，数据模式验证(Schema Validation)就是一个典型的确定性任务。与其让AI去猜测数据结构是否符合规范，不如使用预定义的规则进行校验，这样不仅效率更高，而且结果更可靠。想象一下，如果银行的交易系统使用AI来验证交易数据的格式，结果可能会因为AI的误判导致交易失败，给用户带来不便。因此，对于此类任务，传统的编程方法仍然是最佳选择。

概率性任务是指那些模式驱动、模糊、数据丰富的任务。这些任务是AI大展身手的地方，因为它们通常包含太多的选项，无法通过暴力破解来解决，或者包含太多的模糊性，无法手动编写代码来处理。例如，字段映射或数据转换逻辑就属于概率性任务。在企业数据集成中，不同的系统可能会使用不同的字段名称来表示相同的信息。AI可以通过学习大量的历史数据，自动识别这些字段之间的对应关系，并进行相应的转换。例如，FAIT平台利用AI来自动识别来自不同来源的数据字段，并将其映射到统一的目标模式上，从而大大简化了数据集成的过程。如果没有AI的帮助，这个过程需要耗费大量的人工时间，并且容易出错。

判断性任务是指那些以关系或判断为驱动的任务。在这些任务中，信任、背景、伦理和前瞻性判断比原始速度或规模更重要。这不仅仅是用户体验的问题，更重要的是，在这些任务中，人类的表现始终优于机器。例如，处理涉及道德伦理的数据使用决策、应对突发的舆情危机等。这些任务需要人类的智慧和经验来进行判断，AI只能作为辅助工具，提供数据支持和分析。

将任务进行分层处理，不仅仅是一个框架，更是一种设计原则。随着AI技术的不断发展，这种分层设计变得尤为重要。当AI几乎可以完成所有任务时，我们需要一个清晰的指南针来指引我们哪些任务应该由AI完成，哪些任务应该由人类完成。

人工参与：构建以人为本的AI平台

即使在AI优先的平台中，人工参与仍然至关重要。AI系统在持久的组织记忆、不断发展的人际关系背景和伦理前瞻性方面存在不足。它们无法跟踪利益相关者的动态，预测监管机构的反对意见，或者用针对不同利益相关者的方式解释决策。而人类可以做到这些，这也是为什么必须保留人工参与的原因。

哈佛商业评论强调，AI在捕捉或回应现实决策中无形的人为因素方面存在缺陷，例如伦理、道德和其他人类考量。斯坦福大学以人为本AI研究所（HAI）也认为，AI应该作为一种工具，用于快速识别模式或预测结果，然后由专家进行审查。让人工参与可以确保AI正常、公平地工作，并提供对机器无法理解的人为因素的洞察。

更重要的是，如果AI取代了所有的“忙碌工作”，初级专业人员将失去学习背景、所有权和判断力的途径。这不仅会影响士气，还会阻碍人才发展。正如一位首席技术官所说，我们可能会通过消除入门级的学习机会来“蚕食我们的未来”。在FAIT平台中，确定性逻辑（如模式验证）与概率性AI推理（如字段映射或转换逻辑）分开运行。人类可以对模糊的映射做出最终决定，这不仅可以纠正AI的错误，还可以通过审查来学习。

这种设计理念被称为“判断路由”，它是架构AI优先平台中最具可扩展性的方法之一。通过将人类的判断力融入到AI系统中，我们可以构建一个更加可靠、安全和负责任的平台。

模型无关性：保持灵活性和适应性

保持模型无关性是另一个关键原则。大型语言模型（LLM）正在快速发展，今天的最佳模型可能明天就会退化。适用于代码的模型可能不适用于合规逻辑。在不同的任务中，Claude的表现可能优于GPT-4，反之亦然，而且这还没有考虑到时间的推移。

一项来自斯坦福大学和加州大学伯克利分校的研究发现，GPT-4在2023年3月至6月期间，对编码查询的准确性大幅下降，并且没有警告或变更日志。因此，即使你的模型今天表现出色，也不能保证它会一直如此。

FAIT从一开始就构建为模型无关性。我们将任务路由到最适合每个工作的模型——Claude、GPT-4o、DeepSeek、Gemini、开源模型等——并跟踪哪些模型在哪些逻辑类别中表现最佳。这种策略不仅可以优化性能，还可以提高平台的弹性。如果供应商的API中断、价格上涨或法规发生变化，我们不会措手不及。例如，LLM编排平台提供商TrueFoundry强调，模型路由和回退对于正常运行时间和集成灵活性至关重要，它可以实现跨供应商的故障转移和无缝切换，而无需更改代码。这种模块化是构建能够随着生态系统发展的AI优先平台的核心原则。

LLM是基础设施，应该被视为可互换的组件，而不是神奇的合作伙伴。选择哪种模型应该取决于任务的需求，而不是个人的偏好或供应商的宣传。

测试策略：像AI一样思考

对于传统的软件团队来说，测试AI可能是一项最具挑战性的任务。在确定性系统中，测试很简单：相同的输入→相同的输出→测试通过。但LLM本质上是概率性的，相同的输入可能会产生不同的，但同样有效的结果。因此，“通过/失败”的思维方式不再适用。

换句话说，不可预测性不是一个错误，而是一个特性。在2024年接受麦肯锡采访时，斯坦福大学HAI的James Landay直言不讳地说：“AI系统不是确定性的……相同的输入并不总是给你相同的输出。”这种不可预测性使得它们“更难设计”，并且，正如他警告的那样，“更难防止它们在出错时可能做的事情。”

为了架构和测试AI优先的平台，我们需要新的思维模式。在FAIT，我们开发了FADM-1基准来评估：

字段级准确性（映射是否有效？）
逻辑成功率（转换是否有效？）
输出方差（模型在多次运行中是否稳定？）

测试的重点不仅仅是正确性，还在于信心和稳定性。我们不是在问“它是否做对了？”，而是在问“它有多接近，频率如何？当它出错时，偏差有多大？”

大多数质量保证（QA）团队都在为此苦苦挣扎。根据Leapwork的数据，只有16%的QA团队表示他们对测试他们正在构建的系统感到“非常有准备”，而且这还是在GenAI增加复杂性之前。在AI时代，大多数QA团队仍然依赖确定性测试脚本，并且许多人没有意识到这有多么危险。

如果您仍然编写期望每次都得到相同结果的测试，那么您测试的不是我们现在所处的世界，而是我们已经离开的世界。我们需要采用一种更加灵活和动态的测试方法，例如使用模糊测试、生成对抗网络（GAN）等技术来评估AI系统的鲁棒性和可靠性。

以人为本的平台：AI辅助，而非取代

重塑一个AI优先的平台不仅仅是技术上的挑战，更重要的是，我们需要思考如何构建一个以人为本的系统。AI应该作为人类的助手，而不是取代人类。我们需要设计系统，让人们能够轻松地理解、使用和控制AI，并从中受益。

这需要在多个层面进行考虑。首先，我们需要关注用户体验（UX），确保AI系统易于使用和理解。其次，我们需要构建信任机制，让用户相信AI系统的决策是可靠和公正的。最后，我们需要为用户提供学习和成长的机会，让他们能够掌握AI技能，并在AI时代获得成功。

在FAIT平台中，我们特别注重以人为本的设计。我们为用户提供了直观的界面和工具，让他们可以轻松地监控AI系统的运行情况，并对AI系统的决策进行审查和修正。我们还为用户提供了培训和支持，帮助他们了解AI技术，并掌握使用AI工具的技能。

通过将人类的智慧和经验与AI的力量相结合，我们可以构建一个更加智能、高效和人性化的世界。

总结：重新定义AI平台的架构

你不能通过在遗留系统上添加ChatGPT来架构一个AI优先的平台。你需要一张干净的石板——一张反映AI实际行为方式的石板：灵活、上下文相关和概率性。这就是我们在FAIT中构建的。这就是我们认为未来发展方向。

因此，如果您正在为下一代软件进行设计：

按判断类型（而不是按工具偏好）对逻辑进行分段。
保持模型无关性——忠诚是一种负担。
重新思考你的测试策略——AI不会用绿色的复选标记来思考。
最重要的是，不要忘记人为因素。让人工参与进来，不仅仅是为了合规，而是为了成长。AI可能更快，但人类仍然做着它无法做到的事情——而且永远不会做的事情：他们关心。

构建一个AI优先的平台是一个持续的过程，需要我们不断学习、探索和创新。只有不断调整我们的思维方式和方法，才能在AI时代取得成功。通过遵循以上原则，我们可以构建出真正具有变革意义的AI平台，并为人类创造更美好的未来。

从改造到重塑：如何架构一个AI优先的平台 (GPT-4o视角)