在人工智能(AI)浪潮席卷全球的今天,简单地将AI功能“嫁接”到现有的传统架构上已经远远不够。真正具有前瞻性的做法是彻底重塑系统架构,使其围绕AI的本质和需求而构建。这不仅仅是添加几个提示词或API接口,而是从根本上重新思考平台的构建方式。本文将深入探讨如何架构一个AI优先的平台,借鉴FAIT团队在API Days Singapore的分享和实际经验,提炼出三个核心原则,并着重强调以人为本的设计理念。
架构分层:确定性、概率性和判断性任务的区分
并非所有任务都适合由AI处理。一个经常被忽视的关键架构决策在于明确AI的应用范围。企业系统中的每个工作流程都包含逻辑、推理和判断任务。FAIT团队通过实践经验,将这些任务划分为三个截然不同的类别:确定性任务、概率性任务和判断性任务。
确定性任务是指那些逻辑驱动、可重复、基于规则的任务。如果传统的编程方法能够以更快的速度、更低的成本并保证正确性,那么就应该毫不犹豫地采用传统方法。例如,数据模式验证(Schema Validation)就是一个典型的确定性任务。与其让AI去猜测数据结构是否符合规范,不如使用预定义的规则进行校验,这样不仅效率更高,而且结果更可靠。想象一下,如果银行的交易系统使用AI来验证交易数据的格式,结果可能会因为AI的误判导致交易失败,给用户带来不便。因此,对于此类任务,传统的编程方法仍然是最佳选择。
概率性任务是指那些模式驱动、模糊、数据丰富的任务。这些任务是AI大展身手的地方,因为它们通常包含太多的选项,无法通过暴力破解来解决,或者包含太多的模糊性,无法手动编写代码来处理。例如,字段映射或数据转换逻辑就属于概率性任务。在企业数据集成中,不同的系统可能会使用不同的字段名称来表示相同的信息。AI可以通过学习大量的历史数据,自动识别这些字段之间的对应关系,并进行相应的转换。例如,FAIT平台利用AI来自动识别来自不同来源的数据字段,并将其映射到统一的目标模式上,从而大大简化了数据集成的过程。如果没有AI的帮助,这个过程需要耗费大量的人工时间,并且容易出错。
判断性任务是指那些以关系或判断为驱动的任务。在这些任务中,信任、背景、伦理和前瞻性判断比原始速度或规模更重要。这不仅仅是用户体验的问题,更重要的是,在这些任务中,人类的表现始终优于机器。例如,处理涉及道德伦理的数据使用决策、应对突发的舆情危机等。这些任务需要人类的智慧和经验来进行判断,AI只能作为辅助工具,提供数据支持和分析。
将任务进行分层处理,不仅仅是一个框架,更是一种设计原则。随着AI技术的不断发展,这种分层设计变得尤为重要。当AI几乎可以完成所有任务时,我们需要一个清晰的指南针来指引我们哪些任务应该由AI完成,哪些任务应该由人类完成。
人工参与:构建以人为本的AI平台
即使在AI优先的平台中,人工参与仍然至关重要。AI系统在持久的组织记忆、不断发展的人际关系背景和伦理前瞻性方面存在不足。它们无法跟踪利益相关者的动态,预测监管机构的反对意见,或者用针对不同利益相关者的方式解释决策。而人类可以做到这些,这也是为什么必须保留人工参与的原因。
哈佛商业评论强调,AI在捕捉或回应现实决策中无形的人为因素方面存在缺陷,例如伦理、道德和其他人类考量。斯坦福大学以人为本AI研究所(HAI)也认为,AI应该作为一种工具,用于快速识别模式或预测结果,然后由专家进行审查。让人工参与可以确保AI正常、公平地工作,并提供对机器无法理解的人为因素的洞察。
更重要的是,如果AI取代了所有的“忙碌工作”,初级专业人员将失去学习背景、所有权和判断力的途径。这不仅会影响士气,还会阻碍人才发展。正如一位首席技术官所说,我们可能会通过消除入门级的学习机会来“蚕食我们的未来”。在FAIT平台中,确定性逻辑(如模式验证)与概率性AI推理(如字段映射或转换逻辑)分开运行。人类可以对模糊的映射做出最终决定,这不仅可以纠正AI的错误,还可以通过审查来学习。
这种设计理念被称为“判断路由”,它是架构AI优先平台中最具可扩展性的方法之一。通过将人类的判断力融入到AI系统中,我们可以构建一个更加可靠、安全和负责任的平台。
模型无关性:保持灵活性和适应性
保持模型无关性是另一个关键原则。大型语言模型(LLM)正在快速发展,今天的最佳模型可能明天就会退化。适用于代码的模型可能不适用于合规逻辑。在不同的任务中,Claude的表现可能优于GPT-4,反之亦然,而且这还没有考虑到时间的推移。
一项来自斯坦福大学和加州大学伯克利分校的研究发现,GPT-4在2023年3月至6月期间,对编码查询的准确性大幅下降,并且没有警告或变更日志。因此,即使你的模型今天表现出色,也不能保证它会一直如此。
FAIT从一开始就构建为模型无关性。我们将任务路由到最适合每个工作的模型——Claude、GPT-4o、DeepSeek、Gemini、开源模型等——并跟踪哪些模型在哪些逻辑类别中表现最佳。这种策略不仅可以优化性能,还可以提高平台的弹性。如果供应商的API中断、价格上涨或法规发生变化,我们不会措手不及。例如,LLM编排平台提供商TrueFoundry强调,模型路由和回退对于正常运行时间和集成灵活性至关重要,它可以实现跨供应商的故障转移和无缝切换,而无需更改代码。这种模块化是构建能够随着生态系统发展的AI优先平台的核心原则。
LLM是基础设施,应该被视为可互换的组件,而不是神奇的合作伙伴。选择哪种模型应该取决于任务的需求,而不是个人的偏好或供应商的宣传。
测试策略:像AI一样思考
对于传统的软件团队来说,测试AI可能是一项最具挑战性的任务。在确定性系统中,测试很简单:相同的输入→相同的输出→测试通过。但LLM本质上是概率性的,相同的输入可能会产生不同的,但同样有效的结果。因此,“通过/失败”的思维方式不再适用。
换句话说,不可预测性不是一个错误,而是一个特性。在2024年接受麦肯锡采访时,斯坦福大学HAI的James Landay直言不讳地说:“AI系统不是确定性的……相同的输入并不总是给你相同的输出。”这种不可预测性使得它们“更难设计”,并且,正如他警告的那样,“更难防止它们在出错时可能做的事情。”
为了架构和测试AI优先的平台,我们需要新的思维模式。在FAIT,我们开发了FADM-1基准来评估:
- 字段级准确性(映射是否有效?)
- 逻辑成功率(转换是否有效?)
- 输出方差(模型在多次运行中是否稳定?)
测试的重点不仅仅是正确性,还在于信心和稳定性。我们不是在问“它是否做对了?”,而是在问“它有多接近,频率如何?当它出错时,偏差有多大?”
大多数质量保证(QA)团队都在为此苦苦挣扎。根据Leapwork的数据,只有16%的QA团队表示他们对测试他们正在构建的系统感到“非常有准备”,而且这还是在GenAI增加复杂性之前。在AI时代,大多数QA团队仍然依赖确定性测试脚本,并且许多人没有意识到这有多么危险。
如果您仍然编写期望每次都得到相同结果的测试,那么您测试的不是我们现在所处的世界,而是我们已经离开的世界。我们需要采用一种更加灵活和动态的测试方法,例如使用模糊测试、生成对抗网络(GAN)等技术来评估AI系统的鲁棒性和可靠性。
以人为本的平台:AI辅助,而非取代
重塑一个AI优先的平台不仅仅是技术上的挑战,更重要的是,我们需要思考如何构建一个以人为本的系统。AI应该作为人类的助手,而不是取代人类。我们需要设计系统,让人们能够轻松地理解、使用和控制AI,并从中受益。
这需要在多个层面进行考虑。首先,我们需要关注用户体验(UX),确保AI系统易于使用和理解。其次,我们需要构建信任机制,让用户相信AI系统的决策是可靠和公正的。最后,我们需要为用户提供学习和成长的机会,让他们能够掌握AI技能,并在AI时代获得成功。
在FAIT平台中,我们特别注重以人为本的设计。我们为用户提供了直观的界面和工具,让他们可以轻松地监控AI系统的运行情况,并对AI系统的决策进行审查和修正。我们还为用户提供了培训和支持,帮助他们了解AI技术,并掌握使用AI工具的技能。
通过将人类的智慧和经验与AI的力量相结合,我们可以构建一个更加智能、高效和人性化的世界。
总结:重新定义AI平台的架构
你不能通过在遗留系统上添加ChatGPT来架构一个AI优先的平台。你需要一张干净的石板——一张反映AI实际行为方式的石板:灵活、上下文相关和概率性。这就是我们在FAIT中构建的。这就是我们认为未来发展方向。
因此,如果您正在为下一代软件进行设计:
- 按判断类型(而不是按工具偏好)对逻辑进行分段。
- 保持模型无关性——忠诚是一种负担。
- 重新思考你的测试策略——AI不会用绿色的复选标记来思考。
- 最重要的是,不要忘记人为因素。让人工参与进来,不仅仅是为了合规,而是为了成长。AI可能更快,但人类仍然做着它无法做到的事情——而且永远不会做的事情:他们关心。
构建一个AI优先的平台是一个持续的过程,需要我们不断学习、探索和创新。只有不断调整我们的思维方式和方法,才能在AI时代取得成功。通过遵循以上原则,我们可以构建出真正具有变革意义的AI平台,并为人类创造更美好的未来。