2025年5月,OpenAI的大模型生态已经相当繁荣,各种模型层出不穷。与其沉迷于理论 benchmark 指标,不如回归实际应用场景。本文将基于 Derek Derui Wang 近期的一项实战评测,深入剖析 OpenAI 旗下九大模型,包括 GPT-4 Turbo、GPT-4o、GPT-4.1、GPT-4.5 Preview(已停用)、o-series (o1/o3/o4-mini)、Codex-1、Deep Search 以及 Operator,并结合实际案例和数据,帮助读者在速度、成本和性能之间找到最佳平衡点,构建更高效的大模型应用。
1. 缘起:告别理论,拥抱实战
传统的 benchmark,如 MMLU 或 HumanEval,固然能够反映模型的理论上限,但在实际应用中,我们需要模型处理模糊需求(如“听起来更人性化”)和硬性指标(如“所有单元测试必须通过”)。 为了解决实际问题,作者设计了一个包含五个任务的测试用例,涵盖了bug修复、图表生成、情感邮件、SQL查询和图像描述,并使用 ChatGPT UI 逐个模型进行测试,关注响应速度、风格一致性和成本。
2. 模型阵容:九大金刚各显神通
本次评测涉及的模型各有千秋:
- GPT-4 Turbo: 拥有128k 上下文窗口,是 GPT-4 系列中最具性价比的文本模型。
- GPT-4o: 同样具备 128k 上下文窗口,是集文本、视觉和音频于一体的单网络模型,语音回复延迟极低(演示中约为 320 毫秒)。
- GPT-4.1: 拥有惊人的 1M token 上下文窗口,是处理大型文本数据的利器。
- GPT-4.5 Preview: 作为研究版本,已于 2025 年 7 月 14 日停止使用,其温暖的情感表达令人印象深刻。
- o-series (o1 / o3 / o4-mini): 专注于推理能力,其中 o3 模型针对工具使用进行了微调。
- Codex-1: 代码专家模型,擅长代码生成和修复。
- Deep Search: 集检索和规划能力于一身的智能体,能够进行多轮对话并浏览网页。
- Operator: 具备浏览器操作能力的智能体,能够点击、输入和滚动,在云虚拟机中执行任务。
3. 任务拆解:五大场景全面测评
作者设计的五大任务旨在模拟真实工作场景:
- Bug-fix: 修复一个包含 50 行 Python 代码的仓库中的错误。
- 表现: GPT-4o、GPT-4.1、o3 和 Codex 在十次运行中完美修复。 GPT-4 Turbo 漏掉了两个边缘案例,而 o4-mini 漏掉了三个。
- RFC ➜ diagram: 根据 RFC 文档生成 Mermaid 格式的图表。
- 表现: GPT-4 系列、o3 和 GPT-4.5 Preview 准确识别组件数量, GPT-4 Turbo 在一个箭头绘制上出现偏差。
- Customer-rant email: 撰写一封安抚客户的电子邮件。
- 表现: GPT-4.5 Preview 的回复最为温暖, GPT-4o 和 GPT-4.1 “专业但语气略显生硬”, Codex 的回复则像 Stack Overflow 上的技术解答。
- SQL query: 根据 20k 行数据编写 SQL 查询语句。
- 表现: o-series 能够主动提问澄清需求, GPT-4 Turbo 两次猜错。
- Alt-text for a promo image: 为宣传图片生成 Alt-text。
- 表现: GPT-4o 和 o4 mini 准确遵循 WCAG 长度指南,其他纯文本模型容易过度冗长。
4. 延迟与成本:速度与金钱的权衡
延迟 (Latency) 方面, o4-mini 最快(约 5 秒),其次是 GPT-4o (约 6 秒) 和 GPT-4.1 (约 6.5 秒), GPT-4 Turbo (约 8 秒), o-series (约 12 秒), Deep Search 最慢 (约 15 秒)。 GPT-4o 的语音回复延迟在空闲时段依然保持在 320 毫秒左右。
成本 (Cost) 方面,正如公开价格所示, GPT-4 Turbo 是文本处理最便宜的模型, GPT-4o 是多模态处理最便宜的模型, Deep Search 则最为昂贵。
值得注意的是,以上数据基于小型样本,仅供参考。
5. Operator:自动化 Web UI 操作的新星
Operator 智能体能够自动化 Web UI 操作。 作者让 Operator 更新 LinkedIn 个人简介,它成功地打开 LinkedIn 网站,点击编辑按钮,粘贴文本并保存,整个过程耗时约 25 秒,大部分时间花费在等待网页加载上。 OpenAI 表示, Operator 现在由 o3 模型驱动,具备更强的推理能力和工具使用安全性。
这意味着,对于涉及多步骤 Web UI 的工作流程(如电商运营面板), Operator 已经能够执行重复性任务,但仍需要人工审核。
6. 案例分析:Bug修复与 SQL 查询
深入分析两个典型案例:Bug修复 和 SQL查询,进一步了解各模型的优势与不足。
Bug修复
Codex-1 作为代码专用模型,在 Bug 修复任务中表现出色,能够快速定位并修复代码中的错误。 在作者的测试中, Codex-1 在十次运行中均能完美修复 Bug,展现了其强大的代码理解和生成能力。
SQL查询
O-series 模型在 SQL 查询任务中展现了优秀的交互能力。 在生成 SQL 查询语句之前, o-series 模型会主动向用户提问,澄清需求,避免了不必要的错误。 这种主动提问的能力大大提高了查询的准确性,降低了错误率。
7. 避坑指南:实战经验总结
- 关注尾部效应,而非平均值: GPT-4o 在流量高峰期可能出现高达 900 毫秒的首个 token 延迟,需要提前规划。
- 歧义处理胜过原始智能: o-series 能够主动澄清需求,而 GPT-4 Turbo 则倾向于直接假设。
- 重试预算抵消廉价 token: 如果模型表现不稳定,需要多次重试,那么即使 token 价格再低,最终成本也会大幅上升。 例如, GPT-4 Turbo 虽然价格低廉,但由于在 SQL 查询任务中错误率较高,需要多次重试,最终成本反而高于其他模型。
- 开发者体验至关重要: Codex 可以输出 JSON 补丁,而 GPT-4 系列默认输出散文,除非强制使用 function calling。
8. 模型选型:一份实用备忘单
- 快速、经济的聊天或多模态原型? 选择 GPT-4o。
- 超大合同或长达一周的日志? 选择拥有 1M token 上下文窗口的 GPT-4.1。
- 自动化 Bug 修复 PR? 首先尝试 Codex-1,如果注释过多,则回退到 GPT-4.1。
- 机器人流程自动化或 GUI 抓取? 让 Operator (o3) 驱动。
- 能“感受”到人性的品牌文案 (截止 7 月 14 日)? 选择 GPT-4.5 Preview。
- 边缘设备或预算紧张? 选择 o4-mini,它仍然比 GPT-3.5 更智能,且成本更低。
- 需要大量引用的研究? 选择 Deep Search,它能够挑选并引用来源。
9. OpenAI 的未来:更智能的调度器
OpenAI 的产品线正在形成分层结构: 闪电般快速的多模态前端 (4o, 4.1 mini), 速度较慢但更具推理能力的大脑 (o-series), 领域专家 (Codex, DALL·E, Sora), 以及由 Deep Search 和 Operator 等智能体进行编排。 预计未来的版本将是更智能的调度器,能够决定何时调用哪个 “大脑”,而不是更大的单体模型。
10. 结语:没有最佳,只有最适合
通过本次评测,我们可以清晰地认识到,没有单一的 “最佳” 模型,只有速度、成本和性能之间不断变化的帕累托前沿。 在选择模型时,务必进行充分的测试,避免选择需要多次重试的模型。 记住,简化生产菜单,将模型分为快速/廉价和准确/缓慢两个层级,将其他模型视为实验性选项,可以有效降低 QA 风险。
在 大模型 的浪潮中,选择最适合自身需求的 OpenAI 模型,才能在激烈的竞争中脱颖而出。 持续关注 benchmark 的演进,结合自身的实际应用场景,才能真正发挥 GPT-4 Turbo、 GPT-4o 以及 Operator 等模型的强大能力。