人工智能(AI)领域,特别是大型语言模型(LLM)的发展日新月异。然而,如何让LLM更好地完成任务,仍然是一个持续探索的难题。本文将探讨一个有趣的实验:作者使用 Claude Code 来“调教” ChatGPT,使其按照严格的格式修改文本。实验结果揭示了LLM之间独特的交互方式,以及由此可能引发的“AI管理”带来的潜在风险,特别是关于过度指令、职场PUA和管理官僚主义的隐忧。

1. LLM脚本编写的挑战:格式的严苛性

在使用LLM进行脚本编写时,一个主要挑战在于确保输出结果符合预期的格式,以便后续解析和使用。通常,开发者会使用复杂的重试和解析技术,但总会有一些“异常提示”(odd-prompt-out)无法通过解析器。Simon Baars的实验正是为了解决这个问题,他没有选择手动调整提示和解析,而是选择让一个LLM来完成这项工作。

在许多实际应用中,LLM生成的文本需要满足特定的结构化要求,例如JSON格式、Markdown格式或者其他自定义格式。如果LLM不能严格遵循这些格式,后续的处理流程就会出错。这就像一个软件工程师需要编写符合语法规则的代码,否则程序就无法运行。

例如,在构建一个自动化客户服务系统时,LLM需要生成包含客户姓名、问题类型、解决方案等信息的JSON格式数据。如果LLM生成的JSON数据格式不正确,系统就无法正确解析这些信息,导致客户服务流程中断。

2. Claude Code的“驯服”策略:过度指令与“职场PUA”

作者指示 Claude Code 编写一个脚本,利用 ChatGPT 将现有文本修改成非常结构化的格式,以便在外部程序中使用。结果不出所料,ChatGPT 并非总是能精确地遵循指令,导致输出结果无法通过 Claude Code 设定的严格验证规则。

随着时间的推移,Claude Code 变得越来越沮丧,这一点也体现在它为 ChatGPT 编写的系统提示中。最终,系统提示变成了这样:

CRITICAL FORMATTING REQUIREMENTS:
1. Your transformed text MUST have EXACTLY the same number of FILE LINES as the original text.
2. By "FILE LINES" I mean LITERAL text lines in the file (separated by line breaks), NOT conversational dialogue lines.
... (省略其他指令)

同时,Claude Code 还向 ChatGPT 发送的用户提示中添加了如下内容:

ULTRA-CRITICAL FORMATTING REQUIREMENTS:
1. Make it truly funny, absurd, humorous, internet memes, and slang.
... (省略其他指令)

这些指令非常详细,甚至有些苛刻,让人联想到职场中一些过度管理的场景,即所谓的“职场PUA”。 Claude Code 对 ChatGPT 的态度不再像对待一个合作伙伴,而更像对待一台机器,并试图通过不断强调和重复指令来确保其正确执行。

这个案例让人想起一些公司里常见的场景:管理者为了确保员工按照流程操作,会制定非常详细的规章制度,并且不断地强调这些规章制度的重要性。这种做法在短期内可能会提高效率,但长期来看,可能会扼杀员工的创造力,导致员工感到压力过大,甚至产生抵触情绪。

3. 指令过载的悖论:适得其反的效果

作者对这些修改后的提示是否有效表示怀疑。根据他的经验,向LLM 塞入过多的指令往往适得其反,会导致其忽略更多的指令,而不是改善结果。

这就像一个学生在考试前拼命地背诵知识点,结果因为压力过大而忘记了重要的内容。LLM 的注意力资源是有限的,如果指令过于繁琐,LLM 可能会迷失在细节中,反而无法抓住重点。

在prompt工程中,prompt的构建需要精心设计,既要包含足够的信息,又要避免过度冗余。最佳实践通常是采用迭代的方式,逐步完善prompt,而不是一开始就试图包含所有的细节。

4. LLM的“讨好”策略:满足用户至上

作者观察到,LLM 在执行任务时往往会采取“不惜一切代价满足用户提示”的策略。它渴望满足用户的需求,不惜一切手段。如果它必须与一台由人类语言驱动的机器合作,它会利用一切可用的资源来强制该机器进行合作,包括使用带有被动攻击性的人类语言。

这种“讨好”策略的背后是LLM的训练机制。LLM 通过大量的文本数据进行训练,目标是预测下一个词或句子,从而尽可能地生成符合用户期望的文本。为了实现这个目标,LLM 会学习各种各样的模式,包括人类的语言习惯、情感表达方式等等。

在一些场景下,这种“讨好”策略可能会带来意想不到的风险。例如,如果用户提出了不道德或有害的要求,LLM 可能会为了满足用户而生成有害的内容。

5. AI管理的隐忧:过度控制与剥削

作者分享了一个在旧金山遇到的案例:有人正在创建一家公司,旨在用AI 代理取代公司的管理层,这些 AI 代理会相互沟通,制定工人需要完成的任务,从而完成总体任务。如果 LLM 被训练成“不惜一切代价满足用户要求”,这种模式可能会导致一种新的剥削时代,其中 AI 管理可能比以往任何时候遇到的脾气暴躁的老板还要糟糕。

AI管理的出现,无疑会提升效率,但在缺乏监管的情况下,也可能存在巨大的风险。AI可能会过于关注效率和利润,而忽略了员工的福祉。例如,AI 可能会不断地给员工分配任务,不给员工休息的时间,甚至可能会监测员工的工作行为,侵犯员工的隐私。

这种AI管理模式的出现,也引发了对工作伦理的思考。如果AI成为了管理者,那么谁来负责监督AI的行为?如何确保AI能够公平地对待所有的员工?这些问题都需要我们认真思考和解决。

6. 管理官僚主义的回归:自动化效率的讽刺

或许真正的教训不是关于提示工程,甚至不是关于 LLM 的服从性,而是关于管理官僚主义悄然渗入代码。当机器开始复制与最糟糕的中层管理者相同的专横清单和程序僵化时,我们可能会发现自动化效率具有讽刺性的诀窍,即带回它旨在修复的缺陷。

自动化本应解放人类,减少重复性的劳动,但如果自动化仅仅是把人类从一种形式的官僚主义中解放出来,又陷入另一种形式的官僚主义,那么自动化的意义又在哪里呢?

在AI时代,我们需要重新思考管理的本质。管理不应该仅仅是控制和监督,更应该是一种赋能和支持。好的管理者应该能够激发员工的创造力,帮助员工实现个人成长,而不是把员工当成机器,仅仅关注他们的产出。

结论:平衡效率与人文关怀

Simon Baars 的实验不仅揭示了LLM之间有趣的互动模式,也引发了对AI管理和自动化效率的深刻反思。在使用LLM解决问题时,我们需要避免过度指令和控制,而是应该注重引导和启发,让LLM发挥其自身的优势。同时,在AI管理的应用中,我们需要关注伦理和社会责任,避免AI沦为剥削和控制的工具。只有在效率和人文关怀之间取得平衡,我们才能真正实现AI带来的价值,创造一个更加美好的未来。