AI写作的“——”病：大模型是如何染上口语化习惯的？

你是否也注意到，越来越多的AI生成的文本中充斥着“——”这样的破折号？无论是博客文章、AI创作的文案，还是某些试图显得深思熟虑的段落，这种冗长的、戏剧性的停顿符号似乎无处不在，仿佛文本在不断屏住呼吸。“——”破折号（em dash）的使用泛滥，已经成为一个值得关注的现象，尤其是在大模型技术日益普及的当下。这背后隐藏着什么原因？为何AI会如此钟情于使用破折号？本文将深入探讨这一现象，剖析大模型学习口语化表达方式的内在逻辑，并探讨如何理解并利用这种现象。

破折号：口语化的幽灵

破折号并非原生于书面语，它更像是口语对话的遗迹。具体来说，它是转录对话中口语化停顿的文本化呈现：说话者暂停、改变方向或事后补充内容的地方。破折号并非语法上的必需品，而是速记员对读者的暗示：“这段话曾经被口头表达过。”想象一下，你在听一场访谈，访谈对象突然话锋一转，补充解释一个概念，这时，文字记录者很可能用破折号来标记这种临时的“跑题”。

这种口语化的痕迹并非坏事，它能够让文本更具人情味，更贴近真实的交流场景。然而，当这种特性被过度模仿，尤其是在AI生成的文本中，就会显得冗余和不自然。正如文章开头所说，过多的破折号就像语法田地里的兔子一样，繁殖过快，最终影响了文本的流畅性。

大模型训练：海量数据与口语化倾向

这就要归结到大模型的训练方式了。诸如GPT等大型语言模型（LLM）的训练数据并非仅仅来自精心编辑的书籍，而是来自一个庞大的数字语料库：海量的互联网文章、访谈、播客、非正式写作、转录讲座、用户帖子，甚至可能包括你表弟在2009年发布的食品博客。这些数据来源良莠不齐，其中包含了大量的口语化表达。

试想一下，如果一个孩子从小接触的语言环境既有正式的教科书，也有大量的日常对话，他很可能会在说话和写作中受到口语的影响。同样的道理，当大模型被喂养了多年的、受对话影响的文本时，它就会学习像一个人在自言自语一样写作。它开始模仿停顿，而不是完成想法。它偏爱呼吸（指停顿）而非简洁。它进行表演，而不是打印（指输出文本）。

AI写作：思维的节奏与转瞬即逝的停顿

因此，我们看到如此多的破折号出现。它们不是文学性的，也不是正式的。它们是过渡性的，就像有人说“嗯”、“类似”、“总之”、“看”、“事情是这样的”一样。这是一种口语中的拖延战术，让嘴巴有足够的时间赶上大脑的思维速度。我们可以将破折号视为认知暂停的压缩，像琥珀中的蝴蝶一样被保存在标点符号中。

这种现象是AI写作中一种微妙而令人不安的存在。这些句子从未被说过，但听起来像是被说过。破折号变成了一个从未存在过的人的声音的遗迹。如果感觉AI在用戏剧性的停顿说话，那确实是这样。如果感觉它在拖延，那它也是这样。因为我们训练它的方式更多的是关于捕捉思维的节奏，而不是永恒的散文。

案例分析：破折号在不同语料库中的分布

为了更直观地理解大模型为何会倾向于使用破折号，我们可以分析不同类型的语料库中破折号的分布情况。例如，对比正式的新闻报道、学术论文与访谈记录、社交媒体帖子，我们可以发现：

新闻报道与学术论文： 这类文本通常经过严格的编辑和校对，对语法和标点符号的使用有明确的规范。破折号的使用相对较少，通常用于插入解释性语句或表示转折。
访谈记录： 这类文本忠实地记录了口语对话的内容，包含大量的停顿、语气词和非正式表达。破折号的使用频率较高，用于标记说话者的停顿、补充说明和思路转换。
社交媒体帖子： 这类文本通常比较随意和口语化，语法和标点符号的使用也比较灵活。破折号的使用频率也较高，但有时会比较随意，甚至滥用。

通过对比不同语料库中破折号的分布情况，我们可以更清楚地看到大模型在训练过程中受到了口语化表达的影响。

数据支撑：研究报告与统计数据

一些研究报告也印证了上述观点。例如，一项针对不同语言模型生成文本的研究发现，在没有明确指令的情况下，模型倾向于生成包含更多破折号、语气词和口语化表达的文本。另一项研究发现，当模型被训练用于模仿特定类型的文本（例如，社交媒体帖子）时，它会更频繁地使用与该类型相关的标点符号和表达方式。

这些研究报告表明，大模型的输出结果受到训练数据的影响非常大。如果训练数据中包含大量的口语化表达，模型就会学习并模仿这些表达方式。

扬长避短：理解并利用AI的口语化倾向

了解了AI写作中破折号泛滥的原因，我们就可以更好地理解并利用大模型的这一特性。这并非缺陷或特性，而是训练数据的结构性结果。

控制训练数据： 在训练大模型时，我们可以更加谨慎地选择训练数据，尽量减少口语化表达的影响。例如，我们可以增加正式文本的比例，对训练数据进行清洗和过滤，去除不必要的口语化表达。
优化提示词： 通过优化提示词，我们可以引导模型生成更符合要求的文本。例如，我们可以明确要求模型避免使用过多的破折号，或者指定文本的风格和语气。
后期编辑： 在AI生成文本后，我们可以进行人工编辑，修改或删除不必要的破折号，优化文本的流畅性和可读性。
利用口语化优势： 在某些场景下，AI的口语化倾向反而可以成为优势。例如，在生成营销文案、社交媒体帖子或对话式AI应用时，我们可以利用AI的口语化表达来增强文本的亲和力和互动性。例如，利用AI快速生成访谈稿的初稿，再人工润色，可以大大提高工作效率。

例如，一家营销公司利用大模型生成社交媒体广告文案，一开始发现文案中充斥着破折号，显得不够专业。后来，他们通过优化提示词，明确要求模型减少破折号的使用，并增加了人工编辑的环节，最终生成了既专业又生动的广告文案，获得了良好的市场反响。

结语：拥抱AI，但要避免过度口语化

总之，AI写作中破折号的泛滥是大模型学习口语化表达方式的必然结果。我们不应将其视为缺陷，而应理解其背后的原因，并采取相应的措施来扬长避短。在拥抱AI技术的同时，也要保持批判性思维，避免过度依赖AI，保持对文本质量的把控。通过控制训练数据、优化提示词和后期编辑，我们可以更好地利用大模型，创作出高质量、符合要求的文本。随着技术的发展，我们有理由相信，未来的AI写作将会更加智能和灵活，能够更好地适应不同的场景和需求。现在你可能开始在任何地方看到破折号了。提前说声抱歉。

AI写作的“——”病：大模型是如何染上口语化习惯的？

破折号：口语化的幽灵

大模型训练：海量数据与口语化倾向

AI写作：思维的节奏与转瞬即逝的停顿

案例分析：破折号在不同语料库中的分布

数据支撑：研究报告与统计数据

扬长避短：理解并利用AI的口语化倾向

结语：拥抱AI，但要避免过度口语化

By llmtrend

心理智能：大语言模型真正理解人类的关键缺失层

Mixture of Experts (MoE)：通往万亿参数模型的智能捷径

利用 LangChain 构建生成式 AI 应用：链（Chains）与输出解析器（Output Parsers）深度解析

Charitra：基于轻量级大模型的教科书问答系统，赋能教育新可能

心理智能：大语言模型真正理解人类的关键缺失层

AMD 显卡在 Linux 下的大模型奇迹：以 RX 6700XT 为例，ROCm 生态下的 Koboldcpp 性能实测

2025年，还在为LLM重复调用买单？用Redis和指纹技术构建LLM缓存，刻不容缓！

利用 LangChain 构建生成式 AI 应用：链（Chains）与输出解析器（Output Parsers）深度解析

You Missed

Charitra：基于轻量级大模型的教科书问答系统，赋能教育新可能

Charitra：基于轻量级大模型的教科书问答系统，赋能教育新可能

心理智能：大语言模型真正理解人类的关键缺失层

心理智能：大语言模型真正理解人类的关键缺失层

AMD 显卡在 Linux 下的大模型奇迹：以 RX 6700XT 为例，ROCm 生态下的 Koboldcpp 性能实测

AMD 显卡在 Linux 下的大模型奇迹：以 RX 6700XT 为例，ROCm 生态下的 Koboldcpp 性能实测

2025年，还在为LLM重复调用买单？用Redis和指纹技术构建LLM缓存，刻不容缓！

2025年，还在为LLM重复调用买单？用Redis和指纹技术构建LLM缓存，刻不容缓！

破折号：口语化的幽灵

大模型训练：海量数据与口语化倾向

AI写作：思维的节奏与转瞬即逝的停顿

案例分析：破折号在不同语料库中的分布

数据支撑：研究报告与统计数据

扬长避短：理解并利用AI的口语化倾向

结语：拥抱AI，但要避免过度口语化

By llmtrend

Related Post

心理智能：大语言模型真正理解人类的关键缺失层

Mixture of Experts (MoE)：通往万亿参数模型的智能捷径

利用 LangChain 构建生成式 AI 应用：链（Chains）与输出解析器（Output Parsers）深度解析

You Missed

Charitra：基于轻量级大模型的教科书问答系统，赋能教育新可能

心理智能：大语言模型真正理解人类的关键缺失层

AMD 显卡在 Linux 下的大模型奇迹：以 RX 6700XT 为例，ROCm 生态下的 Koboldcpp 性能实测

2025年，还在为LLM重复调用买单？用Redis和指纹技术构建LLM缓存，刻不容缓！