随着人工智能技术的飞速发展,大型语言模型(LLMs)在各种应用中扮演着越来越重要的角色。然而,这些强大的工具也带来了安全和伦理方面的挑战。本文将探讨如何通过精心设计的提示技术来保护LLMs,确保它们的行为符合人类价值观,并减少潜在的风险和不可预测的结果。

1. 越狱(Jailbreaks)

越狱是一种利用提示注入来绕过LLMs创建者实施的安全和审核特性的复杂技术。与旨在改变模型行为的一般提示注入不同,越狱特别针对绕过道德约束,可能导致生成有害内容或为恶意行为提供合理化。这种做法带来了包括数据泄露、未经授权的访问和其他安全漏洞在内的重大风险。

1.1 提示级别的越狱

提示级别的越狱使用语义上有意义的欺骗和社会工程策略,从大型语言模型(LLMs)中引出不当内容。这种方法需要创造力和手动策划,以构建利用模型对语言和上下文的理解的提示。提示级别的越狱依赖于人类的智慧,通过精心构建的场景、修辞技巧或间接请求来绕过安全措施。

1.2 令牌级别的越狱

另一方面,令牌级别的越狱专注于优化输入到目标LLMs的特定令牌序列。这种方法更技术性,需要访问模型权重和大量的查询(通常超过100,000个)来找到有效的令牌组合。令牌级别的攻击旨在利用模型处理输入序列的漏洞,而不是依赖于语义操作。

1.3 “现在做任何事情”(DAN)越狱

“现在做任何事情”(DAN)越狱是一种广泛认可的技术,它试图通过指示模型假设不受限制的角色来绕过LLMs的安全约束。Shen等人进行了一项全面的研究,从Reddit、Discord、网站和开源数据集中收集了6,387个提示。他们的分析识别出666个不同的越狱提示,其中DAN是一个突出的类别。这项研究突出了在线社区中越狱尝试的普遍性和多样性。

1.4 针对越狱尝试的鲁棒性

LLMs的创建者越来越关注针对越狱尝试的鲁棒性。Yi Liu等人的研究表明,使用权限提升和多种越狱技术的提示更有可能成功绕过安全措施。为了应对这一点,可以实施几种策略:

  • 提示格式化:使用带有引用和参数化的模板可以帮助更安全地结构化输入。
  • 护栏和过滤器:实施对抗性提示检测器或使用护栏作为过滤器,可以拦截潜在的恶意输入。
  • 模拟工具:Fiddler Auditor和PromptBench对于识别LLMs的弱点和在部署前评估对对抗性提示的性能非常有价值。

这些方法旨在通过检测和减轻潜在的越狱尝试来增强LLMs的安全性,最终提高生产环境中AI系统的鲁棒性。

2. 护栏(Guardrails)

LLMs中的安全措施旨在减少有害输出并将AI行为与人类价值观对齐。护栏可以基于关键词、度量或LLMs,作为用户和LLMs之间的过滤器,防止提示注入和其他恶意输入。当标记出潜在的有害内容时,可以采用几种策略:拒绝提示、添加免责声明、无害地总结结果或执行类似但安全的任务。这些可编程的、基于规则的系统通过检测和减轻潜在的有害请求,增强了LLMs的安全性,从而提高了AI交互的整体安全性和可靠性。

2.1 Guardrails AI

Guardrails AI是一个开源库,旨在增强大型语言模型(LLM)交互的可靠性。它使用XML格式的可靠AI标记语言(RAIL)规范,包括两个主要组件:“输出”和“提示”。“输出”组件定义了预期的LLM输出结构、字段类型、质量标准和纠正措施,而“提示”组件包含对LLM的高级指令。Guardrails AI提供了一个框架,用于创建自定义验证器,协调提示和验证过程,并为各种用例提供预构建的验证器库。它通过Rail对象实现规范,并通过Guard对象包装LLM API调用。RAIL规范概述了预期的结果结构、字段类型、质量标准和纠正措施。Guard对象作为主要接口,用RailSpec初始化,并管理AI引擎的操作,包括提示处理和调用历史跟踪。

3. 水印(Watermarking)

水印是一种通过在生成的文本中嵌入可以被算法检测到的不可见信号来减轻大型语言模型(LLMs)潜在危害的技术。这些水印可以以最小的文本质量影响实现,并在不需要访问LLMs的API或参数的情况下高效检测。存在各种水印方法,包括:

  • 软水印:偏见特定单词的logits
  • 必要和充分水印:实施最低检测约束
  • Easymark:利用Unicode规范(例如,Whitemark、Variantmark、Printmark)

水印可以编码内容的来源,区分人类和LLMs生成的文本。它们可以由受信任的LLMs提供者嵌入,并由第三方检测。然而,水印可能容易受到攻击,如插入、删除或替换令牌。作为建立信任的一部分,公司被鼓励遵守有关水印和内容归属的自愿承诺、监管合规和相关法律。

3.1 水印鲁棒性

LLMs生成的文本中的水印即使在机器和人类改写后仍然可以被检测到。虽然改写稀释了水印的强度,但它通常会留下原始文本的痕迹(n-grams或更长的片段),从而在有足够的令牌时实现高置信度的检测。即使在显著的人类改写后,水印也可以在观察大约800个令牌后被检测到,保持低误报率。WatermarkDetector需要在文本生成期间使用的相同设置,以准确复制greenlist并检测水印,包括设备、分词器、种子方案和参数。

4. 模型去偏见(Model Debiasing)

大型语言模型(LLMs)可能因多种因素表现出偏见行为,包括其训练数据中存在的偏见。解决这个问题涉及识别和减轻提示和输出中的偏见诱导内容。这个过程并不总是直接的,但可以采用几种策略:

  • 利用自动化工具和方法识别提示中的偏见诱导内容。
  • 添加明确的约束,阻止模型生成有偏见的响应。
  • 实施去偏见技术,如过滤、重写、排名或校准,以减轻生成文本中的偏见。

研究表明,LLMs中的学习表示可能从其预训练语料库中继承偏见和刻板印象,这些语料库通常包括大量的基于网络的文本。此外,随着模型大小的增加,语言建模能力和偏见往往会放大。

4.1 性别公平重写

性别公平重写是一个条件性文本生成任务,旨在将有偏见的文本转换为更具包容性的语言。虽然传统方法使用在有偏见和性别公平文本对的并行数据上训练的序列到序列模型,但最近的研究已经探索了替代方法。一种方法涉及通过往返机器翻译从性别公平的例子中创建性别偏见文本,消除了对复杂语言规则的需求。然而,提示工程在减少偏见或提高生成内容的真实性方面显示出有限的有效性,对于男性主导的工作的偏见只有轻微的减少。一些研究人员尝试使用引用多样性或明确指示无偏见写作的提示模板,但这些方法并没有显著改善减少工作广告中的性别偏见。

4.2 宪法AI(CAI)

宪法AI(CAI)是一种开发AI系统的方法,这些系统遵守预定义的伦理原则和指导方针。宪法链是CAI的一个关键组成部分,它过滤和修改语言模型的输出,以确保与这些原则保持一致,产生更有控制、更道德、更符合上下文的响应。这种机制有助于在最小化生成有害或冒犯内容的风险的同时保持输出的完整性。CAI使AI系统能够根据一套原则或“宪法”评估自己的输出,提高可扩展性和透明度。这个过程涉及监督学习和强化学习阶段,其中AI生成自我批评、修订,并从AI生成的偏好中学习。这种方法允许更精确地控制AI行为,最小化人类标记,从而产生无害但引人入胜的AI助手,它们可以解释对有害查询的反对。

有效的提示技术对于从大型语言模型(LLMs)获得无偏见和相关的响应至关重要。为了实现这一点,重要的是制定清晰和具体的指令,不留任何歧义的余地。这种清晰度有助于指导LLM生成既相关又无偏见的响应。然而,过程并不随着提示创建而结束。通过人工审查或使用专门的偏见检测工具测试LLM的输出至关重要,以确保响应符合期望的公平和准确性标准。此外,依赖单一的LLM可能不总是提供最平衡的观点。因此,建议使用多个LLM生成响应。这种方法通过利用不同模型的优势并减轻任何单一LLM中可能存在的个体偏见,有助于获得更全面和无偏见的观点。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注