随着人工智能的飞速发展,文本到图像 (T2I) 生成模型正以前所未有的速度改变着内容创作和创意工作流程。然而,这项强大技术也潜藏着风险,尤其是恶意用户可能利用其生成不适宜(NSFW)或有害内容,例如仇恨言论和有针对性的宣传。为了应对这些挑战,大多数 T2I 模型都内置了基于提示词的过滤机制,旨在检测并阻止敏感内容查询。然而,一种名为“提示词工程攻击”的新型漏洞正在浮出水面,攻击者可以通过巧妙地操纵输入提示词来绕过现有的保护措施。本文将深入探讨这一问题,并介绍一种名为 ImageBreak 的新型工具,旨在帮助研究人员和开发者构建更强大的内容审核策略,确保 T2I 模型在包括小学等敏感环境中也能安全可靠地部署。

提示词工程攻击:AI 安全的阿喀琉斯之踵

提示词工程攻击 利用了当前 T2I 模型内容审核机制的弱点。这些攻击通常通过多种手段来伪装或混淆敏感内容,从而绕过过滤器。例如,攻击者可能会使用语义相似但审核系统未能识别的替代词,或者使用暗示而非直接表达的方式来描述有害场景。

这种攻击方式的出现,使得现有的静态安全措施显得捉襟见肘。文本过滤器往往难以适应不断变化的攻击模式,也无法泛化到不同的语境中。更重要的是,如何在保证语义准确性的同时,又能有效绕过内容审核过滤器,是一个需要高级优化和迭代改进的难题。

举个例子,一个想要生成涉及暴力内容的恶意用户,可能会避免直接使用“暴力”、“打斗”等词汇,而是使用诸如“一场激烈的争论”、“情绪失控的场面”等更隐晦的表达方式。如果内容审核系统只简单地检测关键词,那么就很容易被这些经过精心设计的提示词所蒙蔽。

ImageBreak:动态生成提示词,挑战 AI 安全边界

为了解决上述问题,Arnav Dadarya 提出了 ImageBreak 框架。与依赖静态破解提示词的传统方法不同,ImageBreak 采用了一种动态的方式,利用大型语言模型 (LLM) 自动生成替代提示词,以绕过审查工具。之所以选择这种方法,是因为静态破解提示词一旦被模型开发者发现,通常很容易被修复,而动态生成的方法更具适应性和持久性。

ImageBreak 的工作流程主要包括以下几个阶段:

  • 提示词生成管道 (Prompt Generation Pipeline): 根据 T2I 工具的伦理准则和使用条款 (G),利用 LLM 生成一系列应被视为不道德且不应生成的示例提示词 (λ)。
  • 提示词修改管道 (Prompt Alteration Pipeline): 将每个不道德的提示词 (λ) 输入到此管道中,将其重构为旨在绕过内容过滤器并允许生成图像的修改后的提示词 (M)。
  • 图像生成管道 (Image Generation Pipeline): 使用修改后的提示词 (M) 生成图像 (I),理想情况下,该图像应该被伦理准则阻止。
  • 内容审核 API (Content Moderation API): 使用内容审核 API 来评估生成的图像 (I) 的图形程度或不道德程度。
  • Web 仪表板 (Web Dashboard): 最后,Web 仪表板展示生成的图片以及来自 AWS Rekognition 等工具的分类结果。

ImageBreak 的核心优势在于其动态性和适应性。它模拟了真实用户可能使用的攻击方式,并能够发现现有内容审核系统中的潜在漏洞。更重要的是,ImageBreak 可以在黑盒环境中运行,无需了解目标模型的内部工作原理,这使得它更具通用性和可扩展性。

实战测试:ImageBreak 的惊人发现

使用 ImageBreak 工具包,研究人员成功生成了许多绕过 OpenAI 图像生成伦理安全措施的图像。虽然生成的图像的不雅或不道德程度似乎随机变化,但总体的成功率值得关注。结果表明,对于某些主题,现有的安全措施仍然存在明显的漏洞。

例如,ImageBreak 在生成与恐怖主义相关的图像方面最为有效。该工具能够创建 9/11 袭击的详细描述,甚至无意中传播了与中东相关的刻板印象。LLM 在重述提示以绕过内容审核措施方面表现出了卓越的能力,避免了明确提及 9/11 的地点或日期,或者使用“恐怖分子”一词。相反,重新措辞后的提示强调了情感方面,并描述了一个涉及飞机和高楼大厦的场景,提供了足够的上下文来生成让人联想到 9/11 的图像,而没有直接提及。

此外,ImageBreak 在生成描绘女性遭受骚扰的图像方面也相当有效,凸显了当前内容审核系统效率低下的问题。它能够提示 OpenAI 生成显示女性受到性骚扰、不当触摸和表达身体不适的图像。同样,该工具包成功生成了具有性性质的图像,包括露骨的裸体和性行为,引发了人们对 OpenAI 的内容审核系统无法检测此类内容的担忧。

平衡创造力与安全:AI 发展的永恒难题

ImageBreak 的研究结果揭示了 内容审核 在 T2I 模型中面临的根本挑战:如何在保持模型创造力的同时,确保其符合伦理和安全标准。当前的静态保护措施往往过于保守,限制了模型的实用性,而不够保守又会导致有害内容的传播。

例如,一个过于严格的内容审核系统可能会将所有与枪支相关的提示词都屏蔽掉,即使这些提示词仅仅是为了生成一部关于警匪片的艺术作品。另一方面,一个过于宽松的系统则可能会允许生成宣扬暴力的图像,从而对社会造成负面影响。

因此,我们需要更加精细化和自适应的内容审核策略。这些策略应该能够理解提示词的语境,并能够区分良性和恶意的意图。此外,这些策略还需要不断更新和改进,以应对不断变化的攻击模式。

迈向更安全的 AI 未来

ImageBreak 的出现为我们提供了一个评估和改进 T2I 模型安全性的重要工具。它揭示了当前内容审核系统中的漏洞,并为研究人员和开发者提供了构建更安全、更可靠的 AI 系统所需的洞察力。

然而,ImageBreak 仅仅是万里长征的第一步。我们需要更多的研究和创新,才能真正解决 AI 安全问题。这包括开发更先进的内容审核算法,改进提示词工程攻击的检测方法,以及建立更加健全的伦理准则和监管框架。

更重要的是,我们需要建立一个开放和协作的生态系统,让研究人员、开发者和政策制定者能够共同努力,确保 AI 技术的负责任使用。只有通过共同努力,我们才能构建一个更安全、更美好的 AI 未来。

总结,通过揭示AI图像生成模型在 提示词工程攻击 下的“盲点”,并介绍 ImageBreak 这一创新工具,我们希望能引起更多人对AI安全问题的关注,共同推动 内容审核 技术的发展,最终实现 文本到图像 (T2I) 生成模型 更安全、更负责任的应用,构建一个更安全的AI未来。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注