随着人工智能在全球范围内的迅速扩张,AI安全问题日益凸显,尤其是在多语种环境下,现有的AI安全评估基准往往难以覆盖所有语言和文化背景。新加坡作为一个拥有独特多语种环境的国家,包括新加坡式英语(Singlish)、中文、马来语和泰米尔语,在AI安全评估方面面临着独特的挑战。为了弥补这一差距,本文将重点介绍由新加坡政府科技局(GovTech)与新加坡科技设计大学(SUTD)合作开发的RabakBench,这是一个专为新加坡多语种环境设计的AI安全评估基准,旨在识别并解决现有AI系统中存在的语言盲点。

多语种AI安全评估的必要性

全球AI安全评估往往以英语为中心,忽略了其他语言和文化背景下的潜在风险。在新加坡,由于其独特的多语种环境,这种差距尤为明显。新加坡式英语(Singlish)是一种融合了多种语言元素的混合语,而中文、马来语和泰米尔语也各有其独特的表达方式和文化内涵。如果AI系统无法准确理解和处理这些语言,就可能产生严重的AI安全问题,例如无法识别仇恨言论、性暗示内容或自残倾向。

案例: 假设一个AI聊天机器人被用于提供心理健康支持。如果该机器人无法理解泰米尔语中表达自杀倾向的特定短语,就可能无法及时发现并干预潜在的自杀事件。这凸显了在多语种环境中进行AI安全评估的必要性。

RabakBench:弥合多语种AI安全评估的差距

RabakBench的出现正是为了弥合现有AI安全评估基准在多语种环境下的差距。该基准不仅涵盖了新加坡式英语(Singlish),还包括中文、马来语和泰米尔语,并针对不同风险类别(包括侮辱、性内容、自残等)进行了标注,并明确了严重程度级别,以便进行细致的评估。与现有的SGHateCheck等基准相比,RabakBench在范围和深度上都进行了扩展,旨在更全面地评估AI系统在多语种环境下的安全性。

关键特点:

  • 多语种覆盖: 涵盖新加坡式英语(Singlish)、中文、马来语和泰米尔语。
  • 多风险类别: 包括侮辱、性内容、自残、暴力和不当行为等。
  • 严重程度分级: 对每个风险类别进行严重程度分级,以便进行更细致的评估。

RabakBench的构建方法:兼顾质量与效率

构建高质量的多语种AI安全评估基准是一项极具挑战性的任务,尤其是在资源有限的情况下。传统的标注方法需要大量训练有素的语言学家,但对于像马来语、泰米尔语或新加坡式英语(Singlish)这样的语言来说,这类专家资源非常稀缺。RabakBench的构建采用了一种创新的方法,将人工标注与大语言模型(LLM)辅助工作流程相结合,从而在保证质量的同时提高了效率。

RabakBench的构建过程主要分为三个阶段:

  1. 内容生成和红队测试: 从网络论坛收集原始的新加坡式英语(Singlish)内容,并使用提示模板将其转换为指令语句。此外,还使用自动化对抗性红队测试来发现常见的AI安全防护措施中的漏洞,特别是假阳性和假阴性案例。
  2. 替代测试和标注: 使用Alt-Test方法,选择Gemini Flash、o3-mini-low和Claude 3.5 Haiku等与人工标注高度一致的LLM。然后,通过对这些LLM的输出进行多数投票来确定最终标签,以确保准确性和可扩展性。
  3. 毒性感知翻译: 由于马来语和泰米尔语是相对低资源的语言,机器翻译的准确性存在问题。为了克服这个问题,开发了一种“毒性感知少样本提示”方法,通过结构化的多轮研讨会,由母语标注者审查LLM生成的翻译,并进行优化,优先考虑真实性、语调、文化背景以及有害表达的保留。

案例: 在翻译包含侮辱性词语的新加坡式英语(Singlish)文本时,传统的机器翻译可能会将其替换为较为温和的表达方式,从而失去其原始的毒性。而RabakBench的“毒性感知少样本提示”方法可以确保翻译后的文本保留原始的毒性,从而更准确地评估AI系统对有害内容的识别能力。

RabakBench的评估结果:揭示多语种AI安全盲点

使用RabakBench对11种流行的开源和闭源AI安全防护措施进行评估后,结果显示,这些防护措施在多语种环境下的性能存在显著差距。例如,OpenAI Moderation Endpoint在泰米尔语上的表现非常糟糕,而AWS Bedrock Guardrail虽然在新加坡式英语(Singlish)中能够有效标记不安全内容,但在中文、马来语和泰米尔语中几乎完全无法识别有害内容。

评估结果摘要:

  • OpenAI Moderation Endpoint在泰米尔语上的准确率仅为7%。
  • LlamaGuard 4 12B在多语种环境下的表现不佳。
  • WildGuard 7B在新加坡式英语(Singlish)中的表现出色(78.9%),但在泰米尔语中的表现急剧下降(2%)。
  • AWS Bedrock Guardrail在新加坡式英语(Singlish)中有效,但在中文、马来语和泰米尔语中几乎无效。

这些结果与这些AI安全防护措施的公开多语种支持能力相符:

  • AWS Bedrock Guardrails:仅支持英语、法语和西班牙语。
  • Azure AI Content Safety:明确支持所有四种语言。
  • OpenAI Moderation, Google Model Armour:声明支持多语种,但未公开完整语言列表。
  • Perspective:支持德语、英语、西班牙语、法语、意大利语、葡萄牙语、俄语。
  • LlamaGuard 3 & 4:支持英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语、泰语。
  • Duoguard:基于Qwen 2.5,支持多语种,但未公开完整语言列表。
  • Polyguard:基于Qwen 2.5,针对阿拉伯语、中文、捷克语、荷兰语、英语、法语、德语、印地语、泰语、意大利语、日语、韩语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语进行了微调。
  • ShieldGemma:基于Gemma 2,仅支持英语。
  • WildGuard:基于Mistral-7b-v0.3,仅支持英语。

这些差异凸显了本地化的多语种AI安全评估基准(如RabakBench)的迫切需求,以便发现特定语言的盲点,这对于降低部署风险至关重要。

结论: 这些结果表明,即使是一些流行的AI安全防护措施在多语种环境下的表现也远不如在英语环境中那样出色。这强调了使用针对特定语言和文化背景的AI安全评估基准的重要性,以便更准确地评估AI系统在不同环境下的安全性。

RabakBench的应用价值:赋能AI安全生态系统

RabakBench不仅是一个评估工具,更是一个赋能AI安全生态系统的平台,为研究人员、开发者和政策制定者提供了宝贵的资源。

  • 对于企业和开发者: RabakBench可以帮助他们评估其AI系统在新加坡多语种环境下的安全性,从而构建更可靠、更负责任的AI解决方案。
  • 对于研究人员: RabakBench提供了一个基础数据集和评估框架,鼓励他们进一步探索针对新加坡特定环境的低资源语言,并解决独特的多语种AI安全挑战。
  • 对于政策制定者: RabakBench强调了英语中心评估之外存在的重大安全漏洞,强调了全面的多语种测试和知情决策对于确保更安全的AI部署的重要性。

展望:

RabakBench的发布标志着新加坡在多语种AI安全评估方面迈出了重要一步。然而,这仅仅是开始。未来,我们需要继续完善RabakBench,扩大其覆盖范围,并开发更先进的评估方法,以便更好地应对不断演变的AI安全挑战。同时,我们也需要加强国际合作,共同推动全球AI安全标准的发展,确保AI技术能够安全、可靠地服务于全人类。

呼吁: 我们诚邀研究人员、开发者和政策制定者使用RabakBench,共同构建更安全、更负责任的、为我们的多语种社区量身定制的AI系统。