利用 LLM-as-a-Judge 提升威胁情报质量：SentrySearch 的实践之路

大模型技术（LLM）的应用场景日益广泛，如何有效评估其输出质量成为关键。本文将深入探讨 SentrySearch 如何通过 LLM-as-a-Judge 评估体系，结合智能提示（Smart Prompting）和迭代评分（Iterative Scoring），显著提升其生成的威胁情报质量，使其从一个基础的生成器演变为一个能够自我改进的威胁情报平台。我们将着重分析 SentrySearch 的实践经验，包括评分引擎的设计、web搜索在消除幻觉中的作用，以及如何利用关键词触发 Claude 的研究模式，最终生成可信且可操作的威胁情报报告。

1. LLM-as-a-Judge：构建威胁情报的质量评估体系

传统的威胁情报生成往往依赖人工分析和整理，效率低且易出错。SentrySearch 创新性地引入 LLM-as-a-Judge 机制，构建了一套全面的评分体系，对生成的威胁情报进行多维度评估。这套体系的核心在于让另一个 LLM (在本例中是 Claude) 充当“法官”的角色，对 SentrySearch 生成的内容进行客观评估。

SentrySearch 的评分引擎从五个关键维度评估每个威胁情报剖面：

完整性 (Completeness, 0-5)：是否填充了所有必需的字段？
技术准确性 (Technical Accuracy, 0-5)：信息是否正确且详细？
来源质量 (Source Quality, 0-5)：声明是否有可信来源支持？
可操作性 (Actionability, 0-5)：安全团队是否可以实际使用这些信息？
相关性 (Relevance, 0-5)：是否特定于该威胁？

每个部分的总体得分是这些维度的平均值。例如，一个关于新型勒索软件的威胁情报，如果仅仅列出了恶意域名和IP地址，而没有提供检测规则或缓解建议，那么它的“可操作性”得分就会很低，从而影响总分。

这种细粒度的评分体系不仅可以量化威胁情报的质量，还可以为 LLM 提供明确的改进方向。通过对生成结果的不断迭代和改进，威胁情报的质量得到了显著提升。

2. 迭代评分：驱动威胁情报的自我改进

迭代评分是 SentrySearch 提升威胁情报质量的关键环节。通过不断循环生成、评分和改进的步骤，SentrySearch 能够逐步优化其输出结果。

文章提供了一个具体的例子，展示了“检测与缓解”部分在三次迭代中的演变过程：

Iteration 1 – Score: 2.4/5.0 ❌：最初的版本只包含通用的占位符信息，缺乏实际的 IOCs (Indicators of Compromise)。
```
{
  "detectionAndMitigation": {
    "iocs": {
      "domains": ["malicious domains"],
      "ips": ["malicious IPs"]
    },
    "behavioralIndicators": ["suspicious behavior"]
  }
}
```
反馈是：“通用占位符，没有实际的 IOCs，没有检测规则。”

Iteration 2 – Score: 3.0/5.0 ⚠️：第二版加入了具体的域名、IP 地址和文件名等 IOCs，以及行为指标，但仍然缺少检测所需的 YARA/Sigma 规则。

{
  "detectionAndMitigation": {
    "iocs": {
      "domains": [
        "overseas-recognized-athens-oakland.trycloudflare.com",
        "brandnav-cms-storage.s3.amazonaws.com"
      ],
      "ips": ["5.161.153.112", "43.247.135.53", "15.204.56.106"],
      "filenames": ["helper.jsp", "cache.jsp", "dyceorp.jsp"]
    },
    "behavioralIndicators": [
      "mshta.exe spawning PowerShell processes",
      "Base64 encoded PowerShell execution",
      "POST requests to /developmentserver/metadatauploader"
    ]
  }
}

反馈是：“不错的 IOCs，但仍然缺少用于检测的 YARA/Sigma 规则。”

Iteration 3 – Score: 3.8/5.0 ⚠️：最终版本不仅包含 IOCs 和行为指标，还加入了威胁狩猎查询和 SIEM 规则，使得威胁情报更具可操作性。
json { "detectionAndMitigation": { "iocs": { /* previous IOCs */ }, "behavioralIndicators": [ /* previous indicators */ ], "threatHuntingQueries": [ "process == ('bash') && command_includes ('base64, -d')", "process == ('curl') && wrote/modified_executable && command_includes ('/tmp')", "process == python && command_includes (' -c ' || '.socket')" ], "siemRules": { "splunk": "index=web sourcetype=sap_netweaver uri=\"/developmentserver/metadatauploader\" method=POST | where len(request_body) > 1024", "elastic": "event.module:sap AND url.path:\"/developmentserver/metadatauploader\" AND http.request.body.bytes > 1024" } } }
反馈是：“好多了！考虑添加内存取证模式。”

通过这个例子可以看出，迭代评分机制能够引导 LLM 不断完善和改进威胁情报的内容，使其更具实用价值。这种持续的反馈循环是提升威胁情报质量的有效途径。

3. Web搜索：消除 LLM 的“幻觉”现象

大模型有时会产生“幻觉”，即自信地提供看似合理但实际上并不存在的 URL 链接或信息。这对于威胁情报来说是致命的，因为虚假信息会严重损害安全团队的信任。 SentrySearch 通过重复使用 Web搜索 工具来消除这种“幻觉”现象。

在早期迭代中，Claude 会自信地引用安全报告并提供看似合法的 URL，但这些 URL 实际上并不存在。为了解决这个问题，SentrySearch 的评分系统会特别验证来源的真实性，通过检查 URL 可访问性以及将声明与实际 Web 内容进行交叉引用，从而捕捉和纠正幻觉。

例如，如果 Claude 声称某个知名安全厂商发布了一份关于特定恶意软件的报告，但提供的 URL 无法访问，或者报告内容与 Claude 的描述不符，评分系统就会降低该部分的得分，并促使 Claude 重新进行 Web搜索，找到更可靠的来源。

这种迭代验证循环确保了最终报告中的每一个引用都指向真实、可访问的来源，从而显著提高了威胁情报的可靠性。

4. 智能提示：激活 Claude 的深度研究模式

智能提示（Smart Prompting） 是一种通过精心设计的关键词来引导 LLM 行为的技术。SentrySearch 通过研究 Claude 4 的系统提示，发现某些关键词可以触发其截然不同的行为模式。诸如“全面 (comprehensive)”，“分析 (analyze)”，“研究 (research)” 和 “深入 (deep dive)” 之类的词语可以激活 Claude 的多工具研究模式，使其从基本的单次搜索扩展到包含 5-20 次工具调用的彻底调查。

SentrySearch 在其核心提示中战略性地使用了几个触发关键词：

prompt = f"""Generate a comprehensive threat intelligence profile for: {tool_name}...
Please use web search to find the most current information about {tool_name}, including:
- Recent vulnerabilities and exploits
- Technical details and architecture...
Based on your research, create a comprehensive profile in the following JSON format:
"""

Comprehensive (使用两次)：触发全面的多源研究
Research：激活系统的信息收集

这些关键词不仅仅是数量上的堆砌，更重要的是它们触发了 Claude 内置的研究协议。正如 Simon Willison 指出的那样，这些关键词激活了一个“研究类别”，该类别需要“至少 5 次工具调用以确保彻底性”。

通过智能提示，SentrySearch 能够引导 Claude 进行更深入、更全面的研究，从而获取更准确、更全面的威胁情报。

5. 威胁情报质量提升的闭环：智能提示、迭代评分与 Web 搜索的协同作用

SentrySearch 通过 智能提示、迭代评分和 Web 搜索 的协同作用，构建了一个闭环的威胁情报质量提升系统。

智能提示触发全面的初始研究，引导 LLM 进行深入的信息挖掘。
迭代评分识别差距和幻觉，为 LLM 提供明确的改进方向。
Web 搜索 消除 LLM 幻觉，验证信息的真实性，确保来源可靠。
LLM 基于评分结果和 Web 搜索结果，对威胁情报进行有针对性的重新研究和改进。

这个循环不断重复，直到威胁情报达到预期的质量标准。

具体来说，如果初始提示包含“全面”和“研究”等关键词，Claude 就会主动进行多轮 Web 搜索，收集关于目标威胁的各种信息，包括漏洞、利用方法、技术细节等。然后，LLM-as-a-Judge 会对 Claude 生成的威胁情报进行评分，如果发现信息不完整、不准确或者来源不可靠，就会给出具体的反馈。Claude 会根据这些反馈，再次进行 Web 搜索，补充缺失的信息，纠正错误的信息，并替换不可靠的来源。

例如，对于一个新型的APT组织，SentrySearch 可能会首先生成一个包含基本信息的威胁情报，例如该组织的名称、攻击目标、使用的工具等。然后，LLM-as-a-Judge 会评分发现该威胁情报缺少该组织的攻击手法、IOCs等关键信息，并且引用的某些安全报告已经过时。Claude 会根据这些反馈，再次进行 Web 搜索，找到最新的安全报告和分析文章，从中提取出该组织的攻击手法和IOCs，并更新威胁情报的内容。经过几轮迭代后，SentrySearch 最终能够生成一个高质量的威胁情报，包含该组织的详细信息，包括攻击目标、攻击手法、IOCs、防御建议等。

6. 总结与展望：LLM-as-a-Judge 在威胁情报领域的潜力

SentrySearch 的实践证明，通过结合 LLM-as-a-Judge、智能提示和 迭代评分，可以显著提升威胁情报的质量，使其更具可信度和可操作性。这种方法不仅可以提高威胁情报的生成效率，还可以降低人工分析的成本，并减少人为错误。

未来，LLM-as-a-Judge 在威胁情报领域还有巨大的潜力。随着大模型技术的不断发展，我们可以构建更加智能、更加细致的评分体系，例如引入专家知识库，让 LLM 能够更好地理解威胁情报的专业术语和概念，从而做出更准确的判断。此外，我们还可以将 LLM-as-a-Judge 应用于其他安全领域，例如漏洞挖掘、恶意代码分析、安全事件响应等，从而提升整个安全行业的效率和水平。

总而言之，LLM-as-a-Judge 不仅仅是一种评估方法，更是一种新的威胁情报生成和改进的范式。通过这种范式，我们可以充分利用大模型技术的优势，构建更加智能、更加可靠的威胁情报体系，从而更好地保护我们的网络安全。而智能提示和迭代评分则是确保LLM-as-a-Judge 能够有效提升威胁情报质量的关键技术。

利用 LLM-as-a-Judge 提升威胁情报质量：SentrySearch 的实践之路