利用大模型（GenAI）技术优化威胁情报报告流程：从理论到实践的成功案例

摘要： 本文深入探讨如何利用大模型（LLM），一种生成式人工智能（GenAI）形式，来显著提升威胁情报报告效率。通过实际案例分析，展示了如何将安全研究人员从繁琐的手工报告工作中解放出来，将报告时间从两小时缩短到15分钟，并详细阐述了关键的设计决策。

1. 引言：威胁情报报告面临的挑战与大模型（GenAI）的潜力

在当今快速演变的cybersecurity安全领域，威胁情报是组织防御体系的关键组成部分。安全团队需要快速、准确地了解最新的威胁态势，以便及时采取行动。然而，传统威胁情报报告流程往往涉及大量的手工工作，例如筛选新闻、总结信息、撰写报告等，耗时且效率低下。特别是在面对海量信息时，安全分析师容易陷入信息过载的困境，难以聚焦于真正重要的威胁。

大模型（LLM）作为GenAI的一种，为解决这一挑战提供了新的思路。LLM拥有强大的文本理解、生成和推理能力，可以自动完成诸如信息筛选、内容摘要、风险排序等任务，从而显著提高威胁情报报告的效率和质量。本文将通过一个实际案例，详细介绍如何利用LLM技术优化威胁情报报告流程，并分享其中的经验和教训。

2. 案例背景：Workday的威胁情报报告需求

Workday的安全团队负责监控最新的网络安全威胁，并生成每日报告，向内部利益相关者通报潜在的漏洞、行业新闻、主要威胁行动者更新以及与安全行业相关的政策变更。这些报告特别关注需要立即采取行动的高影响力文章，并使用特定的标签进行标记。该团队需要定期审查大量（约200篇）网络安全新闻文章，从中挑选出与Workday相关的少数文章（通常是2-6篇，理想情况下是3篇）。如果文章中提及Workday的工具或技术，团队还需要采取进一步的跟进措施。

这个过程高度依赖人工，耗费了大量的时间和精力。为了解决这个问题，Workday的安全团队希望引入一个“人机协作”系统，利用GenAI辅助信息筛选和总结，从而解放专家，让他们能够专注于关键分析和行动。

3. 解决方案：人机协作的威胁情报报告系统

Workday构建了一个基于LLM的“人机协作”系统，用于自动化威胁情报报告流程。该系统主要包括以下几个模块：

数据摄取 (Data Ingestion): 从威胁情报研究人员精选的可信来源处获取RSS订阅源。这些RSS订阅源提供每篇文章的标题和预览文本，并将其输入到我们的应用程序中。
LLM处理 (LLM Processing): 这是系统的核心，包含多个LLM模型，负责不同的任务。
- 分类 (Classification): LLM根据文章的标题和预览文本，将文章分类为“与团队报告相关”或“不相关”，从而及早过滤掉不相关的文章。
- 摘要 (Summarization): 如果文章被分类为相关，应用程序将下载全文，另一个LLM按照提供的模板生成简洁的摘要。摘要应重点关注文章的关键信息：事件是什么，影响是什么，以及应采取的缓解措施。
- 优先级排序 (Prioritization): 该LLM根据预定义的标准对文章进行评分，以确定最重要的文章的优先级。因素包括对我们系统的潜在影响，特定工具的使用，高风险实体的参与以及其他内部定义的标准。
- 去重 (Deduplication): 该LLM系统识别并删除相似或先前报告的文章。这是根据第一阶段发布后的反馈添加的功能。
交付 (Delivery): 将排名靠前的N篇文章摘要发布到团队Slack频道，以进行协作和审查。只有在团队的审查和编辑之后，最终版本才会与利益相关者共享，从而确保人工参与。

此外，该系统还提供以下功能：

Slackbot集成: 用户可以通过Slackbot与系统进行交互，使用/dr命令获取每日报告，使用/summarize命令按需获取文章摘要，使用/check cve-xxx-xxxx命令检查CVE暴露情况并自动创建Jira工单。
CVE扫描和工单自动创建: 系统能够自动检测文章中提到的CVE（Common Vulnerabilities and Exposures），并与内部工具集成，快速检查是否存在漏洞暴露，并自动创建Jira工单，以便及时修复。

4. 设计决策：模型选择、交付机制与提示工程

在系统设计过程中，Workday团队进行了以下关键决策：

模型选择 (Model Selection): 评估了多个GenAI基础LLM，包括Gemini Pro，Gemini Flash和Llama。 Gemini Pro因其生成的报告与团队成员创建的报告非常接近而脱颖而出。
交付机制 (Delivery Mechanism): 选择Slack作为交付机制，以将GenAI集成到常规工作流程中。 Slackbot集成简化了用户交互，使用户能够轻松访问和使用系统的各项功能。
LLM架构与提示工程 (LLM Architecture and Prompt Crafting): 花费了大量精力来制作LLM的有效提示，首先采访了威胁情报研究人员，以了解他们的思维过程和工作流程。
- 分类： 为了进行分类，我们收集了过去的报告，并使用LLM提取常见的重复主题，例如“勒索软件”，“漏洞”和“数据泄露”。然后，我们要求分类LLM选择并优先考虑与这些主题相关的文章。通过关注这些重复出现的主题，LLM可以更好地识别和选择与安全研究团队的兴趣和职责最相关的文章。为了对文章进行分类，我们尝试了3种不同的方法：
  1. 仅使用标题：性能较差（36％的假阴性，64％的真阳性）。
  2. 使用标题和预览：有效且高效。
  3. 使用标题和全文：与选项2的性能相似，但资源消耗更大。
  选项2和选项3的性能相似。因此，为了减少输入令牌，我们使用了标题和预览传递给分类提示。这样，我们还需要仅在文章被归类为相关时才下载全文，从而缩短了整个过程的时间。
  为了利用LLM的推理能力，我们指示分类LLM不仅对文章进行分类，还提供“解释”说明其得出结论的原因，从而使过程透明并验证其准确性。这也帮助我们完善了提示。
- 摘要： 为了对上一阶段选择的文章进行摘要，我们要求LLM捕获关键细节：发生了什么，影响是什么以及缓解措施。我们提供了几个具有代表性的先前编写的每日报告作为示例，并提供了格式说明。这种少样本提示方法使其能够生成更符合团队期望的摘要。
- 优先级排序： 平均而言，LLM将20％的文章归类为“相关”，这比我们通常选择报告的文章要多。因此，我们使用了另一个提示来优先考虑与Workday更相关的文章。我们根据诸如其对我们系统的潜在影响，特定工具的使用，高风险实体的参与以及其他内部定义的标准等因素对文章进行评分和排名。我们仅向优先级排序LLM提供了AI生成的摘要，以保持较低的令牌数并更快地生成输出。

Workday团队还采用了提示链 (Prompt Chaining) 的方法，即每个提示都建立在前一个提示的结果之上，创建一个处理链。一个步骤的输出（例如，摘要）成为下一个步骤（例如，优先级排序）的输入。使用单独的，专门的提示在每个阶段执行特定的任务，例如分类，摘要，优先级排序等，比使用单个包罗万象的提示更有效，因为它可以使我们更好地控制故障排除，并提高LLM响应的质量。此外，它还避免了因一次性输入过多指令而使模型超载，这可能会导致性能下降。

5. 系统评估：准确率与用户反馈

为了评估系统的有效性，Workday团队进行了以下评估：

分类准确率评估: 使用机器学习的二元分类器测试方法评估分类LLM的准确性。我们收集了以前的RSS订阅源，并检查了我们团队将该订阅源中的哪些文章报告为相关的，哪些文章不相关，将该标签视为基本事实或真实标签。然后，我们在该数据的子集上运行了分类LLM，并将其结果（预测的标签）与基本事实进行了比较。
用户反馈收集: 在第一阶段部署到生产环境后，我们收集了有关AI生成的报告的反馈一个月。我们从四位威胁情报研究人员那里收集了有关以下问题的持续反馈：
- 模型是否选择了不相关的文章？（假阳性，FP）。如果是这样，为什么？
- 模型是否未能选择IS相关的文章？（假阴性，FN）如果是这样，为什么？
- 关于摘要的质量，长度，措辞和格式的自由形式反馈。
在收集了第一阶段发布的反馈之后，我们改进了提示并添加了一些新功能。由于多个新闻来源经常报道同一正在进行的事件，因此添加了重复数据删除功能，因此我们指示模型不要报告重复项。这是一个正在进行的项目，目前正在评估第二阶段的结果。

6. 技术细节：AWS基础设施与Workday AI能力

该系统在底层利用基于AWS服务和Workday内部AI功能的架构。 AWS Lambda函数协调整个过程，利用Workday的集中式LLM平台和Gemini大语言模型进行智能文章处理。它还与外部API集成，以在Jira中进行数据检索和工单创建。整个操作都在专用VPC中安全管理，从而确保了可靠且受监控的性能。这种自动化将大大减少威胁情报分析师的手动工作量，使他们能够专注于更具战略意义的高价值任务。

7. 实践成果：效率提升与威胁情报质量

通过引入基于LLM的威胁情报报告系统，Workday取得了显著的成效：

效率提升: 手工报告时间从2小时减少到15分钟，节省了87.5%的时间。安全研究人员可以利用节省的时间专注于更重要的分析和决策。
覆盖面扩大: 系统能够处理更多的信息，覆盖更广泛的威胁情报来源，提高了威胁检测的准确性和全面性。
响应速度加快: 自动化流程缩短了威胁情报的获取和分析周期，使安全团队能够更快地响应潜在威胁。

8. 未来展望：大模型（GenAI）在威胁情报领域的应用前景

Workday的案例展示了GenAI在大模型在威胁情报领域应用的巨大潜力。未来，随着LLM技术的不断发展，我们可以期待以下应用前景：

更智能的威胁检测: 利用LLM进行威胁行为模式分析，发现更隐蔽、复杂的攻击。
自动化威胁响应: LLM可以根据威胁情报自动生成响应策略，并自动化执行部分响应操作。
个性化威胁情报: LLM可以根据不同用户的角色和权限，定制化推送威胁情报，提高信息的相关性和有效性。
多语言威胁情报处理: LLM可以自动翻译和理解不同语言的威胁情报，打破语言障碍，扩大情报来源。

9. 结论：拥抱GenAI，提升网络安全防御能力

Workday的项目证明了GenAI在简化威胁情报报告方面的实际成功。通过将GenAI集成到安全框架中，组织可以主动识别和缓解威胁，从而在不断发展的网络安全环境中保持领先地位。拥抱GenAI，并将其应用于威胁情报等关键领域，将有助于组织构建更强大、更智能的网络安全防御体系，从而更好地应对日益严峻的网络安全挑战。

利用大模型（GenAI）技术优化威胁情报报告流程：从理论到实践的成功案例