Stripe的支付基础模型：交易数据也能“说话”

Stripe 推出了 支付基础模型 (Payments Foundation Model, PFM)，这不仅仅是一个模型，更是一场金融科技领域的革命。它标志着大模型技术在结构化金融交易数据领域的成功应用，并重新定义了欺诈检测、风险预测和支付优化的未来。本文将深入探讨 PFM 的技术原理、优势以及对传统方法的颠覆，并展望其对整个金融行业的影响。

PFM：金融交易的Transformer架构

PFM 的核心在于其基于 Transformer架构 的神经网络，但不同于传统的大语言模型（LLM），它并非处理文本，而是处理结构化的金融交易数据。每一笔交易都被分解为多个关键特征，例如卡 BIN、商户类别、IP 地址、设备指纹和时间戳等。这些特征被视为一个个“token”，而一系列交易则构成一个“句子”。通过在数十亿笔交易数据上进行训练，PFM 学习到了支付行为的“语法”和潜在模式。Transformer架构的优势在于其能够捕捉交易数据中复杂的长期依赖关系，例如不同时间点、不同地点发生的交易之间的关联性，从而更准确地识别异常行为。

例如，一个传统的欺诈检测模型可能只关注单笔交易的金额、地点等静态特征。而 PFM 则能够通过分析用户历史交易记录，判断当前交易是否符合用户的正常消费习惯。如果一个用户平时只在本地消费，突然出现一笔来自国外的交易，PFM 就能更敏感地捕捉到这种异常，从而提高欺诈检测的准确率。

自监督学习：大规模交易数据的力量

PFM 的训练采用了 自监督学习 的方式，这意味着模型不需要大量的人工标注的欺诈数据。相反，它利用 Stripe 积累的数十亿笔真实交易数据，通过学习交易数据自身的内在结构来识别潜在的风险模式。这种方法大大降低了模型训练的成本和难度，同时也提高了模型的泛化能力。

想象一下，如果需要人工标注数十亿笔交易数据，这将是一项巨大的工程，而且很容易出现标注错误。而自监督学习则能够避免这些问题，让模型自主地从数据中学习知识。例如，PFM 可以通过学习不同地区、不同发卡行、不同消费者行为和不同时间段的交易数据，识别出各种各样的欺诈模式，而无需人工预先定义这些模式。

嵌入向量：通用的风险信号

PFM 的输出是 嵌入向量 (embedding vector)，这是一种稠密的向量表示，能够捕捉交易的语义信息。这些嵌入向量可以用于各种下游任务，例如欺诈评分、争议预测、授权路由优化、异常检测和 KYC 评分等。通过使用 PFM 生成的嵌入向量，Stripe 能够构建一个通用的风险信号，并在整个风险体系中重复使用，从而提高效率和一致性。

传统的欺诈检测系统往往需要为每个任务单独构建模型，并手动设计特征。而 PFM 则提供了一个通用的解决方案，可以为不同的任务生成统一的嵌入向量。例如，用于欺诈检测的嵌入向量也可以用于预测争议的可能性，甚至可以用于优化授权路由，从而降低交易失败率。

性能提升：超越传统模型

Stripe 的官方数据显示，使用 PFM 后，其在卡测试欺诈检测方面的准确率从 59% 跃升至 97%，且没有增加误报率。这一显著的性能提升表明 PFM 在处理复杂金融交易数据方面的强大能力。

此前，Stripe 依赖于 XGBoost、逻辑回归以及人工设计的特征来构建欺诈检测模型。这些模型虽然有效，但存在着孤立、僵化和易受变化影响的缺点。PFM 则用一个通用的 Transformer 模型取代了这些模型，该模型可以被微调或重复使用于多种支付智能任务。

TF-IDF：基础设施的权衡

作者在文章中坦言，自己在金融数据处理领域一直偏爱 TF-IDF 模型，尽管近年来 Transformer 模型越来越流行。TF-IDF 的优势在于其简单、易于理解和部署，并且在资源有限的环境下也能取得良好的效果。对于很多银行来说，它们没有足够的计算资源来训练和部署大型的 Transformer 模型，因此 TF-IDF 仍然是一个务实的选择。

然而，Stripe PFM 的出现，让人重新思考了这种权衡。如果基础设施不再是限制，那么 Transformer 模型能够带来什么样的可能性？PFM 的成功证明，在大规模数据和充足的计算资源的支持下，Transformer 模型能够在结构化数据领域取得超越传统方法的性能。

例如，在发展中国家的银行，由于基础设施的限制，往往只能采用简单的欺诈检测模型。这些模型可能只能检测到一些最常见的欺诈手段，而对于一些更复杂的欺诈行为则无能为力。PFM 的出现，为这些银行提供了一个新的选择：通过云服务或者定制化的解决方案，利用 PFM 的强大能力来提高欺诈检测的准确率。

结构化数据的Transformer模型：社区的推动

Stripe 的工作验证了一个重要的观点：Transformer 模型不仅适用于文本和图像，也适用于结构化数据。近年来，学术界和工业界都在积极探索 Transformer 模型在结构化数据领域的应用，并涌现出了一系列优秀的模型，例如 TabNet 和 LLM for tabular data。这些研究表明，只要给予足够的上下文和样本，Transformer 模型就能够学习到真实世界行为的深层表示。

这意味着，未来我们可以利用 Transformer 模型来解决更多的结构化数据问题，例如风险评估、客户细分、产品推荐等。通过学习用户的行为模式，我们可以为用户提供更个性化的服务，同时也可以更好地保护用户的利益。

行为基础：理解而非仅仅预测

Stripe PFM 不仅仅是预测风险，更是理解风险。它能够学习到交易数据中隐藏的模式，从而更好地理解用户的行为和意图。这使得 PFM 能够更准确地识别欺诈行为，并为用户提供更安全的支付体验。

例如，PFM 可以通过学习用户的交易历史，判断当前交易是否符合用户的正常消费习惯。如果一个用户平时只在本地消费，突然出现一笔来自国外的交易，PFM 就能更敏感地捕捉到这种异常，从而提高欺诈检测的准确率。

结语：金融科技的未来

Stripe PFM 不仅仅是一个模型，更是一个行为基础。它是许多人尝试通过特征工程和启发式方法来近似的东西。现在的不同之处在于，它可以被学习、扩展并在系统之间共享。对于那些使用 TF-IDF 和 LightGBM 从头开始构建欺诈系统的人来说，这不仅仅是令人着迷的，更是令人谦卑的。

PFM 的出现，标志着金融科技领域的一个重要转折点。它预示着大模型技术将在金融领域发挥越来越重要的作用，并为我们提供更安全、更智能的金融服务。

最后，作者提出了一个引人深思的问题：如何构建一个银行级别的 PFM？对于那些没有 Stripe 基础设施的团队来说，正确的中间地带是什么？这是一个值得我们深入探讨的问题。也许我们可以通过开源项目、云服务或者定制化的解决方案来降低 PFM 的部署成本和难度，让更多的金融机构能够享受到大模型技术带来的好处。

Stripe的支付基础模型：交易数据也能“说话”