近年来,大模型技术的发展日新月异,其中零样本预测能力尤为引人注目。零样本预测,即在没有任何训练数据的情况下,仅凭先验知识或少量示例(In-Context Learning, ICL)完成预测任务,极大地降低了模型部署成本和数据依赖性。本文将深入探讨名为TiRex的创新模型,该模型在零样本时序预测领域取得了突破性进展,尤其是在长短期预测方面,超越了以往的SOTA模型。
背景与挑战:传统时序预测模型的局限性
传统的时序预测模型,如ARIMA、Prophet等,需要大量的历史数据进行训练,且泛化能力有限。Transformer架构虽然在自然语言处理领域取得了巨大成功,但在时序预测方面表现并不总是优异,有时甚至不如LSTM等循环神经网络(RNN)模型。然而,传统的LSTM模型又缺乏强大的上下文学习能力,难以实现零样本预测。因此,如何结合RNN的状态追踪能力和Transformer的上下文学习能力,成为零样本时序预测领域的重要挑战。
例如,在预测零售商品的未来销量时,传统的ARIMA模型需要大量历史销售数据,并且难以捕捉突发事件(如促销活动)的影响。Transformer模型虽然可以捕捉长期依赖关系,但计算复杂度高,训练成本也较高。而TiRex的出现,有望在无需大量训练数据的情况下,实现对零售商品未来销量的精准预测,甚至可以根据少量示例(如竞争对手的促销活动),调整预测结果。
TiRex的核心:xLSTM与状态追踪
TiRex模型的核心在于采用了xLSTM架构,这是一种最新型的LSTM变体,相比传统LSTM,xLSTM具有更强的扩展性和泛化能力,同时保持了强大的上下文学习能力。更重要的是,xLSTM能够有效地进行状态追踪,这对于长短期时序预测至关重要。与Transformer、状态空间模型(SSM)或RWKV等可并行化RNN不同,TiRex通过xLSTM的状态追踪机制,能够记住历史信息,并在预测未来时加以利用。
想象一下预测天气的情况。如果仅仅依靠过去几天的温度和降雨量,很难准确预测未来一周的天气。但是,如果模型能够记住过去几个月甚至几年的天气模式(即状态追踪),就能更好地捕捉季节性变化和极端天气事件,从而提高预测准确性。xLSTM的状态追踪能力使TiRex能够像气象学家一样,从历史数据中提取关键信息,并将其应用于未来的预测。
连续块掩码(CPM):训练策略的创新
为了进一步增强TiRex的状态追踪能力,研究人员提出了一种新的训练时掩码策略,称为连续块掩码(Contiguous Patch Masking, CPM)。CPM旨在缓解自回归多步预测中常见的性能下降问题,确保xLSTM生成一致的长期预测。简单来说,CPM在训练过程中随机掩盖连续的输入数据块,迫使模型从剩余的上下文中推断被掩盖的部分。
举例来说,假设我们要预测股票价格的未来走势。如果我们在训练过程中随机掩盖一部分历史股价数据,TiRex模型就会被迫学习如何从剩余的股价数据和相关新闻事件中推断出被掩盖的股价。这种训练方式可以提高模型的鲁棒性和泛化能力,使其在面对真实世界中可能存在的数据缺失或异常情况时,仍能保持较高的预测准确性。实验结果表明,禁用CPM会导致长短期预测性能显著下降,尤其是在长期预测中,这验证了CPM对于维持模型预测一致性的重要作用。
数据增强:提升模型的鲁棒性
除了CPM之外,研究人员还采用了多种数据增强技术,以提高模型的鲁棒性和整体性能。这些数据增强技术包括幅度调制(Amplitude Modulation)、截断增强(Censor Augmentation)和尖峰注入(Spike Injection)。
-
幅度调制:通过引入线性尺度趋势和变化点,改变时序数据的幅度。这有助于模型学习不同尺度的模式,并对幅度变化更加鲁棒。例如,在预测电力需求时,幅度调制可以模拟由于季节性因素或经济波动引起的电力需求变化。
-
截断增强:随机截断时序数据的值。这有助于模型处理异常值和噪声数据,并提高模型的抗干扰能力。例如,在预测金融市场数据时,截断增强可以模拟由于突发事件或市场操纵引起的异常价格波动。
-
尖峰注入:向时序数据中注入短暂且周期性的尖峰信号。这有助于模型学习识别和过滤噪声,并提高模型的信号提取能力。例如,在预测传感器数据时,尖峰注入可以模拟由于设备故障或环境干扰引起的尖峰噪声。
实验结果表明,删除所有这三种数据增强技术会导致性能显著下降,表明每种增强技术都有助于提高模型的泛化能力。
实验结果:超越SOTA模型的性能
研究人员在两个标准的零样本时序预测基准测试(GiftEval-ZS和Chronos-ZS)上评估了TiRex模型的性能,并将结果与各种现有的SOTA模型进行了比较。评估指标包括CRPS(Continuous Ranked Probability Score)、WQL(Weighted Quantile Loss)和MASE(Mean Absolute Scaled Error)。
在GiftEval-ZS基准测试中,TiRex模型在整体CRPS指标上达到了0.411,优于TimesFM-2.0(0.459)、TabPFN-TS(0.463)和Chronos-Bolt-Base(0.481)等模型。尤其值得注意的是,TiRex在长期预测方面的CRPS指标为0.325,是第一个超越PatchTST和TFT等局部模型的零样本模型。
在Chronos-ZS基准测试中,TiRex模型的整体WQL指标为0.592,优于Moirai L 1.1(0.62)、Chronos Bolt B(0.63)和TabPFN-TS(0.63)等模型。此外,TiRex在MASE指标上取得了0.776的成绩,仅次于TabPFN-TS(0.74)。
这些结果表明,TiRex模型在短长期预测方面都取得了SOTA性能,并且在参数数量相对较少的情况下,仍然能够超越参数规模更大的模型。例如,TiRex模型的参数数量为35M,而Chronos-Bolt-Base和TimesFM-2.0的参数数量分别为200M和500M。
效率优势:推理速度和内存占用
除了性能优势之外,TiRex模型还具有显著的效率优势。实验结果表明,TiRex模型的推理速度比TimesFM-2.0快11倍以上,比Chronos-Bolt Base快4倍以上,比TabPFN-TS快2176倍以上。此外,TiRex模型的GPU内存占用量也更小,这使得它能够在更大的批次大小下高效运行。
这些效率优势使得TiRex模型更适合部署在资源受限的设备上,例如嵌入式系统或移动设备。此外,更快的推理速度和更小的内存占用量也意味着TiRex模型可以更快地处理数据,并降低部署成本。
TiRex的意义与未来方向
TiRex的成功证明了xLSTM在时序预测方面的巨大潜力。通过结合xLSTM的状态追踪能力和CPM训练策略,TiRex模型能够在零样本条件下实现SOTA性能,并且具有高效的推理速度和内存占用量。
TiRex的出现为零样本时序预测领域带来了新的希望,并为未来的研究方向提供了重要的启示。例如,未来的研究可以探索以下几个方面:
- 多变量时序预测:将TiRex模型扩展到多变量时序预测,使其能够处理更复杂的数据。
- 超参数优化:对TiRex模型的超参数进行优化,以进一步提高模型的性能。
- 与其他模型的结合:将TiRex模型与其他模型(例如Transformer或状态空间模型)结合,以利用不同模型的优势。
- 特定领域的应用:将TiRex模型应用于特定领域,例如金融、医疗或工业等,并评估其在实际应用中的性能。
总而言之,TiRex模型代表了零样本时序预测领域的一个重要突破,它不仅在性能上超越了现有的SOTA模型,而且具有高效的推理速度和内存占用量。TiRex的成功为未来的研究方向提供了重要的启示,并有望在各个领域得到广泛应用。随着大模型技术的不断发展,我们有理由相信,零样本预测将在未来发挥越来越重要的作用。
通过TiRex,我们可以看到xLSTM在时序预测领域中极具潜力,并结合连续块掩码(CPM)这一创新训练策略,使得长短期预测的性能都得到了显著提升。这不仅验证了模型架构的重要性,也强调了训练方法在挖掘模型潜能方面的关键作用,预示着未来零样本时序预测技术将在更多领域展现其强大的应用价值。