大型语言扩散模型(LLaDA)综述
LLaDA是一种新型的大型语言模型,它采用了类似于扩散模型的训练方式。这种模型通过一个前向的数据掩蔽过程和一个反向的过程来建模数据分布,使用Transformer来预测被掩蔽的标记。通过优化一个似然界限,LLaDA能够实现原则性的贝叶斯推断。
LLaDA是一种新型的大型语言模型,它采用了类似于扩散模型的训练方式。这种模型通过一个前向的数据掩蔽过程和一个反向的过程来建模数据分布,使用Transformer来预测被掩蔽的标记。通过优化一个似然界限,LLaDA能够实现原则性的贝叶斯推断。