在大型语言模型的领域中,有一个困扰人的问题突出出现。虽然这些模型可以掌握许多基于语言的任务,但在处理涉及大数乘法计算时常常会出现困难。具体来说,两个四位数相乘的成功率仅略超过90%,有待改进的余地。
这个问题源于数字和其他形式的语言之间固有的差异。与字母或单词不同,数字包含了一个连续的值谱系,受到复杂且严格的规则约束。这个挑战引发了有关语言模型和数字数据交叉领域的问题,并催生出寻求解决方案的探索。
解决这个问题的现有方法寥寥无几且不完美。在语言相关任务方面表现出色的大型语言模型在适应数字这一连续且具有无限变动性的特性时面临困难。大多数方法涉及令牌化,即将数字拆分成多个令牌,从而增加了模型的复杂性和内存需求。
多学科人工智能研究人员提出了一个潜在的创世纪者:xVal编码策略。这种创新方法为大型语言模型中数字的编码提供了全新视角,以用于科学应用。xVal使用一个标记为[NUM]的唯一标记来代表任何数字。
xVal策略通过在语言模型中以不同的方式处理数字来实现这一点。每个数字都经过预处理并存储在单独的向量中。文本将数字替换为[NUM]标记。在解码过程中,变压器架构中的专用标记头被用来预测与[NUM]标记相关联的值,使用均方误差(MSE)损失作为指导指标。
在一系列实验中,xVal的能力经过了严格测试,并与其他四种数字编码策略进行了比较。结果令人惊奇。在多操作数任务中,xVal超越了其他方法,并在复杂计算(如大型多位整数相乘)中表现出类似的性能。
将xVal应用于ERA5全球气候数据集的温度读数时,xVal的内在连续性偏差使其在最短的训练时间内取得了最佳性能。
行星模拟揭示了xVal在模拟绕中心质量运行的行星时出色的插值能力,在预测分布之外的数据时超过了所有其他的编码方案。
总之,xVal在语言模型中对数字进行编码的创新方法具有革命未来的潜力。通过采用更高效准确的方法解决在LLM中表示数字的挑战,为科学领域的创新应用打开了大门。这一具有突破性的解决方案可能为多个科学领域的基础模型的开发铺平道路,从而彻底改变未来科学探究的格局。