Press "Enter" to skip to content

厌倦了调整学习率吗?来见识一下DoG:一个简单、无需参数的优化器,具备可靠的理论保证

厌倦了调整学习率吗?来见识一下DoG:一个简单、无需参数的优化器,具备可靠的理论保证 四海 第1张厌倦了调整学习率吗?来见识一下DoG:一个简单、无需参数的优化器,具备可靠的理论保证 四海 第2张

以色列特拉维夫大学的研究人员提出了一种调整自由动态 SGD 步长的公式,称为梯度距离(Distance over Gradients,DoG),它仅依赖于经验数量,而不需要学习率参数。他们在理论上证明,对 DoG 公式进行轻微变化将导致局部有界的随机梯度收敛。

随机过程需要优化参数,而学习率仍然困难。先前成功的方法包括从先前的工作中选择合适的学习率。像自适应梯度方法这样的方法需要调整学习率参数。无参数优化不需要调整,因为算法被设计为在没有问题先验知识的情况下实现接近最优的收敛速度。

特拉维夫大学的研究人员采用了 Carmon 和 Hinder 的关键见解,并开发了一种无参数步长表。他们表明,在迭代 DoG 时,有很高的概率 DoG 实现了对数收敛速度。然而,DoG 不总是稳定的。它的迭代可能会远离优化。因此,他们使用 DoG 的变体,称为 T-DoG,其中步长比对数因子小。他们获得了一个高概率,确保了收敛性。

与 SGD 相比,他们的结果表明,在余弦步长表和基于调整的学习中,DoG 很少实现相对误差改进超过 5%,但对于凸问题,误差的相对差异低于 1%,这是令人惊讶的。他们的理论还预测,DoG 在大范围的敏感性上表现一致。研究人员还使用精调的 Transformer 语言模型测试了 DoG 在现代自然语言理解(NLU)中的效率。

厌倦了调整学习率吗?来见识一下DoG:一个简单、无需参数的优化器,具备可靠的理论保证 四海 第3张

研究人员还在主要的微调测试平台上进行了有限的实验,以 ImageNet 作为下游任务。这些微调更加昂贵,随着规模的增加而调整。他们对 CLIP 模型进行了微调,并将其与 DoG 和 L-DoG 进行了比较。他们发现两种算法的表现显著较差。这是由于迭代预算不足造成的。

研究人员尝试使用多项式平均从头开始训练模型。与具有动量为 0.9 和学习率为 0.1 的 SGD 相比,DoG 表现良好。与其他无参数调整方法相比,DoG 和 L-DoG 在大多数任务上提供了更好的性能。

虽然 DoG 的结果令人期待,但这些算法还需要进行大量的额外工作。经过充分验证的技术,如动量、预参数学习率和学习率退火,需要与 DoG 结合起来,这在理论上和实验上都是具有挑战性的。他们的实验表明,批归一化与 DoG 之间存在一种联系,甚至可以导致鲁棒的训练方法。

最后,他们的理论和实验表明,DoG 在节省学习率调整时目前花费的大量计算方面具有潜力,而几乎不会在性能上产生任何成本。

Leave a Reply

Your email address will not be published. Required fields are marked *