AWS研究人员推出Gemini：在大规模深度学习训练中开创快速故障恢复技术

来自莱斯大学和亚马逊网络服务的研究团队开发了一个名为GEMINI的分布式训练系统，旨在改进大型机器学习模型训练中的故障恢复。系统处理了使用CPU内存进行检查点的挑战，从而确保更高的可用性并最小化对训练流量的干扰。GEMINI相对现有解决方案显示出显著改进，使其成为大规模深度学习模型训练的有希望的进展。

GEMINI引入了一种分布式训练系统来改进大型模型训练的恢复过程。以往的解决方案受到带宽和存储限制的限制，这影响了检查点频率和模型准确性，尽管深度学习框架如PyTorch和TensorFlow提供检查点接口。 GEMINI的方法优化了检查点放置和流量调度，使其在这一领域具有重要意义。

深度学习模型，特别是大型模型，以其出色的性能而闻名。然而，由于复杂性和时间消耗，大型模型的训练经常需要改进。当前的大型模型训练故障恢复解决方案受到远程存储中带宽有限的限制，这导致了显著的恢复成本。GEMINI引入了创新的CPU内存技术，使快速故障恢复成为可能。 GEMINI用于最优检查点放置策略以最大化恢复概率，并使用流量调度算法以减少干扰。评估是在NVIDIA GPU上进行的，但适用于其他加速器，如AWS Trainium。

GEMINI显着提高了故障恢复能力，超过现有解决方案的13倍。评估结果证实了它在减少时间浪费同时不影响训练吞吐量方面的有效性。 GEMINI的可扩展性在不同的故障频率和训练规模下得到证明，展示了其在大规模分布式训练中的潜力。 GEMINI中的流量交织算法对训练吞吐量产生积极影响，进一步提高系统的效率。

现有的大型模型训练故障恢复解决方案受远程存储带宽的限制，无法实现高检查点频率，导致显著浪费时间。该研究侧重于使用固定计算资源的静态和同步训练，忽略了弹性和异步训练方法的考虑。当前研究没有涉及用于存储检查点历史的CPU内存大小的问题，除了故障恢复之外的其他目的。

总之，GEMINI是一个高效且可扩展的分布式训练系统，通过将检查点存储到CPU内存和先进的放置策略，提供快速可靠的故障恢复。其高检查点频率有助于减少时间浪费，而不影响训练吞吐量，使其成为在GPU集群上进行大规模分布式训练的绝佳解决方案。