Press "Enter" to skip to content

通过使用Amazon SageMaker Canvas,将数据处理、训练和推理的性能提升70%,加速业务成果

Amazon SageMaker Canvas 是一个可视化界面,使业务分析师能够在没有任何机器学习(ML)经验或编写一行代码的情况下生成准确的机器学习预测。SageMaker Canvas 直观的用户界面允许业务分析师在云端或本地浏览和访问不同的数据源,准备和探索数据,构建和训练 ML 模型,并在一个工作空间内生成准确的预测。

SageMaker Canvas 允许分析师使用不同的数据工作负载实现所需的高准确性和性能的业务结果。生成准确预测所需的计算、存储和内存要求被抽象化,使终端用户能够专注于要解决的业务问题。今年早些时候,我们根据客户反馈宣布了基于性能优化的 SageMaker Canvas 更快、更准确的模型训练时间。

在本文中,我们将展示 SageMaker Canvas 如何以增加的速度和效率处理数据、训练模型和生成预测,适用于不同的数据集大小。

先决条件

如果您想跟随进行操作,请完成以下先决条件:

  1. 拥有 AWS 帐户。
  2. 设置 SageMaker Canvas。有关说明,请参阅设置 Amazon SageMaker Canvas 的先决条件。
  3. 将以下两个数据集下载到您的本地计算机。第一个是纽约黄色出租车行程数据集;第二个是有关产品和用户相关的电子商务行为数据。

这两个数据集属于 Attribution 4.0 国际 (CC BY 4.0) 许可证,可自由共享和调整。

数据处理改进

通过底层性能优化,将数据导入 SageMaker Canvas 的时间提高了70%以上。现在,您可以在约50秒内导入高达2 GB的数据集,以及在约65秒内导入高达5 GB的数据集。

通过使用Amazon SageMaker Canvas,将数据处理、训练和推理的性能提升70%,加速业务成果 四海 第1张

在导入数据后,业务分析师通常会验证数据,以确保数据集中没有问题。例如验证检查可以确保列包含正确的数据类型,查看值范围是否符合预期,确保适用时值的唯一性,以及其他检查。

数据验证现在更快速。在我们的测试中,对于大小超过5 GB的出租车数据集,所有验证花费了50秒,速度提高了10倍。

通过使用Amazon SageMaker Canvas,将数据处理、训练和推理的性能提升70%,加速业务成果 四海 第2张

模型训练改进

SageMaker Canvas 中与 ML 模型训练相关的性能优化现在使您能够在训练模型时避免潜在的内存请求失败。

下面的截图显示了使用大型数据集进行成功构建运行的结果,显示了 total_amount 特征对目标变量的影响。

通过使用Amazon SageMaker Canvas,将数据处理、训练和推理的性能提升70%,加速业务成果 四海 第3张

推理改进

最后,SageMaker Canvas 在内部测试中实现了较大数据集情况下内存消耗的3.5倍减少。

结论

在本文中,我们看到了 SageMaker Canvas 在导入、验证、训练和推理方面的各种改进。我们看到了它在导入大型数据集方面的能力增强了70%。我们看到了数据验证方面的10倍提速,以及内存消耗的3.5倍减少。这些改进使您能够更好地处理大型数据集,并在使用 SageMaker Canvas 构建 ML 模型时减少时间。

我们鼓励您亲自体验这些改进。我们欢迎您的反馈,因为我们不断致力于性能优化,以改善用户体验。

Leave a Reply

Your email address will not be published. Required fields are marked *