加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas

这是与MongoDB的Babu Srinivasan共同撰写的客座文章。

在今天快节奏的商业环境中，随着各行各业的发展，无法进行实时预测会给依赖准确和及时洞察力的行业带来重大挑战。各行业在没有实时预测的情况下面临紧迫的业务挑战，这可能会对决策和运营效率产生显著影响。缺乏实时洞察力使企业难以适应动态市场条件，准确预测客户需求，优化库存水平和做出积极的战略决策。金融、零售、供应链管理和物流等行业面临错失机会、增加成本、资源配置低效和无法满足客户期望的风险。通过探索这些挑战，组织可以认识到实时预测的重要性，并探索创新解决方案来克服这些障碍，使其能在今天快节奏的商业环境中保持竞争力、做出明智的决策并取得成功。

通过利用MongoDB本机时间序列数据功能，并将其与Amazon SageMaker Canvas的强大功能结合起来，企业可以克服这些挑战并释放新的灵活性。MongoDB强大的时间序列数据管理功能可以在实时中存储和检索大量时间序列数据，而先进的机器学习算法和预测能力则为SageMaker Canvas提供准确和动态的预测模型。

在本文中，我们将探索使用MongoDB的时间序列数据和SageMaker Canvas作为综合解决方案的潜力。

MongoDB Atlas

MongoDB Atlas是一个完全托管的开发者数据平台，简化了在云中部署和扩展MongoDB数据库。它是一个基于文档的存储，提供了一个完全托管的数据库，内置全文和向量搜索，支持地理空间查询，图表，以及对高效的时间序列存储和查询能力的本机支持。MongoDB Atlas提供自动分片、横向扩展和灵活的索引，以应对高容量数据摄入。其中，本机时间序列功能是一项突出的功能，使其非常适合处理大量的时间序列数据，如关键业务应用数据、遥测、服务器日志等。通过高效的查询、聚合和分析，企业可以从时间戳数据中提取有价值的见解。通过利用这些能力，企业可以高效地存储、管理和分析时间序列数据，实现数据驱动的决策并取得竞争优势。

Amazon SageMaker Canvas

Amazon SageMaker Canvas是一个视觉机器学习（ML）服务，使业务分析师和数据科学家能够构建和部署自定义的ML模型，而不需要任何ML经验或编写一行代码。SageMaker Canvas支持多个用例，包括时间序列预测，使企业能够准确预测未来需求、销售、资源需求和其他时间序列数据。该服务使用深度学习技术处理复杂的数据模式，使企业能够在最少历史数据的情况下生成准确的预测。通过使用Amazon SageMaker Canvas的能力，企业可以做出明智的决策，优化库存水平，提高运营效率并提升客户满意度。

SageMaker Canvas用户界面允许您无缝地整合云端或本地的数据源，轻松合并数据集，训练精确的模型，并在新兴数据上进行预测，所有这些都无需编码。如果您需要自动化工作流程或将ML模型直接集成到应用程序中，可以通过APIs访问Canvas的预测功能。

解决方案概述

用户将其交易时间序列数据存储在MongoDB Atlas中。通过Atlas Data Federation，数据被提取到Amazon S3存储桶中。Amazon SageMaker Canvas访问数据以构建模型和创建预测。预测结果存储在一个S3存储桶中。使用MongoDB Data Federation服务，预测结果通过MongoDB Charts以可视化的方式呈现。

下图给出了所提出的解决方案架构。

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas 四海第1张

前提条件

对于这个解决方案，我们使用MongoDB Atlas存储时间序列数据，使用Amazon SageMaker Canvas训练模型并生成预测，以及使用Amazon S3存储从MongoDB Atlas提取的数据。

确保你具备以下前提条件：

创建一个S3存储桶

配置MongoDB Atlas集群

按照创建集群中的说明创建一个免费的MongoDB Atlas集群。设置数据库访问和网络访问。

在MongoDB Atlas中填充时间序列集合

为了演示的目的，您可以使用来自Kaggle的样本数据集，使用MongoDB 工具，最好使用MongoDB Compass将其上传到MongoDB Atlas。

以下代码展示了一个时间序列集合的样本数据集：

{"store": "1 1","timestamp": { "2010-02-05T00:00:00.000Z"},"temperature": "42.31","target_value": 2.572,"IsHoliday": false}

以下截图展示了MongoDB Atlas中的样本时间序列数据：

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas 四海第2张

创建一个S3存储桶

在AWS中创建一个S3存储桶，用于存储和分析时间序列数据。请注意我们有两个文件夹。sales-train-data用于存储从MongoDB Atlas提取的数据，而sales-forecast-output包含Canvas的预测结果。

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas 四海第3张

创建数据联邦

在Atlas中设置数据联邦，并将之前创建的S3存储桶注册为数据源的一部分。请注意，在数据联邦中为Atlas集群、MongoDB Atlas数据的S3存储桶以及用于存储Canvas结果的S3存储桶中创建了三个不同的数据库/集合。

以下截图显示了数据联合的设置。

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas 四海第4张

设置Atlas应用服务

创建MongoDB应用服务，使用$out聚合将数据从MongoDB Atlas集群传输到S3存储桶。

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas 四海第5张

验证数据源配置

应用服务创建一个新的Atlas服务名称，需要在后续的函数中引用。验证Atlas服务名称是否已创建，并为以后的参考进行记录。

加快时间序列集合的认识速度与MongoDB和亚马逊SageMaker Canvas 四海第6张

创建函数

设置Atlas应用服务以创建触发和函数。触发器需要按照业务需求设定定期将数据写入S3的时间频率。

以下脚本显示了向S3存储桶写入数据的函数：

exports = function () {   const service = context.services.get("");   const db = service.db("")   const events = db.collection("");   const pipeline = [    {            "$out": {               "s3": {                  "bucket": "<S3_bucket_name>",                  "region": "<AWS_Region>",                   "filename": {$concat: ["<S3path>/<filename>_",{"$toString":  new Date(Date.now())}]},                  "format": {                        "name": "json",                        "maxFileSize": "10GB"                  }               }            }      }   ];   return events.aggregate(pipeline);};