机器学习简化和标准化的顶级工具

人工智能和机器学习作为世界从技术中受益的领域的创新领导者。选择使用哪种工具可能会很困难，因为市场上有很多流行的工具来保持竞争力。

选择机器学习工具就是选择未来。由于人工智能领域的一切都发展得如此迅速，保持“老狗，老把戏”和“刚做出来昨天”的平衡非常重要。

机器学习工具的数量正在扩大；随之而来的要求是评估它们并理解如何选择最好的工具。

在本文中，我们将介绍一些知名的机器学习工具。此评测将涵盖机器学习库、框架和平台。

Hermione

最新的开源库Hermione将使数据科学家更容易、更快地设置更有序的脚本。此外，Hermione还提供了数据视图、文本向量化、列归一化和反归一化等主题的课程，这些课程有助于日常工作。有了Hermione，您只需遵循一套程序，剩下的事情都会由她来处理，就像魔术一样。

Hydra

名为Hydra的开源Python框架使创建复杂的研究应用程序变得更加容易。Hydra的命名来源于其管理许多相关任务的能力，就像一个有着许多头的九头蛇一样。其主要功能是能够动态地组合层次结构配置，并通过配置文件和命令行进行覆盖。

另一个特性是动态命令行选项补全。它可以从各种来源进行层次化配置，并且配置可以从命令行提供或更改。此外，它可以启动程序以在远程或本地运行，并使用一个命令执行多个任务，并带有不同的参数。

Koalas

Koalas项目将pandas DataFrame API集成到Apache Spark之上，以提高数据科学家在处理大量数据时的生产力。

Pandas是事实上的（单节点）Python DataFrame实现，而Spark是大规模数据处理的事实上的标准。如果您已经熟悉pandas，您可以使用此软件包立即开始使用Spark，并避免任何学习曲线。一个代码库同时兼容Spark和Pandas（测试、较小的数据集）（分布式数据集）。

Ludwig

Ludwig是一个声明式机器学习框架，为定义机器学习流程提供了一种简单灵活的数据驱动配置方法。Linux基金会AI＆Data托管Ludwig，可用于各种人工智能活动。

在配置中声明输入和输出特征以及适当的数据类型。用户可以指定其他参数来预处理、编码和解码特征，从预训练模型中加载数据，构建内部模型架构，调整训练参数或进行超参数优化。

Ludwig将根据配置的显式参数自动创建端到端的机器学习流程，对于那些没有指定设置的情况，会回退到智能默认值。

MLNotify

使用开源程序MLNotify，只需一行导入语句，即可在模型训练结束时向您发送在线、手机和电子邮件通知。MLNotify是一个附加到知名机器学习库的fit()函数的Python库，在过程完成后通知用户。

每个数据科学家都知道，在训练了数百个模型后，等待训练结束是很乏味的。因为训练需要一些时间，您需要来回切换以偶尔检查它。一旦训练开始，MLNotify将为您打印出特定的跟踪URL。您有三种输入代码的选项：扫描QR码、复制URL或浏览https://mlnotify.aporia.com。然后，您可以看到训练的进展。训练结束后，您将立即收到通知。您可以启用在线、手机或电子邮件通知，以在训练结束后立即收到提醒。

PyCaret

通过开源的基于Python的PyCaret模块，可以自动化机器学习的工作流程。PyCaret是一个简短、简单易懂的Python低代码机器学习库，可以让您花更多时间进行分析，而不是开发。有许多数据准备选项可用。从特征工程到缩放。PyCaret的设计是模块化的，每个模块都有特定的机器学习操作。

在PyCaret中，函数是执行特定工作流活动的操作集合。它们在所有模块中都是相同的。有很多有趣的材料可供学习PyCaret。您可以从使用我们的说明开始。

Traingenerator

Traingenerator使用基于streamlit创建的简单的Web用户界面，为PyTorch和sklearn生成独特的模板代码。这是启动您即将到来的机器学习项目的理想工具！Traingenerator提供了众多预处理、模型构建、训练和可视化选项（使用Tensorboard或comet.ml）。它可以导出到Google Colab、Jupyter Notebook或.py文件。

Turi Create

要为您的应用程序添加建议、对象识别、图片分类、图像相似性或活动分类等功能，您可以成为机器学习专家。Turi Create使自定义机器学习模型开发更加简单。它具有内置的流式图形分析您的数据，并专注于任务而不是算法。支持在单个系统上处理大规模数据集，并且适用于文本、图片、音频、视频和传感器数据。使用Turi Create，可以将模型导出为Core ML，用于iOS、macOS、watchOS和tvOS应用程序。

Google Cloud上的AI平台和数据集

任何机器学习模型都面临一个基本问题，即没有适当的数据集无法进行训练。创建数据集需要大量时间和金钱。谷歌选择并定期更新的数据集称为Google Cloud公共数据集。这些数据集的格式从照片到音频、视频和文本都非常丰富多样。这些信息旨在供各种研究人员用于各种目的。

谷歌还提供了一些其他有趣的实用服务：

视觉AI（计算机视觉模型）、自然语言处理服务
用于训练和管理机器学习模型的平台
支持30多种语言的语音合成软件等

亚马逊云服务

开发人员可以在AWS平台上访问人工智能和机器学习技术。您可以选择其中一个预训练的AI服务，用于处理计算机视觉、语言识别和语音生成，开发推荐系统和构建预测模型。

使用Amazon SageMaker，您可以轻松构建、训练和部署可扩展的机器学习模型，或者您可以构建支持所有受欢迎的开源ML平台的独特模型。

微软Azure

Azure机器学习工作室中的拖放功能使没有机器学习专业知识的开发人员能够使用该平台。无论数据的质量如何，您都可以使用该平台快速创建BI应用程序，并直接在云上构建解决方案。

微软还提供Cortana Intelligence，这是一个平台，可以完全管理大数据和分析，并将数据转化为有用的信息和后续操作。

总的来说，团队和大型公司可以使用Azure在云中协作开发ML解决方案。国际公司喜欢它，因为它包含了各种用途的各种工具。

RapidMiner

RapidMiner是一个用于数据科学和机器学习的平台。它提供了一个易于使用的图形用户界面，并支持从.csv、.txt、.xls和.pdf等各种格式处理数据。由于其简单性和对隐私的尊重，许多全球企业都在使用Rapid Miner。

当您需要快速开发自动化模型时，这个工具非常有用。您可以使用它来识别与相关性、缺失值和稳定性有关的常见质量问题，并自动分析数据。但是，在尝试解决更具挑战性的研究课题时，最好使用其他方法。

IBM Watson

如果您正在寻找具有各种能力的完全工作平台，可以供研究团队和企业使用，请查看IBM的Watson平台。

Watson是一个开源的API集合。用户可以开发认知搜索引擎和虚拟代理，并且可以访问创业工具和示例程序。Watson还提供了一个构建聊天机器人的框架，机器学习新手可以利用它来更快地训练他们的机器人。任何开发人员都可以使用他们的设备在云中开发自己的软件，并且由于其可承受的成本，这是小型和VoAGI规模组织的一个很好的选择。

Anaconda

通过名为Anaconda的开源ML平台，支持Python和R。它可以在其他平台上支持的任何操作系统上使用。它使程序员能够控制库和环境，并提供了1500多个Python和R数据科学工具（包括Dask、NumPy和pandas）。Anaconda具有出色的建模和报告可视化能力。这个工具之所以受欢迎，是因为它可以一次安装多个工具。

TensorFlow

谷歌的TensorFlow是一套免费的深度学习软件库。机器学习专家可以使用TensorFlow技术构建精确和功能丰富的模型。

这个软件简化了复杂神经网络的创建和使用。TensorFlow提供Python和C/C++的API，以便可以探索它们在研究目的中的潜力。此外，全球企业可以在经济实惠的云环境中获得处理和处理自己数据的可靠工具。

Scikit-learn

Scikit-learn使得创建分类、回归、降维和预测数据分析算法更加容易。Scikit-learn基于Python的机器学习开发框架NumPy、SciPy、pandas和matplotlib。这个开源库允许进行研究和商业用途。

Jupyter Notebook

Jupyter Notebook是一个用于交互式计算的命令行工具。除了Python，这个工具还可以与Julia、R、Haskell和Ruby等其他编程语言一起使用。它经常被用于机器学习、统计建模和数据分析。

实质上，Jupyter Notebook支持数据科学项目的交互式可视化。除了存储和共享代码、可视化和注释之外，它还可以创建令人惊叹的分析报告。

Colab

如果您处理Python，Colab是一个有价值的工具。协作环境（Colab）允许您在Web浏览器中编写和运行Python代码。它不需要任何配置要求，提供了GPU计算能力，并且使共享结果变得简单。

PyTorch

基于Torch，PyTorch是一个使用Python的开源深度学习框架。像NumPy一样，它可以使用GPU加速进行张量计算。此外，PyTorch提供了一个庞大的API库，用于开发神经网络应用程序。

与其他机器学习服务相比，PyTorch是独特的。它不使用静态图，与TensorFlow或Caffe2相反。相比之下，PyTorch的图是动态的并且不断计算的。使用动态图使得PyTorch对某些人来说更容易，并且使初学者能够将深度学习纳入他们的项目中。

Keras

Keras是Kaggle成功团队中最受欢迎的深度学习框架。对于初涉机器学习专业的个人来说，这是最好的工具之一。名为Keras的神经网络API为Python提供了一个深度学习库。与其他库相比，Keras库更容易理解。此外，Keras更高级，更容易理解更广泛的图片。它还可以与著名的Python框架如TensorFlow、CNTK或Theano一起使用。

Knime

Knime用于创建报告和处理数据分析。这个开源机器学习工具通过其模块化数据管道设计，结合了各种机器学习和数据挖掘组件。这个软件提供了良好的支持和频繁的更新。

该工具能够整合来自其他编程语言的代码，包括C、C++、R、Python、Java和JavaScript，这是它的重要特点之一。它可以快速被具有不同背景的程序员团队采用。

来源：

https://github.com/kelvins/awesome-mlops#data-validation
https://www.spec-india.com/blog/machine-learning-tools
https://serokell.io/blog/popular-machine-learning-tools
https://neptune.ai/blog/best-mlops-tools
https://www.aporia.com/blog/meet-mlnotify/

本文来源于MarkTechPost。