45 search results for "Apache Spark"

亚马逊SageMaker提供了几种运行Apache Spark分布式数据处理作业的方式，Apache Spark是一种流行的用于大数据处理的分布式计算框架您可以通过将SageMaker Studio笔记本和AWS Glue交互式会话连接起来，在Amazon SageMaker Studio中交互式地运行Spark应用程序，并使用无服务器集群运行Spark作业通过交互式会话，您可以[…]

Leave a Comment

在AWS上利用PySpark处理大数据的机器学习

Published August 3, 2023 by 四海吧

编辑注：Suman Debnath是今年8月22日至23日ODSC APAC的演讲嘉宾一定要去听听他的演讲：“在AWS上使用Spark构建分类和回归模型”！在不断变化的数据科学领域中，明智地选择和应用合适的工具可以极大地塑造结果…

Leave a Comment

在编写Apache Beam管道时使用Map、Filter和CombinePerKey转换的示例

Published July 19, 2023 by 四海吧

Apache Beam越来越受欢迎，作为高效和可移植大数据处理管道的统一编程模型它可以处理批处理和流式数据这就是名字的由来…

Leave a Comment

使用Spark和Tableau Desktop创建有洞察力的仪表板

Published June 29, 2023 by 四海吧

作为数据的可视化表达形式，数据可视化是数据分析中广泛采用的方法，用于从中获取有用的业务洞察（例如趋势、模式、异常值、相关性等）

Leave a Comment

使用Spark和Plotly Dash开发交互式和洞察性仪表板

Published June 21, 2023 by 四海吧

云数据湖被企业组织广泛采用，作为一种可扩展且低成本的数据存储库，可存储各种类型（结构化和非结构化）的数据在分析云数据湖中的数据时，存在许多挑战…

Leave a Comment

优化数据分析：在Databricks中集成GitHub Copilot

Published November 16, 2023 by 四海吧

在Databricks中集成AI驱动的数据分析配对编程工具将优化并简化开发过程，释放开发人员创新的时间

Leave a Comment

2024年十大AI驱动数据分析公司

Published November 13, 2023 by 四海吧

在2024年，探索那些具备颠覆性能力的数据分析领域的顶级商业巨头从IBM云到Google云，这些以人工智能驱动的数据分析公司正在利用人工智能的力量，从海量数据池中挖掘出有价值的见解，并为企业提供可操作的智能洞察力

Leave a Comment

《数据工程图书》

Published November 12, 2023 by 四海吧

在这个故事中，我想谈谈可能对学习数据工程（DE）的人感兴趣的数据工程书籍和资源我意识到在…中没有很多这样的资源

Leave a Comment

利用快速工程从SAP系统中掌握数据集成

Published October 12, 2023 by 四海吧

在我们之前的出版物《从数据工程到即时工程》中，我们展示了如何利用ChatGPT来解决数据准备任务除了我们收到的好反馈外，还有一个…

Leave a Comment

大型语言模型操作（LLMOps）到底是什么？

Published October 7, 2023 by 四海吧

大型语言模型（LLM）是一种强大的新技术，有潜力革命许多行业然而，LLM也很复杂，管理起来具有挑战性LLMOps，或者说大型语言模型运维，是一个新兴的领域，专注于对LLM的运营管理这个新领域中涉及到什么…

Leave a Comment

《2023年最受欢迎的十大开源数据科学工具综述对比》

Published October 7, 2023 by 四海吧

你是否正在寻找开源工具，以帮助你在数据科学之旅中取得进展？不需要再找了发现下面这些改变游戏规则的工具，它们将提升你基于数据的决策能力

Leave a Comment

数据工程在广阔的数据生态系统中扮演着关键角色，通过收集、转换和传递数据，为分析、报告和机器学习提供必要的数据。有志于成为数据工程师的人常常寻求真实世界的项目，以获得实践经验并展示他们的专业知识。本文介绍了前 20 个数据工程项目创意及其源代码。无论您是初学者、中级工程师还是高级从业者，这些项目都为您提供了一个优秀的机会来提升您的数据工程技能。初学者的数据工程项目 1. 智能物联网基础设施目标该项目的主要目标是建立一个可靠的数据管道，用于收集和分析物联网设备的数据。网络摄像头、温度传感器、运动探测器和其他物联网设备都会产生大量数据。您希望设计一个系统，能够有效地消耗、存储、处理和分析这些数据。通过这样做，基于物联网数据的实时监控和决策成为可能。解决方案利用 Apache Kafka 或 MQTT 等技术，从物联网设备高效地摄取数据。这些技术支持高吞吐量的数据流。使用 Apache Cassandra 或 MongoDB 等可扩展数据库来存储传入的物联网数据。这些 NoSQL 数据库能够处理大量和多样化的物联网数据。使用 Apache…

Leave a Comment

《处理大数据：工具与技术》

Published September 16, 2023 by 四海吧

在如此广阔的大数据领域中，你从哪里开始？要使用哪些工具和技术？我们会探讨这个问题，并讨论大数据中最常见的工具

Leave a Comment

为什么你的数据管道需要闭环反馈控制

Published September 16, 2023 by 四海吧

随着数据团队在云上的扩大，数据平台团队需要确保他们负责的工作负载能够满足业务目标在规模扩大的情况下，有数十名数据工程师参与建设…

Leave a Comment

想成为一名数据科学家？第一部分：你需要的10项硬技能

Published September 12, 2023 by 四海吧

成为数据科学家所需的10个快速步骤硬技能指南

Leave a Comment

2023年市场上15个最佳ETL工具’ 翻译结果为：

Published August 26, 2023 by 四海吧

介绍在数据仓库时代，将来自不同来源的数据整合到一个统一的数据库中的需求，需要您从父源中提取数据，进行转换和融合，然后将其加载到统一的数据库中（ETL）。ETL工具在这种情况下起着至关重要的作用。15个最好的ETL工具提供了一致的提取、转换和信息加载，使企业能够提高数据效率。在虚拟世界2023年，大量的ETL工具用于满足不同的数据协作需求。什么是ETL？ ETL代表数据的提取、转换和融合，然后将数据加载到所需的协作数据库中。ETL是用于管理和集成数据从源结构到最终目标的系统，通常作为数据存储库。什么是ETL工具？ ETL工具是设计用于简化数据集成和数据仓库中ETL方法自动化的软件程序。这些工具在处理和优化数据移动和操作功能方面非常重要。这些工具通常提供以下功能：数据提取转换加载映射工作流自动化清洗和验证监控和日志记录可扩展性和性能市场上有哪些类型的ETL工具？ ETL工具根据其功能和服务目标的不同进行分类。像Apache这样的开源ETL是最广泛认可的工具，它是免费提供的，并根据用户需求进行定制。商业领域覆盖的高级版本ETL工具由软件公司授权，提供卓越的功能和客户支持功能。自定义ETL解决方案由开发自己的定制ETL命令的团队组成，这些命令根据编程语言、框架和库来满足他们特定的需求。 2023年使用的15个最佳ETL工具 Integrate. Io Integrate.Io是最佳的ETL工具之一，简化了记录集成、转换和加载技术。它为企业提供了一个全面的解决方案，以有效地连接不同的数据源、转换数据并将其加载到目标位置。特点直观的界面用于设计复杂的数据工作流。…

翻译结果为：

Leave a Comment

为什么硅谷是人工智能的热门之地

Published August 5, 2023 by 四海吧

当人们谈论与科技和人工智能相关的创新时，硅谷通常是人们首先想到的地方；而且有很好的理由无数初创公司和科技巨头都在这里站稳了脚跟这并不奇怪，因为硅谷在技术和人工智能创新方面有着悠久的历史…

Leave a Comment

“以下是您可以从ODSC西部训练营计划中期待的内容”

Published August 3, 2023 by 四海吧

当你开始你的数据科学职业时，很难知道选择哪条路当来自不确定的地方时，很难为传统的集训营的成本（时间和金钱）提供充分的理由在ODSC West的迷你集训营上，从10月30日到11月2日，你将有…

Leave a Comment

2023年学习的八种数据科学编程语言

Published July 27, 2023 by 四海吧

你对数据科学感兴趣吗？这个博客将帮助你启动或发展你的数据科学职业你将学习数据科学家最常用的编程语言，用于清洗、分析、可视化和建模数据

Leave a Comment

机器学习简化和标准化的顶级工具

Published July 24, 2023 by 四海吧

人工智能和机器学习作为世界从技术中受益的领域的创新领导者。选择使用哪种工具可能会很困难，因为市场上有很多流行的工具来保持竞争力。选择机器学习工具就是选择未来。由于人工智能领域的一切都发展得如此迅速，保持“老狗，老把戏”和“刚做出来昨天”的平衡非常重要。机器学习工具的数量正在扩大；随之而来的要求是评估它们并理解如何选择最好的工具。在本文中，我们将介绍一些知名的机器学习工具。此评测将涵盖机器学习库、框架和平台。 Hermione 最新的开源库Hermione将使数据科学家更容易、更快地设置更有序的脚本。此外，Hermione还提供了数据视图、文本向量化、列归一化和反归一化等主题的课程，这些课程有助于日常工作。有了Hermione，您只需遵循一套程序，剩下的事情都会由她来处理，就像魔术一样。 Hydra 名为Hydra的开源Python框架使创建复杂的研究应用程序变得更加容易。Hydra的命名来源于其管理许多相关任务的能力，就像一个有着许多头的九头蛇一样。其主要功能是能够动态地组合层次结构配置，并通过配置文件和命令行进行覆盖。另一个特性是动态命令行选项补全。它可以从各种来源进行层次化配置，并且配置可以从命令行提供或更改。此外，它可以启动程序以在远程或本地运行，并使用一个命令执行多个任务，并带有不同的参数。 Koalas Koalas项目将pandas DataFrame API集成到Apache Spark之上，以提高数据科学家在处理大量数据时的生产力。 Pandas是事实上的（单节点）Python DataFrame实现，而Spark是大规模数据处理的事实上的标准。如果您已经熟悉pandas，您可以使用此软件包立即开始使用Spark，并避免任何学习曲线。一个代码库同时兼容Spark和Pandas（测试、较小的数据集）（分布式数据集）。 Ludwig Ludwig是一个声明式机器学习框架，为定义机器学习流程提供了一种简单灵活的数据驱动配置方法。Linux基金会AI＆Data托管Ludwig，可用于各种人工智能活动。在配置中声明输入和输出特征以及适当的数据类型。用户可以指定其他参数来预处理、编码和解码特征，从预训练模型中加载数据，构建内部模型架构，调整训练参数或进行超参数优化。 Ludwig将根据配置的显式参数自动创建端到端的机器学习流程，对于那些没有指定设置的情况，会回退到智能默认值。 MLNotify 使用开源程序MLNotify，只需一行导入语句，即可在模型训练结束时向您发送在线、手机和电子邮件通知。MLNotify是一个附加到知名机器学习库的fit()函数的Python库，在过程完成后通知用户。每个数据科学家都知道，在训练了数百个模型后，等待训练结束是很乏味的。因为训练需要一些时间，您需要来回切换以偶尔检查它。一旦训练开始，MLNotify将为您打印出特定的跟踪URL。您有三种输入代码的选项：扫描QR码、复制URL或浏览https://mlnotify.aporia.com。然后，您可以看到训练的进展。训练结束后，您将立即收到通知。您可以启用在线、手机或电子邮件通知，以在训练结束后立即收到提醒。 PyCaret 通过开源的基于Python的PyCaret模块，可以自动化机器学习的工作流程。PyCaret是一个简短、简单易懂的Python低代码机器学习库，可以让您花更多时间进行分析，而不是开发。有许多数据准备选项可用。从特征工程到缩放。PyCaret的设计是模块化的，每个模块都有特定的机器学习操作。…

Leave a Comment

数据工程入门指南

Published July 22, 2023 by 四海吧

所以你想进入数据工程领域？从今天开始，学习更多关于数据工程和基本概念吧

Leave a Comment

机器学习洞察总监【第四部分】

Published July 15, 2023 by 四海吧

如果您有兴趣更快地构建ML解决方案，请访问：hf.co/support 今天！ 👋 欢迎回到我们的ML洞察系列的总监！如果您错过了之前的版本，您可以在这里找到它们：机器学习洞察总监[第1部分] 机器学习洞察总监[第2部分：SaaS版] 机器学习洞察总监[第3部分：金融版] 🚀 在这第四部分中，您将听到以下顶级机器学习总监对机器学习对各自行业的影响的看法：Javier Mansilla，Shaun Gittens，Samuel Franklin和Evan Castle。所有这些人目前都是拥有丰富领域洞察的机器学习总监。免责声明：所有观点均来自个人，与任何过去或现在的雇主无关。 Javier Mansilla – Mercado Libre的机器学习市场科学总监背景：经验丰富的企业家和领导者，Javier是Machinalis的联合创始人和首席技术官，自2010年以来一直致力于构建机器学习（是的，在神经网络突破之前）。当Machinalis被Mercado Libre收购时，这个小团队发展成为一个拥有超过10,000名开发人员、影响近1亿直接用户的技术巨头，使机器学习成为其能力。每天，Javier不仅领导他们的机器学习平台（NASDAQ MELI）的技术和产品路线图，还领导他们的用户追踪系统、AB测试框架和开放源代码办公室。Javier是Python-Argentina非营利性组织PyAr的积极成员和贡献者，他喜欢与家人和朋友一起度过时间，喜欢Python、骑自行车、足球、木工和慢节奏的自然假期！趣闻：我喜欢阅读科幻小说，我的退休计划包括重新开始写短篇小说的少年梦想。📚 Mercado Libre：拉美最大的公司，也是该大陆的电子商务和金融科技无处不在的解决方案…

Leave a Comment