32 search results for "Airflow"

介绍在当今数字化的世界中，人们越来越倾向于通过在线交易和数字支付来进行交易，而不是使用现金，这是因为它的便利性。随着过渡的增加，欺诈行为也在增加。欺诈交易可以是任何类型，因为它涉及使用虚假身份或虚假信息要求钱款。这给个人和金融机构带来了重大问题。在这个项目中，我们将使用信用卡数据集来设计使用Airflow工具监控实时交易并预测其是否真实或欺诈的MLOPs模型。学习目标检测欺诈交易的重要性。清理数据，转换数据集和预处理数据。对数据集进行可视化分析以获得洞察力。在数据科学中使用欺诈交易检测模型的实际应用。使用Python编程语言进行欺诈交易数据分析使用MS Azure和Airflow构建端到端的欺诈检测本文作为数据科学博文马拉松的一部分发布。什么是欺诈交易估计模型？欺诈交易数据集包含来自不同来源的数据，其中包含交易时间、姓名、金额、性别、类别等列。欺诈交易估计模型是一个用于预测虚假交易的机器学习模型。该模型是在大量有效交易和欺诈交易的基础上进行训练的，以预测新的虚假交易。什么是欺诈交易分析？欺诈交易分析是分析过去数据集的过程。数据集分析旨在发现数据中的异常情况并找出数据集中的模式。欺诈交易分析在保护客户和减少财务损失方面起着关键作用。有不同类型的欺诈交易分析，例如基于规则的分析和异常检测。基于规则的分析：基于规则的分析涉及创建规则来标记无效交易。例如，可以根据地理区域制定规则。异常检测：异常检测涉及发现异常或异常的交易。例如，从新的IP地址进行的交易。检测欺诈交易的重要性对于企业和金融机构来说，检测欺诈交易对于保护客户免受欺诈和保护他们的资金至关重要。以下是检测欺诈交易的一些关键原因。减少财务损失：欺诈交易给企业带来巨额财务损失，从而减少它们的利润。因此，企业检测欺诈交易变得至关重要。维护声誉：维护声誉对于企业来说是至关重要的，因为它会导致潜在客户和顾客的流失。保护客户和企业：欺诈交易可能对客户造成财务损失和情感影响。通过检测欺诈交易，企业可以保护客户和他们的业务。数据收集和预处理数据收集和预处理是开发欺诈检测模型的重要部分。一旦收集到数据，需要对数据集执行多个步骤。数据清理：数据清理包括删除不需要的数据，例如重复数据，并填充缺失的数据值。…

Leave a Comment

10个数据科学家都应该掌握的有用的Python技能

Published October 26, 2023 by 四海吧

介绍 Python是一种多功能且强大的编程语言，对于数据科学家和分析师来说，它在工具包中扮演着核心角色。它的简洁和可读性使其成为处理数据的首选，无论是执行最基本的任务还是应用最前沿的人工智能和机器学习。无论您是刚开始数据科学之旅还是希望提升数据科学家的技能，本指南将为您提供使用Python进行数据驱动项目的知识和工具，助您发掘Python的全部潜力。让我们踏上这段揭示数据科学领域的Python基础知识之旅吧。所有数据科学家应掌握的有用Python技能数据科学是一门不断发展的学科，Python已成为数据科学家的核心语言之一。要在这个领域脱颖而出，掌握特定的Python技能至关重要。以下是每个数据科学家都应掌握的十个基本技能： Python基础知识了解Python的语法：Python的语法以其简洁和可读性而闻名。数据科学家必须掌握基础知识，包括正确的缩进、变量赋值以及循环和条件结构等控制结构。数据类型：Python提供了多种数据类型，包括整数、浮点数、字符串、列表和字典。了解这些数据类型对于处理和操作数据至关重要。基本操作：熟练掌握算术、字符串操作和逻辑运算等基本操作是必要的。数据科学家使用这些操作来清洗和预处理数据。数据操控与分析熟练使用Pandas：Python的Pandas库提供了各种函数和数据结构，用于数据操控。数据科学家使用Pandas可以高效地从多个来源加载数据，包括CSV文件和数据库。这使他们能够高效地访问和处理数据。数据清洗：Python与Pandas相结合，为数据清洗提供了强大的工具。数据科学家可以使用Python处理缺失值，删除重复记录，以及识别和处理异常值。Python的多功能性简化了这些关键的数据清洗任务。数据变换：Python对于数据变换任务至关重要。数据科学家可以利用Python进行特征工程，即从现有数据中创建新的特征以提高模型性能。此外，Python还允许进行数据标准化和缩放，确保数据适用于各种建模技术。探索性数据分析（EDA）：Python和Matplotlib、Seaborn等库对于进行探索性数据分析（EDA）至关重要。数据科学家使用Python执行统计和可视化技术，揭示数据的模式、关系和异常值。EDA为假设的制定提供了基础，并帮助选择适当的建模方法。数据可视化 Matplotlib和Seaborn：Python的Matplotlib库提供了各种自定义选项，允许数据科学家根据需要创建定制的可视化图形。包括调整颜色、标签和其他视觉元素。Seaborn简化了创建美观的统计可视化图形的过程。它增强了默认的Matplotlib样式，使得创建视觉吸引力的图表更加容易。创建引人注目的图表：Python借助Matplotlib和Seaborn等工具赋予数据科学家开发各种图表的能力，包括散点图、条形图、直方图和热力图等。这些可视化图形是呈现数据驱动的洞察、趋势和模式的强大工具。此外，有效的数据可视化对于使复杂数据更易于理解和消化对于利益相关者而言至关重要。可视化呈现可以比原始数据更快速而全面地传达信息，有助于决策过程。传达复杂洞察：数据可视化对于通过视觉方式传达复杂洞察至关重要。Python在这方面的能力简化了对发现的沟通，使非技术相关的利益相关者能够更容易理解和解释数据。通过将数据转化为直观的图表和图形，Python允许以引人注目的方式讲述数据的故事，有助于推动决策制定、报告生成和有效的数据驱动通信。数据存储与检索多样的数据存储系统：Python提供了与各种数据存储系统进行交互的库和连接器。对于像MySQL和PostgreSQL这样的关系型数据库，像SQLAlchemy这样的库可以简化数据访问。像PyMongo这样的库允许数据科学家使用NoSQL数据库（如MongoDB）进行工作。此外，Python可以通过像Pandas这样的库处理存储在平面文件（如CSV、JSON）和数据湖中的数据。数据检索：数据科学家使用Python和SQL从关系型数据库（如MySQL和PostgreSQL）中检索数据。Python的数据库连接器和ORM（对象关系映射）工具简化了执行SQL查询的过程。数据集成：Python在集成来自不同来源的数据的“提取、转换、加载（ETL）”过程中起到关键作用。像Apache Airflow这样的工具和像Pandas这样的库可以实现数据转换和加载任务。这些过程确保来自不同存储系统的数据统一到一个一致的格式中。人工智能和机器学习机器学习库：Python的scikit-learn库是机器学习的基石。它提供了许多用于分类、回归、聚类、降维等机器学习算法。Python的简洁性和scikit-learn库的用户友好的API使其成为数据科学家的首选。使用scikit-learn可以高效、有效地构建预测模型。深度学习框架：深度学习框架TensorFlow和PyTorch在解决复杂的人工智能问题中起到关键作用。Python是TensorFlow和PyTorch的主要编程语言。这些框架提供了预建模型、广泛的神经网络架构和构建自定义深度学习模型的丰富工具。Python的灵活性和这些框架的能力对于图像识别、自然语言处理等任务至关重要。…

Leave a Comment

如何使用探索性笔记本【最佳实践】

Published October 20, 2023 by 四海吧

Jupyter笔记本一直是数据科学社区中最有争议的工具之一有一些直言不讳的批评者，也有热情洋溢的粉丝尽管如此，许多数据科学家都会同意，如果使用得当，它们可以非常有价值这就是我们在本文中要重点关注的内容，也是……

Leave a Comment

构建用于机器学习的最佳 ETL 实践

Published October 12, 2023 by 四海吧

本文讨论了构建训练数据集的ETL编写的几个最佳实践它深入探讨了应用于机器学习的几种软件工程技术和模式

Leave a Comment

使用AWS步骤函数编排机器学习管道

Published October 7, 2023 by 四海吧

这个故事解释了如何使用AWS Step Functions创建和编排机器学习流水线，并使用基础设施即代码部署它们这篇文章是为数据和ML Ops工程师设计的，他们…

Leave a Comment

用特征/训练/推理流水线统一批次和ML系统

Published September 29, 2023 by 四海吧

为您的数据-机器学习-产品团队提供的全新MLOps方法

Leave a Comment

通过在Amazon SageMaker上使用Hugging Face进行电子邮件分类，加速客户成功管理

Published September 17, 2023 by 四海吧

在这篇文章中，我们分享了SageMaker如何帮助Scalable的数据科学团队高效地管理数据科学项目的生命周期，特别是电子邮件分类器项目生命周期从使用SageMaker Studio进行初始阶段的数据分析和探索开始，然后通过SageMaker训练、推理和Hugging Face DLCs进行模型实验和部署，并最终通过与其他AWS服务集成的SageMaker Pipelines完成训练流程

Leave a Comment

时间序列分析：VARMAX作为服务

Published September 9, 2023 by 四海吧

VARMAX-作为服务是一种MLOps方法，用于统计模型和机器学习模型部署流程的统一和重复使用

Leave a Comment

数据科学家角色的典型模式

Published September 4, 2023 by 四海吧

在我的最近一篇关于机器学习工程师的Towards Data Science帖子得到积极反馈后，我想写一些关于我认为数据角色的真正分类的内容

Leave a Comment

开创性的数据可观测性：数据、代码、基础设施和人工智能

Published August 9, 2023 by 四海吧

当我们在2019年推出数据可观测性类别时，这个术语对我来说几乎无法发音四年后，这个类别已经成为现代核心层的重要组成部分…

Leave a Comment

数据工程入门指南

Published July 22, 2023 by 四海吧

所以你想进入数据工程领域？从今天开始，学习更多关于数据工程和基本概念吧

Leave a Comment

在13分钟内使用Hamilton构建一个易维护和模块化的LLM应用程序堆栈

Published July 20, 2023 by 四海吧

在这篇文章中，我们将分享一个名为Hamilton的开源框架，它可以帮助您为大型语言模型（LLM）应用堆栈编写模块化且易于维护的代码Hamilton非常优秀…

Leave a Comment

如何使用Mage简化数据流水线中的通信

Published July 19, 2023 by 四海吧

你是否曾遇到过这样的情况：你的下游数据管道由于Google Sheets中的一个小手动错误而被阻塞？有时候，这个表格甚至不属于你的团队，所以…

Leave a Comment

分布式训练：使用🤗 Transformers和Amazon SageMaker训练BART/T5进行摘要

Published July 17, 2023 by 四海吧

如果你错过了：我们在3月25日宣布与Amazon SageMaker合作，旨在更轻松地创建最先进的机器学习模型，并更快地发布尖端的NLP功能。与SageMaker团队一起，我们构建了🤗优化的Transformers深度学习容器，以加速基于Transformers的模型训练。感谢AWS的朋友们！🤗 🚀 通过SageMaker Python SDK中的新HuggingFace估计器，您可以通过一行代码开始训练。发布的博客文章提供了有关集成的所有信息，包括“入门”示例和文档、示例和功能的链接。在此再次列出： 🤗 Transformers文档：Amazon SageMaker 示例笔记本 Hugging Face的Amazon SageMaker文档 Hugging Face的Python SDK SageMaker文档深度学习容器如果您对Amazon SageMaker不熟悉：“Amazon SageMaker是一项完全托管的服务，为每个开发人员和数据科学家提供快速构建、训练和部署机器学习（ML）模型的能力。SageMaker从机器学习过程的每个步骤中减轻了繁重的负担，使开发高质量模型更加容易。”[ REF…

Leave a Comment

使用Amazon SageMaker轻松部署Hugging Face模型

Published July 17, 2023 by 四海吧

今年早些时候，我们宣布与亚马逊建立战略合作，以便公司更轻松地在亚马逊SageMaker中使用Hugging Face，并更快地发布尖端的机器学习功能。我们引入了新的Hugging Face深度学习容器（DLC），以在亚马逊SageMaker中训练Hugging Face Transformer模型。今天，我们很高兴与您分享一个新的推理解决方案，它使使用亚马逊SageMaker部署Hugging Face Transformers变得比以往任何时候都更容易！借助新的Hugging Face推理DLC，您只需再添加一行代码，即可部署已训练好的模型进行推理，或者选择来自模型中心的10,000多个公开可用模型，并使用亚马逊SageMaker部署它们。在SageMaker中部署模型可以为您提供生产就绪的端点，可以在AWS环境中轻松扩展，并具有内建的监控和大量企业功能。这是一个令人惊叹的合作，我们希望您能充分利用它！以下是如何使用新的SageMaker Hugging Face推理工具包部署基于Transformers的模型： from sagemaker.huggingface import HuggingFaceModel # 创建Hugging Face模型类并将其部署为SageMaker端点 huggingface_model = HuggingFaceModel(…).deploy() 就是这样！🚀 要了解有关使用新的Hugging…

Leave a Comment