Press "Enter" to skip to content

22 search results for "SKLearn estimator"

在云中部署您的机器学习模型的生产

Published October 7, 2023 by 四海吧

学习在AWS上托管一个活模特的简单方法

Continue reading

Leave a Comment

“用GPT-4打造个性化的人工智能交易顾问”

Published December 13, 2023 by 四海吧

介绍近年来，将人工智能（AI）整合到股票交易中已经改变了投资者的决策方式。随着大型语言模型（LLMs）如GPT-3和GPT-4的出现，发生了一场范式转变，使个人投资者和交易者更容易获得复杂的市场分析和见解。这种革命性的技术利用大量的数据和复杂的算法，提供了以前仅由机构投资者独占的市场理解深度。本文重点介绍使用LLMs开发个性化AI交易顾问，旨在根据风险偏好、投资时间、预算和期望回报来匹配个人投资者的投资配置，为零售投资者提供个性化、战略性的投资建议。由GPT-3和GPT-4等大型语言模型（LLMs）驱动的股票交易顾问已经彻底改变了金融咨询服务。它们可以利用人工智能来分析历史股票数据和当前的财经新闻，为投资者提供与其独特投资组合和财务目标相符合的个性化投资建议。我们将尝试构建一个顾问来预测市场行为和趋势，根据个人风险承受能力、投资期限、可用资本和期望回报提供量身定制的建议。学习目标通过本文，读者将能够：了解AI和像GPT-3这样的LLMs如何改变股市分析和交易。认识到基于个人风险偏好和投资目标的AI驱动工具提供个性化投资建议的能力。了解AI如何利用历史和实时数据制定投资策略和预测。了解股票交易中的AI如何使复杂的投资策略对更广泛的受众（包括零售投资者）可行。发现如何利用AI驱动的工具进行个人投资和股票交易决策。了解利用LLMs构建股票交易顾问的概念。本文作为数据科学博文马拉松的一部分进行发布。关于数据集该项目的数据集从纽约证券交易所获取，并在Kaggle上提供，包括覆盖七年的四个CSV文件。其中包括关键的财务指标“fundamentals.csv”，提供历史股价和股票分割调整的“prices.csv”和“prices-split-adjusted.csv”，以及提供附加公司信息（如部门分类和总部）的“securities.csv”。这些文件的综合提供了对公司业绩和股票市场动态的全面了解。数据准备使用类似GPT-4这样的大型语言模型（LLMs）来实现股票交易顾问，需要进行关键的数据准备。这个过程包括重要的任务：数据清洗、归一化和分类，使用提供的数据集：fundamentals.csv、prices.csv、prices-split-adjusted.csv和securities.csv。步骤1：数据清洗在“基本数据集”中，我们使用中值插补来处理“For Year”、“Earnings Per Share”和“Estimated Shares Outstanding”的缺失值（173个、219个和219个缺失值）。我们将“Period Ending”列转换为日期时间格式，使其适合进行数字字段分析。…

Continue reading

Leave a Comment

使用预选算法在Amazon SageMaker自动模型调整中实现定制的AutoML作业

Published November 16, 2023 by 四海吧

AutoML可以让您在机器学习（ML）项目的生命周期初期就能从数据中快速得出一般性见解提前了解哪些预处理技术和算法类型能够提供最佳结果，能够减少开发、训练和部署正确模型所需的时间它在每个模型的开发过程中起着至关重要的作用[…]

Continue reading

Leave a Comment

超参数调优：GridSearchCV和RandomizedSearchCV的解释

Published November 4, 2023 by 四海吧

学习如何使用网格搜索和随机搜索来调整模型的超参数还要学会使用GridSearchCV和RandomizedSearchCV在scikit-learn中实现它们

Continue reading

Leave a Comment

MLOps 使用实施欺诈交易检测

Published November 3, 2023 by 四海吧

介绍在当今数字化的世界中，人们越来越倾向于通过在线交易和数字支付来进行交易，而不是使用现金，这是因为它的便利性。随着过渡的增加，欺诈行为也在增加。欺诈交易可以是任何类型，因为它涉及使用虚假身份或虚假信息要求钱款。这给个人和金融机构带来了重大问题。在这个项目中，我们将使用信用卡数据集来设计使用Airflow工具监控实时交易并预测其是否真实或欺诈的MLOPs模型。学习目标检测欺诈交易的重要性。清理数据，转换数据集和预处理数据。对数据集进行可视化分析以获得洞察力。在数据科学中使用欺诈交易检测模型的实际应用。使用Python编程语言进行欺诈交易数据分析使用MS Azure和Airflow构建端到端的欺诈检测本文作为数据科学博文马拉松的一部分发布。什么是欺诈交易估计模型？欺诈交易数据集包含来自不同来源的数据，其中包含交易时间、姓名、金额、性别、类别等列。欺诈交易估计模型是一个用于预测虚假交易的机器学习模型。该模型是在大量有效交易和欺诈交易的基础上进行训练的，以预测新的虚假交易。什么是欺诈交易分析？欺诈交易分析是分析过去数据集的过程。数据集分析旨在发现数据中的异常情况并找出数据集中的模式。欺诈交易分析在保护客户和减少财务损失方面起着关键作用。有不同类型的欺诈交易分析，例如基于规则的分析和异常检测。基于规则的分析：基于规则的分析涉及创建规则来标记无效交易。例如，可以根据地理区域制定规则。异常检测：异常检测涉及发现异常或异常的交易。例如，从新的IP地址进行的交易。检测欺诈交易的重要性对于企业和金融机构来说，检测欺诈交易对于保护客户免受欺诈和保护他们的资金至关重要。以下是检测欺诈交易的一些关键原因。减少财务损失：欺诈交易给企业带来巨额财务损失，从而减少它们的利润。因此，企业检测欺诈交易变得至关重要。维护声誉：维护声誉对于企业来说是至关重要的，因为它会导致潜在客户和顾客的流失。保护客户和企业：欺诈交易可能对客户造成财务损失和情感影响。通过检测欺诈交易，企业可以保护客户和他们的业务。数据收集和预处理数据收集和预处理是开发欺诈检测模型的重要部分。一旦收集到数据，需要对数据集执行多个步骤。数据清理：数据清理包括删除不需要的数据，例如重复数据，并填充缺失的数据值。…

Continue reading

Leave a Comment

解读随机森林

Published October 9, 2023 by 四海吧

现在对于大型语言模型存在很多炒作，但这并不意味着传统的机器学习方法现在应该灭绝我怀疑如果你给ChatGPT一个数据集，它会有什么帮助……

Continue reading

Leave a Comment

“Python Ray是分布式计算的快车道吗？”

Published October 6, 2023 by 四海吧

Python Ray是一种革命性的分布式计算框架。由UC Berkeley的RISELab开发，它简化了并行和分布式Python应用程序的编写。Ray简化了机器学习工程师，数据科学家和开发人员的复杂任务。它的多功能性涵盖了数据处理、模型训练、超参数调整、部署和强化学习。本文深入介绍了Ray的层次结构、核心概念、安装和实际应用，并重点介绍了它在OpenAI的ChatGPT中的关键作用。理解Ray框架 Python Ray是一个用于并行化Python应用程序的分布式计算框架。两个主要层次：Ray由两个主要层次组成：Ray AI Runtime（AIR）和Ray Core。 Ray AI Runtime（AIR）：专为机器学习工程师和数据科学家定制，AIR包括用于特定任务的Ray Data、Ray Train、Ray Tune、Ray Serve和Ray RLlib。 Ray Core：提供通用的分布式计算功能，包括任务、Actor和对象等关键概念。 Ray Cluster：便于配置和扩展Ray应用程序，包括主节点、工作节点和自动缩放器。多功能解决方案：Ray可用于机器学习、数据处理等，简化了复杂的并行化任务。 Ray框架层次结构…

Continue reading

Leave a Comment

使用MLflow进行机器学习实验追踪

Published September 25, 2023 by 四海吧

介绍机器学习（ML）领域正在迅速扩展，并在许多不同的行业中应用。随着机器学习实验使用MLflow进行跟踪和管理所需的试验变得越来越复杂，跟踪它们变得更加困难。这可能会给数据科学家带来许多问题，例如：实验丢失或重复：跟踪所有进行的实验可能具有挑战性，这会增加实验丢失或重复的风险。结果的可重现性：可能很难复制实验的发现，这使得故障排除和提高模型变得困难。透明度不足：可能难以相信模型的预测，因为难以理解模型是如何创建的。 CHUTTERSNAP在Unsplash上的照片鉴于上述挑战，拥有一个可以跟踪所有ML实验并记录度量指标以实现更好的可重现性并促进协作的工具非常重要。本博客将探索和学习MLflow，一个开源的ML实验跟踪和模型管理工具，并提供代码示例。学习目标在本文中，我们旨在对使用MLflow进行机器学习实验跟踪和模型注册有一个清晰的理解。此外，我们将学习如何以可重复和可重用的方式交付ML项目。最后，我们将了解LLM是什么，以及为什么需要跟踪LLM对于应用程序开发。什么是MLflow？ MLflow标志（来源：官方网站）称为MLflow的机器学习实验跟踪和模型管理软件使处理机器学习项目变得更加容易。它提供了各种工具和功能来简化ML工作流程。用户可以比较和复制结果，记录参数和度量指标，并跟踪MLflow实验。此外，它还简化了模型打包和部署。使用MLflow，您可以在训练运行过程中记录参数和度量指标。 # 导入mlflow库 import mlflow # 开始mlflow跟踪 mlflow.start_run() mlflow.log_param(“learning_rate”, 0.01) mlflow.log_metric(“accuracy”,…

Continue reading

Leave a Comment

《SciKit Pipelines 简介》

Published September 3, 2023 by 四海吧

你曾经训练过一个机器学习模型，预测结果看起来过于完美，以至于让你觉得难以置信吗？但是随后你意识到，在训练数据和测试数据之间存在一些数据泄漏吗？或者说…

Continue reading

Leave a Comment

面向陌生

Published August 24, 2023 by 四海吧

传统的预测分析提供了两种范式来看待大多数问题：点估计和分类现代数据科学主要关注后者，对许多问题进行框架化处理…

Continue reading

Leave a Comment

从原始到精细：数据预处理之旅 —— 第二部分：缺失值

Published August 8, 2023 by 四海吧

在阅读本文之前，请查看系列文章中的特征工程部分大多数真实世界的数据集至少包含一定比例的缺失值但是…

Continue reading

Leave a Comment

数据驱动的调度

Published August 5, 2023 by 四海吧

在今天快节奏的世界中，基于数据的调度响应系统决策的需求变得至关重要调度员在听取呼叫时将进行一种分诊，优先考虑…

Continue reading

Leave a Comment

掌握蒙特卡洛：如何通过模拟提升机器学习模型

Published August 4, 2023 by 四海吧

蒙特卡洛：统计模拟如何支持机器学习，从估计π到优化超参数使用Python的此多功能技术指南

Continue reading

Leave a Comment

使用Scikit-Learn类创建自定义转换器的简单方法

Published July 30, 2023 by 四海吧

数据预处理是数据科学生命周期中最重要的步骤之一作为一种非常流行的机器学习库，Scikit-Learn有很多预定义的转换器可以帮助我们…

Continue reading

Leave a Comment

集成学习：从决策树到随机森林

Published July 29, 2023 by 四海吧

我们将从决策树模型开始讨论然后，我们将解释集成学习，最后，我们将描述随机森林模型作为基于决策树的集成模型创建的一种方法…

Continue reading

Leave a Comment

从混沌到秩序：利用数据聚类提升决策能力

Published July 28, 2023 by 四海吧

在线商店使用这种方法根据客户的购买模式、购买日期、年龄、收入和许多其他因素对其进行聚类这有助于商店了解其…

Continue reading

Leave a Comment

深入探讨模型可解释性的PFI

Published July 22, 2023 by 四海吧

作为一名数据科学家，了解如何评估你的模型对你的工作至关重要如果你不能完全理解并向利益相关者进行沟通，没有人会批准你的解决方案

Continue reading

Leave a Comment

通过OpenAI API利用大型语言模型改进表格数据预测

Published July 19, 2023 by 四海吧

这些天，大型语言模型以及应用程序或工具都在新闻和社交媒体上随处可见GitHub的热门页面展示了大量广泛使用的存储库…

Continue reading

Leave a Comment

如何构建机器学习模型训练流程

Published July 12, 2023 by 四海吧

举手吧，如果你曾经花了几个小时来解决混乱的脚本，或者感觉在修复那个难以捉摸的错误时像是在追踪幽灵，而你的模型又需要花费很长时间来训练我们都有过这样的经历，对吧？但是现在，想象一个不同的场景：整洁的代码流畅的工作流程高效的模型训练这听起来太好了，好得让人难以置信…

Continue reading

Leave a Comment

从理论到实践：构建k最近邻分类器

Published June 27, 2023 by 四海吧

k最近邻分类器是一种机器学习算法，它将一个新数据点分配给其k个最近邻中最常见的类在本教程中，您将学习使用Python构建和应用此分类器的基本步骤

Continue reading

Leave a Comment

Python 中处理分类变量的指南

Published June 19, 2023 by 四海吧

在数据科学或机器学习项目中处理分类变量并非易事这种工作需要对应用领域有深入的了解和对…广泛的理解

Continue reading

Leave a Comment

使用机器学习和Flask部署的农作物产量预测

Published June 17, 2023 by 四海吧

介绍农作物产量预测是农业行业中必不可少的预测性分析技术。它是一种农业实践，可以帮助农民和农业企业预测特定季节的农作物产量，以便更好地种植和收获。预测性分析是农业行业中可用于农作物产量预测、风险缓解、降低肥料成本等方面的有力工具。使用机器学习和 Flask 部署的农作物产量预测将对天气条件、土壤质量、果实结数、果实质量等进行分析。 Unsplash 学习目标我们将简要介绍使用授粉模拟建模来预测农作物产量的端到端项目。我们将遵循数据科学项目生命周期的每个步骤，包括数据探索、预处理、建模、评估和部署。最后，我们将使用 Flask API 在名为 render 的云服务平台上部署模型。因此，让我们开始这个激动人心的实际问题声明。本文是数据科学博客马拉松的一部分。项目描述用于此项目的数据集是使用空间显式模拟计算模型生成的，分析和研究影响野生蓝莓预测的各种因素，包括：植物空间排列异交和自交蜜蜂物种组成天气条件（单独和组合）对野生蓝莓的授粉效率和产量的影响。该模拟模型已通过在过去30年中在美国缅因州和加拿大海岸收集的田野观察和实验数据进行验证，并现在是一个有用的工具，用于假设测试和野生蓝莓产量预测的估计。这个模拟数据为研究人员提供了从实地收集的实际数据，用于各种农作物产量预测实验，同时为开发人员和数据科学家提供了构建用于农作物产量预测的真实世界机器学习模型的数据。模拟野生蓝莓田什么是授粉模拟模型？…

Continue reading

Leave a Comment

Can't find what you're looking for? Try refining your search:

Web Analytics