78 search results for "seaborn"

介绍近年来，将人工智能（AI）整合到股票交易中已经改变了投资者的决策方式。随着大型语言模型（LLMs）如GPT-3和GPT-4的出现，发生了一场范式转变，使个人投资者和交易者更容易获得复杂的市场分析和见解。这种革命性的技术利用大量的数据和复杂的算法，提供了以前仅由机构投资者独占的市场理解深度。本文重点介绍使用LLMs开发个性化AI交易顾问，旨在根据风险偏好、投资时间、预算和期望回报来匹配个人投资者的投资配置，为零售投资者提供个性化、战略性的投资建议。由GPT-3和GPT-4等大型语言模型（LLMs）驱动的股票交易顾问已经彻底改变了金融咨询服务。它们可以利用人工智能来分析历史股票数据和当前的财经新闻，为投资者提供与其独特投资组合和财务目标相符合的个性化投资建议。我们将尝试构建一个顾问来预测市场行为和趋势，根据个人风险承受能力、投资期限、可用资本和期望回报提供量身定制的建议。学习目标通过本文，读者将能够：了解AI和像GPT-3这样的LLMs如何改变股市分析和交易。认识到基于个人风险偏好和投资目标的AI驱动工具提供个性化投资建议的能力。了解AI如何利用历史和实时数据制定投资策略和预测。了解股票交易中的AI如何使复杂的投资策略对更广泛的受众（包括零售投资者）可行。发现如何利用AI驱动的工具进行个人投资和股票交易决策。了解利用LLMs构建股票交易顾问的概念。本文作为数据科学博文马拉松的一部分进行发布。关于数据集该项目的数据集从纽约证券交易所获取，并在Kaggle上提供，包括覆盖七年的四个CSV文件。其中包括关键的财务指标“fundamentals.csv”，提供历史股价和股票分割调整的“prices.csv”和“prices-split-adjusted.csv”，以及提供附加公司信息（如部门分类和总部）的“securities.csv”。这些文件的综合提供了对公司业绩和股票市场动态的全面了解。数据准备使用类似GPT-4这样的大型语言模型（LLMs）来实现股票交易顾问，需要进行关键的数据准备。这个过程包括重要的任务：数据清洗、归一化和分类，使用提供的数据集：fundamentals.csv、prices.csv、prices-split-adjusted.csv和securities.csv。步骤1：数据清洗在“基本数据集”中，我们使用中值插补来处理“For Year”、“Earnings Per Share”和“Estimated Shares Outstanding”的缺失值（173个、219个和219个缺失值）。我们将“Period Ending”列转换为日期时间格式，使其适合进行数字字段分析。…

Leave a Comment

“一个比例有多可靠？”

Published December 8, 2023 by 四海吧

在数据科学领域，我的一个参考资料是Julia Silge在她的Tidy Tuesday视频中，她总是制作一种代码教学/展示给定技术的视频，在此过程中帮助其他分析师

Leave a Comment

Tableau中的6个高级可视化

Published December 6, 2023 by 四海吧

Tableau 是一种用于创建数据可视化、仪表板和故事的数据可视化工具当我开始使用这个工具时，经常使用”Show Me”功能创建数据可视化…

Leave a Comment

明确解释熊猫切割与qcut（终于）

Published November 30, 2023 by 四海吧

当初学者看到一些复杂的pandas函数输出时，常常会有这种反应我总是对许多教程和课程在短时间内介绍这种函数感到困惑…

Leave a Comment

学习数据科学需要多久时间？

Published November 30, 2023 by 四海吧

介绍数据科学已经成为技术市场上最有价值的技能之一。在数据科学革命之前，处理数百万个测试用例的数据需要花费长达11-12年的时间。但现在，只需几个月，有时甚至只需要几个星期！那么，学习数据科学需要多长时间？令人惊讶的是，你只需要一年就可以成为一名数据科学家。这取决于你的学习速度和持续性。让我们看看成为数据科学家需要多长时间，以及为什么你应该成为一名数据科学家。为什么选择数据科学职业？机器学习和人工智能正在征服世界，得益于不断发展的技术世界。根据预测，到2026年，数据科学市场收入预计将达到$3229亿美元。技术、大数据和机器学习算法在企业中的快速应用导致了数据科学的快速增长。根据劳动统计局的数据，数据科学家平均年薪约为$100,000。有许多职业机会可供选择，你可以成为数据分析师、数据科学家等，拥有高薪水，符合你的技能。成为数据科学家需要多长时间？每个人成为数据科学家的道路可能不同。如果我们将每个月分为特定的主题，你可以在12个月内学习数据科学。只要保持持续的努力和学习的热情，任何人都可以在一年内掌握数据科学的艺术。然而，学习曲线取决于你的持续性和学习数据科学的时间。由于之前对数据科学具有基础知识，有些人可以较短时间内掌握数据科学。跟随并在12个月内学习数据科学的基础和复杂概念。让我们看看每个月的内容蓝图，了解学习数据科学需要多长时间。第1个月：数据科学工具包让我们以基本的数据科学工具开启你成为数据科学家的旅程。通过学习常见但重要的数据科学工具，如Python及其库NumPy、Pandas、Matplotlib和Seaborn，可以为接下来几个月打下坚实的基础。第2个月：数据可视化在打下坚实基础之后，我们进入成为数据科学家的下一个阶段，掌握数据可视化的艺术。熟悉数据可视化工具，如Tableau，掌握绘制图表、分布地图等技术。本月还将开始学习SQL。第3个月：数据探索第三个月重点介绍如何利用隐藏数据进行数据探索。数据探索是指将信息型数据以关键洞察的形式展示出来。本月将教你如何使用探索性数据分析（EDA）探索数据。你可以学习成为一名数据科学家所需的统计学基础知识。第4个月：机器学习基础与讲故事的艺术本月将开始你的机器学习奇妙之旅。你将学习机器学习的基础知识，并熟悉技术术语和技巧。通过结构化思维，你将掌握讲故事的艺术。第5个月：高级机器学习从第五个月开始，事情将变得严肃起来，因为您将学习高级机器学习算法来提升您的技能。在这个月里，您可以期望学习特征工程以及如何处理文本和图像。第六个月：无监督机器学习在这个月里，学会处理非结构化和无标签的数据。学习如何使用无监督机器学习算法处理非结构化数据，例如PCA、聚类、K-Means、异常检测等。您将终于开始进行项目。第七个月：推荐引擎推荐系统是Netflix、YouTube、Zomato等准确推荐背后的支撑。在第七个月，学习不同推荐技术背后的逻辑以及如何构建推荐引擎。同时，进一步实施令人兴奋的项目。第八个月：处理时间序列数据全球许多组织依赖时间序列数据观察数据集随时间的重复测量。在这个月里，学习如何处理时间序列数据，以及解决时间序列问题的有效技术。…

Leave a Comment

从异常检测中消除猜测：用直方图来设置阈值

Published November 27, 2023 by 四海吧

在异常检测的领域中，寻找隐藏的不规则性就像在广阔的数据景观中寻找隐藏的宝藏一样然而，即使使用最先进的异常检测算法……

Leave a Comment

“全面时间序列探索性分析”

Published November 26, 2023 by 四海吧

在这里，你可以获取按时间戳排序的数据集你的数据可能涉及储存需求和供应，并且你的任务是预测战略产品的理想补货间隔…

Leave a Comment

Sklearn教程：模块2

Published November 26, 2023 by 四海吧

多年来，我一直在使用Python科学工具包（NumPy，Matplotlib，SciPy，Pandas和Seaborn）进行学习和研究很明显，接下来的一步就是学习和使用scikit-learn，或者简称为“sklearn”这是第二个模块…

Leave a Comment

探索性数据分析：我们对YouTube频道了解多少（第二部分）

Published November 24, 2023 by 四海吧

在故事的第一部分，我收集了大约3000个YouTube频道的统计数据，并得到了一些有趣的见解在这一部分，我将更加深入，从一般的“频道”到…

Leave a Comment

使用MakeBlobs和虚构合成数据的新的（有点）用例

Published November 24, 2023 by 四海吧

从开放数据科学会议（ODSC）的西部版中，最受关注的专题之一是关于合成数据本文以新的视角重新讨论了这一话题，探讨了你如何…

Leave a Comment

利用强大的5步因果影响框架，释放你作为商业分析师的全部潜力

Published November 22, 2023 by 四海吧

在商业环境中，领导层通常对决策或事件对关注的关键业绩指标（KPI）的影响感兴趣作为绩效分析师，我大部分时间都在回答与此相关的问题…

Leave a Comment

使用NASA的Power API创建气候GPT

Published November 21, 2023 by 四海吧

在本文中，我们探讨了OpenAI的新GPT特性，该特性提供了一种无需编码的快速创建AI代理的方式，这些代理可以自动调用外部API以获取数据，并生成代码以进行回答…

Leave a Comment

Pyro中的贝叶斯AB测试

Published November 17, 2023 by 四海吧

本文是使用Python概率编程语言（PPL）Pyro进行AB测试的介绍，Pyro是PyMC的一个替代品撰写本文的动机是为了进一步推广我的……

Leave a Comment

LangChain 正试图评估的 LLM 的 6 个问题

Published November 16, 2023 by 四海吧

了解如何LangChain通过提升先进语言模型在技术发展中的应用而改变游戏规则

Leave a Comment

使用Python进行的5个可视化，展示地理空间数据的同时变化

Published November 4, 2023 by 四海吧

时间和空间被设置为一些科幻电影的主题，比如《星际穿越》，我的最爱这类电影之所以有趣，原因之一就是同时发生的故事

Leave a Comment

MLOps 使用实施欺诈交易检测

Published November 3, 2023 by 四海吧

介绍在当今数字化的世界中，人们越来越倾向于通过在线交易和数字支付来进行交易，而不是使用现金，这是因为它的便利性。随着过渡的增加，欺诈行为也在增加。欺诈交易可以是任何类型，因为它涉及使用虚假身份或虚假信息要求钱款。这给个人和金融机构带来了重大问题。在这个项目中，我们将使用信用卡数据集来设计使用Airflow工具监控实时交易并预测其是否真实或欺诈的MLOPs模型。学习目标检测欺诈交易的重要性。清理数据，转换数据集和预处理数据。对数据集进行可视化分析以获得洞察力。在数据科学中使用欺诈交易检测模型的实际应用。使用Python编程语言进行欺诈交易数据分析使用MS Azure和Airflow构建端到端的欺诈检测本文作为数据科学博文马拉松的一部分发布。什么是欺诈交易估计模型？欺诈交易数据集包含来自不同来源的数据，其中包含交易时间、姓名、金额、性别、类别等列。欺诈交易估计模型是一个用于预测虚假交易的机器学习模型。该模型是在大量有效交易和欺诈交易的基础上进行训练的，以预测新的虚假交易。什么是欺诈交易分析？欺诈交易分析是分析过去数据集的过程。数据集分析旨在发现数据中的异常情况并找出数据集中的模式。欺诈交易分析在保护客户和减少财务损失方面起着关键作用。有不同类型的欺诈交易分析，例如基于规则的分析和异常检测。基于规则的分析：基于规则的分析涉及创建规则来标记无效交易。例如，可以根据地理区域制定规则。异常检测：异常检测涉及发现异常或异常的交易。例如，从新的IP地址进行的交易。检测欺诈交易的重要性对于企业和金融机构来说，检测欺诈交易对于保护客户免受欺诈和保护他们的资金至关重要。以下是检测欺诈交易的一些关键原因。减少财务损失：欺诈交易给企业带来巨额财务损失，从而减少它们的利润。因此，企业检测欺诈交易变得至关重要。维护声誉：维护声誉对于企业来说是至关重要的，因为它会导致潜在客户和顾客的流失。保护客户和企业：欺诈交易可能对客户造成财务损失和情感影响。通过检测欺诈交易，企业可以保护客户和他们的业务。数据收集和预处理数据收集和预处理是开发欺诈检测模型的重要部分。一旦收集到数据，需要对数据集执行多个步骤。数据清理：数据清理包括删除不需要的数据，例如重复数据，并填充缺失的数据值。…

Leave a Comment

掌握使用Pandas和Python进行数据整理的7个步骤

Published October 27, 2023 by 四海吧

开始你的数据之旅？这里有一条7步学习路径，帮助你掌握使用pandas进行数据整理

Leave a Comment

10个数据科学家都应该掌握的有用的Python技能

Published October 26, 2023 by 四海吧

介绍 Python是一种多功能且强大的编程语言，对于数据科学家和分析师来说，它在工具包中扮演着核心角色。它的简洁和可读性使其成为处理数据的首选，无论是执行最基本的任务还是应用最前沿的人工智能和机器学习。无论您是刚开始数据科学之旅还是希望提升数据科学家的技能，本指南将为您提供使用Python进行数据驱动项目的知识和工具，助您发掘Python的全部潜力。让我们踏上这段揭示数据科学领域的Python基础知识之旅吧。所有数据科学家应掌握的有用Python技能数据科学是一门不断发展的学科，Python已成为数据科学家的核心语言之一。要在这个领域脱颖而出，掌握特定的Python技能至关重要。以下是每个数据科学家都应掌握的十个基本技能： Python基础知识了解Python的语法：Python的语法以其简洁和可读性而闻名。数据科学家必须掌握基础知识，包括正确的缩进、变量赋值以及循环和条件结构等控制结构。数据类型：Python提供了多种数据类型，包括整数、浮点数、字符串、列表和字典。了解这些数据类型对于处理和操作数据至关重要。基本操作：熟练掌握算术、字符串操作和逻辑运算等基本操作是必要的。数据科学家使用这些操作来清洗和预处理数据。数据操控与分析熟练使用Pandas：Python的Pandas库提供了各种函数和数据结构，用于数据操控。数据科学家使用Pandas可以高效地从多个来源加载数据，包括CSV文件和数据库。这使他们能够高效地访问和处理数据。数据清洗：Python与Pandas相结合，为数据清洗提供了强大的工具。数据科学家可以使用Python处理缺失值，删除重复记录，以及识别和处理异常值。Python的多功能性简化了这些关键的数据清洗任务。数据变换：Python对于数据变换任务至关重要。数据科学家可以利用Python进行特征工程，即从现有数据中创建新的特征以提高模型性能。此外，Python还允许进行数据标准化和缩放，确保数据适用于各种建模技术。探索性数据分析（EDA）：Python和Matplotlib、Seaborn等库对于进行探索性数据分析（EDA）至关重要。数据科学家使用Python执行统计和可视化技术，揭示数据的模式、关系和异常值。EDA为假设的制定提供了基础，并帮助选择适当的建模方法。数据可视化 Matplotlib和Seaborn：Python的Matplotlib库提供了各种自定义选项，允许数据科学家根据需要创建定制的可视化图形。包括调整颜色、标签和其他视觉元素。Seaborn简化了创建美观的统计可视化图形的过程。它增强了默认的Matplotlib样式，使得创建视觉吸引力的图表更加容易。创建引人注目的图表：Python借助Matplotlib和Seaborn等工具赋予数据科学家开发各种图表的能力，包括散点图、条形图、直方图和热力图等。这些可视化图形是呈现数据驱动的洞察、趋势和模式的强大工具。此外，有效的数据可视化对于使复杂数据更易于理解和消化对于利益相关者而言至关重要。可视化呈现可以比原始数据更快速而全面地传达信息，有助于决策过程。传达复杂洞察：数据可视化对于通过视觉方式传达复杂洞察至关重要。Python在这方面的能力简化了对发现的沟通，使非技术相关的利益相关者能够更容易理解和解释数据。通过将数据转化为直观的图表和图形，Python允许以引人注目的方式讲述数据的故事，有助于推动决策制定、报告生成和有效的数据驱动通信。数据存储与检索多样的数据存储系统：Python提供了与各种数据存储系统进行交互的库和连接器。对于像MySQL和PostgreSQL这样的关系型数据库，像SQLAlchemy这样的库可以简化数据访问。像PyMongo这样的库允许数据科学家使用NoSQL数据库（如MongoDB）进行工作。此外，Python可以通过像Pandas这样的库处理存储在平面文件（如CSV、JSON）和数据湖中的数据。数据检索：数据科学家使用Python和SQL从关系型数据库（如MySQL和PostgreSQL）中检索数据。Python的数据库连接器和ORM（对象关系映射）工具简化了执行SQL查询的过程。数据集成：Python在集成来自不同来源的数据的“提取、转换、加载（ETL）”过程中起到关键作用。像Apache Airflow这样的工具和像Pandas这样的库可以实现数据转换和加载任务。这些过程确保来自不同存储系统的数据统一到一个一致的格式中。人工智能和机器学习机器学习库：Python的scikit-learn库是机器学习的基石。它提供了许多用于分类、回归、聚类、降维等机器学习算法。Python的简洁性和scikit-learn库的用户友好的API使其成为数据科学家的首选。使用scikit-learn可以高效、有效地构建预测模型。深度学习框架：深度学习框架TensorFlow和PyTorch在解决复杂的人工智能问题中起到关键作用。Python是TensorFlow和PyTorch的主要编程语言。这些框架提供了预建模型、广泛的神经网络架构和构建自定义深度学习模型的丰富工具。Python的灵活性和这些框架的能力对于图像识别、自然语言处理等任务至关重要。…

Leave a Comment

您的数据科学可视化将再也不会一样——Plotly和Dash

Published October 24, 2023 by 四海吧

不久前，我写了一篇简单的介绍，涵盖了四个Python数据可视化库的优缺点，并使用实际示例展示它们的能力随着我们的进行…

Leave a Comment

如何使用探索性笔记本【最佳实践】

Published October 20, 2023 by 四海吧

Jupyter笔记本一直是数据科学社区中最有争议的工具之一有一些直言不讳的批评者，也有热情洋溢的粉丝尽管如此，许多数据科学家都会同意，如果使用得当，它们可以非常有价值这就是我们在本文中要重点关注的内容，也是……

Leave a Comment

一个从Google地图空气质量API获取空气污染数据的Python工具

Published October 17, 2023 by 四海吧

2023年8月，谷歌宣布将空气质量服务添加到其地图 API 列表中您可以在这里阅读更多相关信息现在，这些信息似乎也可以从内部获取到了…

Leave a Comment

掌握Python中的数据清洗艺术

Published October 16, 2023 by 四海吧

如何在Python中清理您的数据，并使其准备好在数据科学项目中使用

Leave a Comment

《机器学习简介：探索其多种形式》

Published October 13, 2023 by 四海吧

这些天，机器学习无处不在，对吧？如果你在这里，你可能对机器学习到底是什么感到好奇！那么，让我用简单的术语来解释给你听，从高层次上说…

Leave a Comment

在数据科学中使用MLOps实施基于需求的酒店房间定价

Published October 13, 2023 by 四海吧

介绍在Covid期间，酒店业的收入大幅下降。因此，当人们开始更多地旅行时，吸引顾客仍然是一个挑战。我们将开发一种机器学习工具来解决这个问题，并设置试衣间以吸引更多顾客。利用酒店的数据集，我们将建立一个人工智能工具来选择正确的房价，提高入住率，增加酒店的收入。学习目标设置酒店房间正确价格的重要性。清洗数据，转换数据集和预处理数据集。使用酒店预订数据创建地图和可视化图表。数据科学中使用酒店预订数据分析的实际应用。使用Python编程语言进行酒店预订数据分析。本文作为数据科学博客马拉松的一部分发表。什么是酒店房价数据集？酒店预订数据集包含来自不同来源的数据，包括酒店类型、成人数量、停留时间、特殊要求等列。这些值可以帮助预测酒店房价，从而增加酒店的收入。酒店房价分析是什么？在酒店房价分析中，我们将分析数据集的模式和趋势。根据这些信息，我们将进行与定价和运营相关的决策。这些决策将受到多个因素的影响。季节性：房价在旺季（如假期）大幅上涨。需求：当需求高时（如庆典活动或体育赛事），房价会上涨。竞争：酒店房价受附近酒店价格的影响很大。如果一个地区的酒店数量过多，则房价会降低。设施：如果酒店有游泳池、水疗中心和健身房等设施，它们会对这些设施收取更高的费用。位置：位于主要城镇的酒店相比较而言可以收费更高。正确设置酒店房价的重要性设置房价对于增加收入和利润至关重要。正确设置酒店房价的重要性如下：最大化收入：房价是增加收入的主要关键。通过设置有竞争力的价格，酒店可以增加收入。增加客户：当房价公平时，更多客人会预订酒店。这有助于增加入住率。最大化利润：酒店试图提高价格以增加利润。然而，提高价格会减少客人数量，而正确设置价格会增加客人数量。收集数据和预处理数据收集和预处理是酒店房价分析的重要部分。数据是从酒店网站、预订网站和公共数据集收集的。然后将该数据集转换为可视化所需的格式。在预处理过程中，数据集经历数据清洗和转换。新转换的数据集用于可视化和模型构建。…

Leave a Comment

Python中的完整探索性数据分析

Published October 11, 2023 by 四海吧

我之前有一些关于探索性数据分析的教程但我觉得我应该再做一些拿一个数据集来探索并进行数据清洗、分析、可视化等工作

Leave a Comment

Can't find what you're looking for? Try refining your search: