Press "Enter" to skip to content

158 search results for "Matplotlib"

使用Python入门情感分析

Published July 16, 2023 by 四海吧

情感分析是根据数据的情感自动进行标记的自动化过程，如积极、消极和中性。情感分析使公司能够在大规模上分析数据、发现洞察力并自动化流程。过去，情感分析通常只限于研究人员、机器学习工程师或具有自然语言处理经验的数据科学家。然而，近年来，人工智能社区已经构建了让大众能够访问机器学习的出色工具。现在，你可以使用几行代码进行情感分析，而无需任何机器学习经验！🤯 在本指南中，您将学到使用Python进行情感分析的一切，包括：什么是情感分析？如何使用预训练的情感分析模型进行Python编程如何构建自己的情感分析模型如何使用情感分析分析推文让我们开始吧！🚀 1. 什么是情感分析？情感分析是一种自然语言处理技术，用于识别给定文本的极性。情感分析有不同的变体，但最常用的技术之一是将数据标记为积极、消极和中性。例如，让我们看一下这些提到 @VerizonSupport 的推文： “dear @verizonsupport your service is straight 💩 in dallas.. been with y’all…

Continue reading

Leave a Comment

使用Kili和HuggingFace AutoTrain进行意见分类

Published July 16, 2023 by 四海吧

介绍了解用户需求对于任何与用户相关的业务来说都是至关重要的。但这也需要大量的辛勤工作和分析，而这是非常昂贵的。为什么不利用机器学习呢？通过使用Auto ML，可以减少编码量。在本文中，我们将利用HuggingFace AutoTrain和Kili构建一个用于文本分类的主动学习流水线。Kili是一个通过质量训练数据创建的数据中心方法来赋能机器学习的平台。它提供了协作数据标注工具和API，使可靠的数据集构建和模型训练之间的快速迭代成为可能。主动学习是一个过程，其中您将标记的数据添加到数据集中，然后进行迭代地重新训练模型。因此，它是无限的，并且需要人类来标记数据。作为本文的一个具体示例用例，我们将使用来自Google Play Store的VoAGI用户评论来构建我们的流水线。然后，我们将使用我们构建的流水线对评论进行分类。最后，我们将对分类的评论应用情感分析。然后我们将分析结果，更容易理解用户的需求和满意度。使用HuggingFace进行自动训练自动化机器学习是指自动化机器学习流程的一个术语。它还包括数据清洗、模型选择和超参数优化。我们可以使用🤗 transformers进行自动化的超参数搜索。超参数优化是一个困难且耗时的过程。虽然我们可以通过使用transformers和其他强大的API自己构建我们的流水线，但也可以使用AutoTrain进行完全自动化。AutoTrain是建立在许多强大的API（如transformers、datasets和inference-api）之上的。数据清洗、模型选择和超参数优化步骤在AutoTrain中都是完全自动化的。可以充分利用这个框架为特定任务构建可供生产使用的SOTA转换器模型。目前，AutoTrain支持二分类和多标签文本分类、标记分类、抽取式问答、文本摘要和文本评分。它还支持英语、德语、法语、西班牙语、芬兰语、瑞典语、印地语、荷兰语等许多语言。如果您的语言在AutoTrain中不受支持，也可以使用自定义模型和自定义分词器。 Kili Kili是一个面向数据中心业务的端到端AI训练平台。Kili提供了优化的标注功能和质量管理工具来管理您的数据。您可以快速注释图像、视频、文本、pdf和语音数据，同时控制数据集的质量。它还具有用于GraphQL和Python的强大API，极大地简化了数据管理。它可在线或本地使用，并且可以在计算机视觉、自然语言处理和OCR上实现现代机器学习技术。它支持文本分类、命名实体识别（NER）、关系抽取等NLP/OCR任务。它还支持计算机视觉任务，如目标检测、图像转录、视频分类、语义分割等等！ Kili是一种商业工具，但您也可以创建一个免费的开发者帐户来尝试Kili的工具。您可以从定价页面了解更多信息。项目我们将以评论分类和情感分析为例，来了解一个移动应用程序的见解。我们从Google Play Store中提取了大约4万条VoAGI的评论。我们将逐步对此数据集中的评论文本进行标注。然后我们将构建一个评论分类的流水线。在建模过程中，第一个模型将使用AutoTrain准备。然后我们还将构建一个不使用AutoTrain的模型。项目的所有代码和数据集都可以在GitHub存储库中找到。数据集让我们首先看一下原始数据集，…

Continue reading

Leave a Comment

在Twitter上开始进行情感分析

Published July 15, 2023 by 四海吧

情感分析是根据文字数据的极性（如正面、负面和中性）自动分类的过程。公司利用推文的情感分析来了解客户对其产品和服务的讨论情况，获得洞察力以推动业务决策，并及早发现产品问题和潜在的公关危机。在本指南中，我们将介绍一切您需要学习的内容，以在Twitter上开始进行情感分析。我们将分享一种逐步进行情感分析的过程，适用于编码人员和非编码人员。如果您是编码人员，您将学习如何使用推断API，这是一个即插即用的机器学习API，可在几行代码中对推文进行情感分析。如果您不会编码，不用担心！我们还将介绍如何使用Zapier进行情感分析，这是一个无代码工具，可以帮助您收集推文，使用推断API对其进行分析，最后将结果发送到Google Sheets⚡️ 跟随教程或者直接跳到您感兴趣的部分：什么是情感分析？如何使用代码进行Twitter情感分析？如何在不编写代码的情况下进行Twitter情感分析？准备好了吗？开始享受这段旅程吧！🤗 什么是情感分析？情感分析使用机器学习自动识别人们对特定主题的讨论方式。情感分析最常见的用途是检测文本数据的极性，即自动确定推文、产品评论或支持票据是否对某个事物持积极、消极或中立的态度。举个例子，让我们看一些提到 @Salesforce 的推文，并看看它们如何被情感分析模型标记： “我使用 @salesforce 的时间越长，越讨厌它。它很慢，充满了错误。界面上的一些元素看起来好像自从2006年以来都没有更新过。目前的困扰是应用程序交换页面每隔10秒就会刷新” –> 这条推文将被标记为”负面”。 “这就是我喜欢 @salesforce 的原因。它关注关系，关心人们，不仅仅是业务和金钱。感谢您关心 #TrailblazerCommunity” –> 相比之下，这条推文将被分类为”积极”。 “回家了：#Dreamforce…

Continue reading

Leave a Comment

多变量概率时间序列预测与Informer

Published July 14, 2023 by 四海吧

介绍几个月前，我们介绍了时间序列变换器，它是将传统的Transformer（Vaswani等人，2017年）应用于预测，并展示了单变量概率预测任务的示例（即单独预测每个时间序列的一维分布）。在本文中，我们介绍了Informer模型（Zhou, Haoyi等人，2021年），这是AAAI21最佳论文，现在已经在🤗 Transformers中可用。我们将展示如何使用Informer模型进行多变量概率预测任务，即预测未来时间序列目标值的向量分布。需要注意的是，这也适用于传统的时间序列变换器模型。多变量概率时间序列预测就概率预测的建模而言，当处理多变量时间序列时，Transformer/Informer不需要进行任何更改。在单变量和多变量设置中，模型将接收一个向量序列，因此唯一的变化在于输出或发射方面。对于高维数据的完整条件分布建模可能会导致计算开销过大，因此方法会采用一些分布的近似方法，最简单的方法是将数据建模为来自同一族分布的独立分布，或者对完整协方差进行低秩近似等。在这里，我们只采用独立（或对角）发射，这在我们实现的分布族中是支持的。 Informer – 内部原理 Informer基于传统的Transformer（Vaswani等人，2017年），引入了两个主要改进。为了理解这些改进，让我们回顾一下传统Transformer的缺点：经典自注意力的二次计算：传统Transformer的计算复杂度为O(T^2D)，其中T是时间序列长度，D是隐藏状态的维度。对于长序列时间序列预测（也称为LSTF问题），这可能会导致计算开销非常大。为了解决这个问题，Informer采用了一种称为ProbSparse注意力的新的自注意机制，其时间和空间复杂度为O(T log T)。堆叠层时的内存瓶颈：当堆叠N个编码器/解码器层时，传统Transformer的内存使用量为O(NT^2)，这限制了模型处理长序列的能力。Informer使用了一种称为Distilling操作的方法，将层之间的输入大小减小到其一半。通过这样做，可以将整体内存使用量减小为O(N⋅T log T)。正如您所看到的，Informer模型的动机类似于Longformer（Beltagy等人，2020年），Sparse Transformer（Child等人，2019年）和其他自然语言处理论文，用于减少自注意机制的二次复杂度，特别是在输入序列较长时。现在，让我们深入了解ProbSparse注意力和Distilling操作，并附带代码示例。 ProbSparse注意力 ProbSparse的主要思想是经典自注意力分数形成了一个长尾分布，其中“活跃”的查询位于“头部”分数中，而“懒惰”的查询位于“尾部”区域中。通过“活跃”查询，我们指的是一个查询qi，使得点积⟨qi, ki⟩对主要注意力产生贡献，而“懒惰”的查询形成的点积生成的注意力是微不足道的。这里，qi和ki分别是Q和K注意力矩阵中的第i行。在理解“活跃”和“懒惰”查询的思想之后，ProbSparse注意力选择“活跃”查询，并创建一个缩减的查询矩阵Qreduced，用于在O(T log T)的时间内计算注意力权重。让我们通过代码示例更详细地了解这一点。…

Continue reading

Leave a Comment

使用Transformer进行图分类

Published July 13, 2023 by 四海吧

在之前的博客中，我们探讨了关于图机器学习的一些理论方面。这篇博客将介绍如何使用Transformers库进行图分类（您也可以通过下载演示笔记本来跟随这个过程！）目前，在Transformers中唯一可用的图转换模型是微软的Graphormer，所以我们将在这里使用它。我们期待看到其他人将会使用和整合哪些模型 🤗 要求要按照本教程操作，您需要安装datasets和transformers（版本>=4.27.2），您可以使用pip install -U datasets transformers来安装。数据要使用图数据，您可以从自己的数据集开始，或者使用Hub上提供的数据集。我们将重点介绍如何使用已有的数据集，但是您也可以随意添加您自己的数据集！加载从Hub加载图数据集非常简单。让我们加载”ogbg-mohiv”数据集（Stanford的Open Graph Benchmark中的一个基准数据集），该数据集存储在OGB仓库中： from datasets import load_dataset # Hub上只有一个分割 dataset = load_dataset(“OGB/ogbg-molhiv”) dataset…

Continue reading

Leave a Comment

Hugging Face面板

Published July 12, 2023 by 四海吧

我们非常高兴地宣布Panel和Hugging Face的合作！🎉我们在Hugging Face Spaces中集成了一个Panel模板，以帮助您开始构建Panel应用程序并轻松部署在Hugging Face上。 Panel提供了什么？ Panel是一个开源的Python库，让您可以轻松地使用Python构建强大的工具、仪表盘和复杂的应用程序。它采用了一种电池一体化的理念，让您可以轻松使用PyData生态系统、强大的数据表格等等。高级响应式API和较低级的回调式API确保您可以快速构建探索性应用程序，但如果您构建具有丰富交互性的复杂多页应用程序，也不会受到限制。Panel是HoloViz生态系统的一部分，是您进入数据探索工具连接生态系统的入口。Panel和其他HoloViz工具一样，是一个由NumFocus赞助的项目，并得到了Anaconda和Blackstone的支持。以下是我们的用户认为Panel的一些重要特点。 Panel对各种绘图库提供广泛的支持，如Matplotlib、Seaborn、Altair、Plotly、Bokeh、PyDeck、Vizzu等等。所有的交互在Jupyter和独立部署中都可以正常工作。Panel允许将组件从Jupyter笔记本无缝集成到仪表盘中，实现数据探索和共享结果之间的平滑过渡。 Panel赋予用户构建复杂的多页应用程序、高级交互特性、可视化大型数据集和流式实时数据的能力。与Pyodide和WebAssembly的集成使得Panel应用程序可以在Web浏览器中无缝执行。准备在Hugging Face上构建Panel应用程序了吗？请查阅我们的Hugging Face部署文档，点击此按钮，开始您的旅程： 🌐 加入我们的社区 Panel社区充满活力和支持，有经验丰富的开发人员和数据科学家热衷于帮助和分享他们的知识。加入我们并与我们联系： Discord Discourse Twitter LinkedIn Github

Leave a Comment

解码着装规范 👗：深度学习用于自动化时尚物品检测

Published July 12, 2023 by 四海吧

在充满活力的电子商务世界中，时尚行业就像是一个独立的T台但如果我们能够用深度学习的精确性来解读这个T台的着装规范，而不是凭借设计师的眼光，会怎样呢？

Continue reading

Leave a Comment

使用Python进行图像处理介绍

Published July 12, 2023 by 四海吧

欢迎回到我们图像处理系列的第二集的第三部分！在系列的前几部分中，我们讨论了傅里叶变换和白平衡技术，现在我们…

Continue reading

Leave a Comment

如何在没有经验的情况下成为一名数据分析师？

Published July 10, 2023 by 四海吧

介绍你知道吗？初级数据分析师每年可以赚取高达49,092美元的薪水。在当今数据驱动的世界中，数据分析的职业涵盖各个行业，为进入这个快速增长的领域提供了众多途径。数据是每个组织的主要决策工具。分析是战略规划的重要组成部分。本文旨在回答新手们常问的一个问题 – 如何在没有经验的情况下成为一名数据分析师！没有经验能成为数据分析师吗？当然可以！你可以通过获取必要的资格来追求数据分析师的角色，即使没有经验。以下几个因素使得数据岗位市场对初学者开放：缺乏数据专业知识：对数据专业人员的需求超过了目前的供应，为新人进入该领域创造了机会。强调可转移技能：数据分析重视可以从其他领域应用的技能，使个人能够利用现有的能力。市场快速增长：数据市场经历了指数级增长，增加了跨行业需要熟练专业人员的需求。企业依赖数据驱动的策略，招聘数据专家成为首要任务。通过投入精力、追求成长，并获取适当的培训资源，个人可以获得在这个充满活力的领域中取得成功所需的专业知识。如何在没有经验的情况下成为数据分析师？以下是您无经验地获得数据分析师工作的步骤指南： 1. 获得相关技能并非必须成为数据分析师才需要拥有相关学科的学位；然而，在统计学、数学或计算机科学方面拥有学位可能会有所帮助。您可以参加面对面的培训课程，观看视频教程，或者参加在线课程来增加您的数据专业知识。学习Python库，如Matplotlib和Seaborn，以及数据可视化应用程序，如Tableau、Power BI等。投入时间了解编程语言的语法、数据类型和相关的包。 2. 掌握数据工具通过实际的数据项目，您可以获得实践经验，并学习如何在实际环境中使用数据。您可以参与现有项目，或者利用一些免费提供的公共数据集建立自己的项目。尝试使用Excel进行数据处理，使用SQL进行数据库查询，以及使用SAS或SPSS等统计软件。有用的资源 – 10个带有源代码的最佳数据分析项目 SQL入门指南免费在线学习MS Excel…

Continue reading

Leave a Comment

通过物理信息引导的DeepONet运算符学习：让我们从零开始实现它

Published July 10, 2023 by 四海吧

普通微分方程和偏微分方程（ODEs / PDEs）是科学和工程中许多学科的基础，从物理学和生物学到经济学和气候科学它们是…

Continue reading

Leave a Comment

使用JAX入门

Published July 10, 2023 by 四海吧

JAX是由Google开发的Python库，用于在任何类型的设备（CPU、GPU、TPU等）上进行高性能数值计算JAX的主要应用之一是机器学习和…

Continue reading

Leave a Comment

使用信用卡交易数据掌握客户细分

Published July 10, 2023 by 四海吧

客户细分是根据历史购买模式识别客户群体的过程例如，可以涉及识别重复/忠诚客户、高消费客户等

Continue reading

Leave a Comment

使用自然语言处理（NLP）和引导法探索性别平等的研究

Published July 4, 2023 by 四海吧

介绍 NLP（自然语言处理）可以帮助我们理解大量的文本数据。不需要手动阅读大量文档，我们可以利用这些技术加快理解速度，快速获得主要信息。在这篇博文中，我们将深入探讨如何使用Python中的pandas数据框和NLP工具，通过使用Elicit，对在阿富汗进行性别平等研究时人们的写作内容有一个了解。这些见解可能有助于我们理解在过去几十年中，在一个被认为是对女性或女孩来说最困难的地方之一的国家，为促进性别平等所做的工作和未能取得的成果（世界经济论坛，2023年）。学习目标掌握处理CSV文件中的文本分析。了解如何在Python中进行自然语言处理。开发有效数据可视化的沟通技巧。深入了解阿富汗性别平等研究的演变。本文是数据科学博文马拉松的一部分。使用Elicit进行文献综述为了生成底层数据，我使用了Elicit，一款用于文献综述的AI工具（Elicit）。我让这个工具生成与问题“为什么阿富汗的性别平等失败了？”相关的论文列表。然后，我以CSV格式下载了结果列表（我考虑了150多篇论文的随机数量）。这些数据是什么样的？让我们来看一看！在Python中分析来自Elicit的CSV数据我们首先将CSV文件读入pandas数据框中： import pandas as pd #识别路径和CSV文件 file_path = ‘./elicit.csv’ #读入CSV文件 df = pd.read_csv(file_path) #CSV的形状…

Continue reading

Leave a Comment

Mann-Kendall趋势检验使用Python

Published July 3, 2023 by 四海吧

介绍曼-肯德尔趋势检验，以H.A.曼和D.R.肯德尔命名，是一种非参数检验方法，用于确定趋势是否随时间显著变化。趋势可以是随时间单调增加或单调减少的。由于这是一种非参数检验方法，所以我们不必担心数据的分布。但是数据不应该具有串联相关性/自相关性（时间序列中的误差项从一个时期转移到另一个时期）。曼-肯德尔检验旨在检测单调趋势，即随时间持续增加或减少的趋势，而不假设数据的特定分布。当处理可能不满足参数检验（如正态性）假设的数据时，它特别有用。本文是数据科学博客马拉松的一部分。样本量要求如果你有非常小的样本，比如3或4个，那么很有可能找不到任何趋势。随着时间的推移，我们拥有的样本越多，测试统计量的可靠性就越高。尽管测试也可以针对非常小的样本进行，但建议的数据量至少为10。测试目标在本文中，我们研究了火车出轨事故随时间的相关情况。奥迪沙最近的火车出轨事故再次对铁路安全提出了质疑。铁路事故可以按照事故类型进行分类（例如正面碰撞、尾部碰撞、爆炸、侧面碰撞、出轨、火灾等）。随着时间的推移，铁路在技术和基础设施方面有了许多改进。尽管现代化的进展已经到位，但世界各地的火车事故仍然很常见。火车事故是全球铁路系统中发生的不幸事件。这些事故可能导致生命损失、伤害和财产损失。在本研究中，我们将确定在印度，随着这些年所做的各种进步，我们是否能够减少火车事故（我们将研究事故类别中的出轨事故）。我们获得的有关印度出轨事故的数据是时间序列数据。我们拥有从2001年到2016年的出轨数据。数据按时间顺序排列。我们的数据从上表中，我们可以清楚地看到数据呈下降趋势。自2001年以来，出轨事故的数量大大减少。在2001年，我们有350起与出轨相关的事故，而在2016年减少到65起。由于数据是按顺序排列的，我们可以直接将其输入到Python环境中并进行处理。让我们在Python中绘制一个图来正确地可视化数据。 !pip install seaborn import seaborn as sns import matplotlib.pyplot as plt fig = plt.subplots(figsize=(20,…

Continue reading

Leave a Comment

数据科学是一个好的职业吗？

Published July 1, 2023 by 四海吧

介绍随着数据科学的日益突出和影响力，它已成为对于考虑自己职业发展方向的个人来说极具兴趣和魅力的主题。在一个数据生成、分析和利用呈指数增长的时代，一个问题出现了：数据科学是一个好的职业选择吗？通过探索数据科学的多方面特点、其在职业发展中的潜力以及其在各个行业中的相关性，人们可以辨别出使数据科学成为一种具有吸引力和良好的职业选择的巨大价值和前景。在本文中，我们将回答关于数据科学家是否是一份好工作以及数据科学是否是未来一个好的职业的问题。这些问题的答案将提供一个全面的了解，使人们能够了解到使数据科学成为一种可行和充实的职业选择的前景和机会。让我们开始吧！什么是数据科学？数据科学专注于利用各种科学方法、算法和程序从大量数据中提取知识。它帮助发现原始数据中隐晦的模式。数据科学可以将一个业务问题转化为一个研究项目，从而将其转化为一个真正的解决方案。许多人选择从事数据科学职业，因为它提供了许多职位和有吸引力的薪资。也可阅读：2023年成为数据科学家的逐步指南为什么选择数据科学？数据科学领域广泛而多样。这个领域对于寻找技术领域职业的专业人士来说有很多提供。这是一个薪资丰厚的职业选择，拥有很多发展机会。选择从事数据科学职业的一些原因包括：需求量大数据科学非常抢手。潜在雇员的机会很多。在LinkedIn上，这个职位的增长速度最快，并预计到2026年将新增1150万个工作岗位。因此，数据科学领域需求量大。可供选择的职位众多只有一些人具备成为合格数据科学家所需的技能组合。因此，数据科学相对于其他IT行业来说发展较少。因此，数据科学这个学科非常多样，并提供许多选择。数据科学家需求量大，但仍然需要更多的人才。薪资丰厚的职业数据科学领域属于高薪职业。根据Glassdoor的数据，数据科学家的平均年薪为116,100美元。因此，从事数据科学职业可以获得丰厚的回报。数据科学是一个灵活的领域数据科学有广泛的应用领域。它经常用于银行、医疗保健、咨询和电子商务等领域。数据科学领域非常多样。因此，您将能够在各种领域工作。数据科学的趋势和行业事实数据科学经历了显著的增长，并成为许多行业不可或缺的一部分。一些趋势和行业事实突显了数据科学作为职业选择的重要性和潜力。数据科学领域提供有吸引力的薪资待遇。根据Glassdoor的数据，美国数据科学家的平均薪资约为每年113,000美元。这种高收入潜力证明了数据科学技能和专业知识在就业市场中的价值。此外，数据科学在各个行业都有应用。从医疗保健和金融到市场营销和电子商务，各个行业的组织都依靠数据科学家提取有意义的见解并推动战略决策。例如，在医疗保健行业，数据科学用于分析患者数据并制定个性化治疗计划。同样，在市场营销中，数据科学有助于识别消费者趋势、针对特定受众并优化广告活动。这些趋势和行业事实表明，数据科学是一个蓬勃发展且备受追捧的职业道路，在各个领域有着广阔的发展和影响机会。数据科学职业的未来就职机会而言，数据科学有很多。经济学家预计到2026年全国将有超过1100万个工作岗位。事实上，自2019年以来，数据科学招聘增长了46％。尽管如此，截至2020年8月底，印度仍有约9.3万个空缺的数据科学岗位。因此，数据科学的潜力是不可否认的。在数据科学领域，除了数据科学家的角色外，还有许多工作选项，包括：数据分析师：他们使用数据分析工具分析数据，并与团队合作产生洞察和商业计划。数据管理员：数据库管理系统的管理、协调和运作是数据库管理员（DBA）的职责。…

Continue reading

Leave a Comment

如何在没有技术背景的情况下成为数据科学家：建议和策略

Published June 30, 2023 by 四海吧

这个故事与我通常发布的内容有些不同它不会是特定工具和技术的介绍，也不是教程或实际案例这一次，我想回答一个我一直…

Continue reading

Leave a Comment

最终的可视化助手

Published June 30, 2023 by 四海吧

当太阳开始变暗，城市灯光逐渐亮起，办公室里夜晚加班的无可避免感笼罩着我我发现自己正在与时间赛跑一场关键的销售演示即将来临…

Continue reading

Leave a Comment

使用Python分析北极冰趋势

Published June 27, 2023 by 四海吧

Python作为数据科学中卓越的编程语言，使得收集、清洗和理解测量数据变得容易使用Python，我们可以对预测进行回测，验证模型，并且…

Continue reading

Leave a Comment

Pandas 2.0：对数据科学家而言是一个改变游戏规则的转变吗？

Published June 27, 2023 by 四海吧

学习利用使Pandas 2.0在数据操纵方面如此高效的前5个特性，将您的数据科学技能提升到更高的水平！

Continue reading

Leave a Comment

如何使用最少的Python代码创建赛博朋克风格的Seaborn小提琴图

Published June 27, 2023 by 四海吧

小提琴图是一种常见的数据可视化方式，它将箱形图和密度图的功能融合在一个图中这使我们可以在一个图中呈现更多的信息对于…

Continue reading

Leave a Comment

谁是公民数据科学家，他们做什么？

Published June 26, 2023 by 四海吧

介绍在当今这个数据驱动的世界中，数据科学家的角色变得不可或缺。但是，如果我告诉你，你不需要拥有数据科学博士学位就能揭示隐藏在大量数据集中的奥秘，你会怎么想？这就是市民数据科学家时代的来临——一种新型的掌握技能和工具、能够发掘有价值见解的赋能个人群体，他们没有接受过正式培训。市民数据科学家是普通人，但他们有非凡能力，能够将数据转化为可行知识，从而彻底改变组织做决策的方式。在本文中，我们将探讨市民数据科学家的崛起、他们对企业的影响以及他们带来的激动人心的可能性。市民数据科学家是什么？市民数据科学家是没有接受过正式数据科学培训的个人，他们拥有分析数据和得出见解的技能和工具。他们利用自助式分析平台和直观的工具来探索数据、构建模型和做出数据驱动的决策，从而在组织内实现数据的民主化。为什么组织应该雇用他们？数据科学是一个广阔的领域，为组织带来了巨大的好处，市民数据科学家在发挥数据的力量方面起着至关重要的作用。以下是一些企业需要雇用他们的原因：简化数据分析：市民数据科学家被整合到各个部门或团队中，使他们能够应对特定的业务挑战和探索与其领域相关的数据。这导致了更深入的理解和更好的决策。填补鸿沟：他们具备领域专业知识以及对数据科学的扎实理解。这种组合使他们能够填补技术技能和行业知识之间的鸿沟，为数据分析提供上下文和见解。实时见解：凭借他们的领域专业知识和自动化分析工具的访问权限，市民数据科学家可以实时分析数据并为决策者提供快速见解。这使得组织能够迅速响应、抓住机遇并有效地减轻风险。力量倍增器：通过处理例行的数据分析任务，他们释放出数据科学家的时间，让他们专注于更复杂的挑战和战略性倡议。他们作为力量倍增器，支持多个团队，提高整体生产力。独特的视角：他们将自己丰富的经验和专业知识带入数据分析中，带来新鲜的视角和创新的问题解决方法。他们独特的见解经常会导致新的发现和改进的决策。灵活的实验：市民数据科学家具有探索不同方法论、修改模型和高效测试假设的灵活性。他们的适应性促进了创新，因为他们尝试各种分析方法，推动了各自领域内的进展。所需关键技能成为成功的市民数据科学家所需的技能集包括以下分析、技术和专业特定技能：市民数据科学家应该具备通过 Tableau、Power BI 或 Python 库（如 Matplotlib 或 Seaborn）等程序来解释和呈现数据的能力。他们必须具备基本的编程技能，以处理数据、应用统计方法和开发简单的机器学习模型。熟悉 Python…

Continue reading

Leave a Comment

使用Pandas进行Netflix股票的时间序列分析

Published June 23, 2023 by 四海吧

介绍数据的时间序列分析不仅仅是一堆数字，比如Netflix的股票。它是一张迷人的织锦，用Pandas编织着我们的世界的错综复杂的故事。就像一根神秘的线，它捕捉了事件的涨落、趋势的兴衰以及模式的出现。它揭示了隐藏的联系和相关性，塑造了我们过去的形象，并提供了对未来的一瞥。时间序列分析不仅仅是一种工具。它是通往知识和远见的门户。您将有能力解锁隐藏在数据时间织物中的秘密，将原始信息转化为有价值的见解。此外，它还能帮助您做出明智的决策，减轻风险并利用新兴机会。让我们一起踏上这个激动人心的冒险之旅，发现时间真正是理解我们的世界的关键。您准备好了吗？让我们一起潜入时间序列分析的迷人领域吧！学习目标我们的目标是介绍时间序列分析的概念，强调其在各个领域的重要性，并展示展示实际应用时间序列分析的真实世界示例。我们将通过展示如何使用Python和yfinance库导入Netflix股票数据来提供实际演示。这样读者将学习获取时间序列数据并为分析做准备的必要步骤。最后，我们将重点介绍时间序列分析中使用的重要Pandas函数，例如移位、滚动和重新采样，这些函数能够有效地操作和分析时间序列数据。本文是数据科学博客马拉松的一部分。什么是时间序列分析？时间序列是在连续、等间隔的时间间隔内收集或记录的数据点序列。时间序列分析是一种用于分析随时间收集的数据点的统计技术。它涉及研究顺序数据中的模式、趋势和依赖关系，以提取见解并进行预测。它涉及数据可视化、统计建模和预测方法等技术，以有效地分析和解释时间序列数据。时间序列数据的例子股票市场数据：分析历史股价以识别趋势和预测未来价格。天气数据：研究温度、降水和其他变量随时间的变化，以了解气候模式。经济指标：分析GDP、通货膨胀率和失业率等，以评估经济表现。销售数据：检查销售数据随时间的变化，以确定模式并预测未来销售额。网站流量：分析网站流量指标，以了解用户行为并优化网站性能。时间序列的组成部分时间序列有4个组成部分。它们是：趋势组成部分：趋势代表数据中的长期模式，以相对可预测的方式向上或向下移动。季节性组成部分：季节性是一种定期重复的模式，例如每日、每周、每月或每季度。周期性组成部分：周期性组成部分对应于遵循商业或经济周期的模式，其特点是增长和衰退的交替时期。…

Continue reading

Leave a Comment

PatchTST：时间序列预测的重大突破

Published June 22, 2023 by 四海吧

基于Transformer模型已经在自然语言处理（例如BERT或GPT模型）和计算机视觉等许多领域取得了成功应用然而，当涉及到时间时…

Continue reading

Leave a Comment

使用 Plotly 3D 表面图来可视化地质表面

Published June 22, 2023 by 四海吧

在地球科学中，了解地下存在的地质表面是至关重要的通过知道地层的确切位置和几何形状，可以…

Continue reading

Leave a Comment

从Python到Julia：基本数据操作和探索性数据分析

Published June 21, 2023 by 四海吧

作为统计计算领域中的新兴编程语言，Julia近年来越来越受到关注有两个特点使得Julia比其他语言更为优越…

Continue reading

Leave a Comment

使用 dtreeviz 创建惊人的决策树可视化

Published June 21, 2023 by 四海吧

能够可视化决策树模型对于模型的可解释性非常重要，可以帮助利益相关者对这些模型产生信任

Continue reading

Leave a Comment

做出预测：Python中线性回归的初学者指南

Published June 21, 2023 by 四海吧

学习最流行的机器学习算法——线性回归，了解其数学直觉和Python实现的所有内容

Continue reading

Leave a Comment

SRGANs：弥合低分辨率和高分辨率图像之间差距

Published June 20, 2023 by 四海吧

介绍想象一下，你在一个尘土飞扬的阁楼里发现了一本旧的家庭相册。你会立即清理灰尘，并充满兴奋地翻阅它的页面。你发现了一张很多年前的照片。但是，你看起来并不开心，因为这张照片已经模糊而且颜色已经褪色。你会竭尽全力去找到照片中的面孔和细节。这是在旧时代的场景。幸好，现在有了新技术。我们有超分辨率生成对抗网络（SRGAN），可以将低分辨率图像转换为高分辨率图像。在本文中，我们将学习最多关于SRGAN，并将其应用于QR码增强。来源：Vecteezy 学习目标在本文中，我们将学习：超分辨率及其与普通缩放的区别超分辨率的一些方法及其类型深入了解SRGAN，它们的损失函数、架构和一些应用使用SRGAN进行QR增强的实现以及详细描述本文是数据科学博客马拉松的一部分。什么是超分辨率？在许多犯罪调查电影中，我们经常遇到一个典型的情景，侦探会检查闭路电视录像以获取证据。有一幕场景，有人发现了一张小而模糊的图像，他们通过缩放和增强得到了清晰的图片。你觉得这可能吗？是的，我们可以通过超分辨率来做到这一点。超分辨率技术可以增强由闭路电视摄像机捕捉的模糊图像，从而为它们提供更详细的视觉效果。 ………………………………………………………………………………………………………………………………………………………….. ………………………………………………………………………………………………………………………………………………………….. 将图像进行放大和增强的过程称为超分辨率。它包括从相应的低分辨率输入生成图像或视频的高分辨率版本。其目标是恢复丢失的细节，提高清晰度并改善视觉质量。如果你只是放大图片而不进行增强，你会得到模糊的图片，如下图所示。增强是通过超分辨率实现的。它在许多领域中都有应用，包括摄影、监视系统、医学成像、卫星成像等。 ……….. 传统超分辨率方法传统方法主要集中于估计缺失的像素值和提高图像分辨率。有两种方法：基于插值的方法和基于正则化的方法。基于插值的方法在超分辨率的早期阶段，他们主要关注基于插值的方法，其目标是估计缺失的像素值，然后将图像放大。假设相邻的像素值将具有相似的像素值，并使用这些值来估计缺失的值。最常用的插值方法包括双三次插值、双线性插值和最近邻插值。但是结果不尽如人意。这导致了模糊的图像。这些方法计算高效，适用于基本的分辨率任务和计算资源有限的情况。基于正则化的方法另一方面，基于正则化的方法旨在通过将额外的约束或先验引入到图像重建过程中来改善超分辨率结果。这些技术利用图像的统计特征来增加重建图像的精度，同时保留细节。它提供了更多对重建过程的控制，并增强了图像的清晰度和细节。但是，这里存在一些限制，如处理复杂图像内容会导致在某些情况下过度平滑。尽管这些传统方法有一些限制，但它们为超分辨率强大的方法的出现铺平了道路。来源：Rapid API…

Continue reading

Leave a Comment

使用 RAPIDS cuDF 利用 GPU 进行特征工程

Published June 19, 2023 by 四海吧

通过在创建数据框和特征工程中使用cuDF替换Pandas，并与Google Colab集成，提高性能

Continue reading

Leave a Comment

Can't find what you're looking for? Try refining your search:

Web Analytics