Press "Enter" to skip to content

Tag: plot

《PandasAI全面指南》

介绍 生成式人工智能(Generative AI)和大型语言模型(Large Language Models,LLMs)给人工智能和机器学习带来了新的时代。这些大型语言模型被用于不同领域的各种应用,并且开启了人工智能的新视角。这些模型在全球范围内的大量文本数据上进行训练,可以以人类一样的方式生成文本。最著名的LLM示例是由OpenAI开发的ChatGPT,它可以执行各种任务,从创作原创内容到编写代码。在本文中,我们将探讨LLMs的一个应用:PandasAI库。PandasAI指南可以被视为Python流行的Pandas库和OpenAI的GPT之间的融合。它非常强大,可以在不编写太多代码的情况下从数据中快速获取洞察。 学习目标 了解Pandas和PandasAI之间的区别 了解PandasAI在数据分析和可视化中的作用 使用PandasAI构建完整的探索性数据分析工作流程 了解编写清晰、简明和具体提示的重要性 了解PandasAI的限制 本文作为”数据科学博文马拉松”的一部分发布。 PandasAI PandasAI是一个使数据分析和可视化任务更加简单的新工具。PandasAI是基于Python的Pandas库构建的,并在其工作中使用生成式人工智能和LLMs。与Pandas不同,您不需要手动分析和处理数据,PandasAI允许您通过提供文本提示来从数据中生成洞察。就像给您的助手下指示一样,他们熟练并能够快速完成工作。唯一的区别是,它不是人类,而是一台机器,可以像人类一样理解和处理信息。 在本文中,我将使用代码示例和解释来回顾使用PandasAI进行完整的数据分析和可视化过程。那么,让我们开始吧。 建立OpenAI帐户并提取API密钥 要使用PandasAI库,您必须创建一个OpenAI帐户(如果您还没有),并使用您的API密钥。可以按照以下步骤进行操作: 访问https://platform.openai.com并创建一个个人帐户。 登录您的帐户。 在右上方点击个人。 从下拉菜单中选择查看API密钥。 创建一个新的密钥。 将密钥复制并存储到您计算机上一个安全的位置。 如果您按照上述步骤操作,那么您已经可以在项目中利用生成式人工智能的强大功能。 安装PandasAI…

Leave a Comment

分类和定位各种形式的性骚扰

介绍 您知道性骚扰普遍性的不可避免事实是由于低报告率吗?如果受害者不报告他们经历的骚扰,那么当局如何指导人们避免受到骚扰,罪犯的行为如何改变?分类和定位各种形式的性骚扰案例研究有助于受害者以匿名方式表达自己的经历,并有助于分类受害者经历的各种类型的性骚扰,以便快速评估分类以进行证言文件的归档,并且这也有助于通过考虑已经提交的论坛的分析来提供安全预防措施。 这些安全预防措施通过提供已在该地区提交的大多数类型的性骚扰的普遍位置和罪犯的行为来为个人提供头绪。从上述预测中,个人将受益匪浅,因为它们提供见解并创造有关事件情况的意识。 学习目标 预测社会上各种骚扰的多标签分类 在数据集上使用自然语言处理技术 迭代传统的机器学习算法 实施卷积神经网络 本博客讨论了应用这些方法来解决与骚扰相关的问题 本文是数据科学博客马拉松的一部分。 业务问题 这里将受害者的故事分成三种性骚扰类型,即我们将其转换为多标签分类,因为受害者可能同时面临一种或多种性骚扰。 业务限制 由于我的案例研究是多标签分类,因此误分类不再是一个严格的对错。包含实际类别子集的预测应该被视为比不包含任何类别的预测更好,即正确预测三个标签中的两个比完全没有预测更好。我们没有任何严格的延迟问题。解释性非常重要,因为它有助于找到为什么将故事分类为一种骚扰类型。 数据集描述 数据收集自safecity在线论坛和WIN World Survey(WWS)市场研究和民意调查调查,用于收集性骚扰流行国家的数据。数据集包含两个特征。特征1-包含受害者的故事(说明),特征2包含事件发生的地理位置(位置)。 我们的类标签是多标签分类,其中包含受害者经历的三种性骚扰类型(评论、注视和触摸)。 性能度量 对于多标签分类,实例的预测是一组标签,因此,我们的预测可以完全正确、部分正确或完全不正确。这使得多标签分类器的评估比单标签分类器的评估更具挑战性。但是,对于部分正确性的评估,我们可以使用以下指标进行评估。 准确率-这里,一个实例的准确率被计算为预测正确标签与标签的总数(预测和实际)的比例。可以通过所有实例的平均值来获得整体准确性。 这些指标可以在各个类标签上计算,然后平均所有类别。这称为宏平均。或者,我们可以在所有实例和所有类标签上全局计算这些指标。这称为微平均。 我们使用宏F1分数和微F1分数作为多标签分类的指标。 汉明损失用作多标签分类的度量,该度量计算不正确预测的标签与标签的总数的比例。…

Leave a Comment