Press "Enter" to skip to content

Tag: Python

如何在不依赖OpenAI或LM Studio的情况下使用AutoGen?

介绍 你准备好了吗,要在没有依赖OpenAI和LM Studio的情况下创建你的AI团队了吗?不再需要花大钱或下载应用程序。从设置llama-cpp-python到使用autogen框架探索本地LLM的强大功能。准备好在不依赖OpenAI API的情况下发挥Autogen的全部潜力了吗。 学习目标 在我们深入了解细节之前,让我们概述本文的关键学习目标: 学习如何评估和比较不同的AI库和工具。 探索llama-cpp-python作为OpenAI API的替代方案。 将所获知识应用于两个真实世界的用例:构建算法导师团队和自动化财务图表生成。 通过集成的IPython探索AutoGen改进的用户体验,实时执行代码并看到结果。 本文是数据科学博客马拉松的一部分。 认识你的工具:Llama-cpp-python,AutoGen和本地LLMs 但是你可能会问,这个技术工具包有什么特别之处?Llama-cpp-python是你在本地运行LLMs的入口,包括像LLaMA这样的大牌。就像你的电脑上有AI超级明星,而且支持不同的BLAS后端,速度超乎想象! AutoGen AutoGen是一个统一的多代理对话框架,作为使用基础模型的高级抽象。它结合了能力强大、可定制和可对话的代理,通过自动对话集成LLMs、工具和人类参与者。它使代理能够自主沟通和协作,有效地简化复杂任务并自动化工作流程。 如果你渴望深入了解AutoGen的能力,并探索它如何促进战略性的AI团队建设,不妨看看我们专门的博客:“借助AutoGen轻松实现战略性AI团队建设。”这个综合资源提供了见解、用例和更详细的介绍,展示了AutoGen如何改变你的AI开发方式。 库/工具 一些库/工具提供了一个Web服务器,旨在替代OpenAI API。 除了上述选项,还有其他选择,但最佳选择取决于你的偏好和需求。 Llama-cpp-python Llama-cpp-python是llama.cpp库的Python绑定。它通过ctypes接口提供对C API的低级访问,提供了高级Python API用于文本补全、类似OpenAI的API和LangChain兼容性。它支持多个BLAS后端以加快处理速度,也支持硬件加速。…

Leave a Comment

小型语言模型在本地CPU上的逐步指南

介绍 在自然语言处理中,语言模型经历了一段变革性的旅程。虽然人们通常关注像GPT-3这样的庞大模型,但小型语言模型的实用性和可访问性不容小觑。本文是一个全面的指南,旨在理解小型语言模型的重要性,并详细介绍如何在本地CPU上运行它们的步骤。点击这里。 图片来源:Scribble Data 理解语言模型 语言模型的定义 语言模型本质上是一个设计用于理解和生成类似人类语言的系统。在数据科学领域,这些模型在聊天机器人、内容生成、情感分析和问答等任务中发挥关键作用。 不同类型的语言模型 尽管小型语言模型体积较小,但具有独特的优势。它们高效、快捷、可定制用于特定领域任务,并通过在本地CPU上运行保护数据隐私。 在数据科学中使用语言模型的案例 它们的多功能应用体现在各种数据科学应用中。应用范围涵盖具有高日常流量的实时任务,并满足特定领域需求的复杂性。 通过实践学习提升生成式人工智能能力。通过我们的GenAI Pinnacle计划,发现向量数据库在高级数据处理中的奇迹! 在本地CPU上运行小型语言模型的步骤 步骤1:设置环境 成功在本地CPU上运行语言模型的基础在于建立正确的环境。这包括安装必要的库和依赖项。比较流行的基于Python的库有TensorFlow和PyTorch,它们提供了用于机器学习和深度学习的预建工具。 所需工具和软件 Python TensorFlow PyTorch 我们可以使用Python的虚拟环境来实现这个目的: pip install virtualenvvirtualenv myenvsource…

Leave a Comment

10个数据科学家都应该掌握的有用的Python技能

介绍 Python是一种多功能且强大的编程语言,对于数据科学家和分析师来说,它在工具包中扮演着核心角色。它的简洁和可读性使其成为处理数据的首选,无论是执行最基本的任务还是应用最前沿的人工智能和机器学习。无论您是刚开始数据科学之旅还是希望提升数据科学家的技能,本指南将为您提供使用Python进行数据驱动项目的知识和工具,助您发掘Python的全部潜力。让我们踏上这段揭示数据科学领域的Python基础知识之旅吧。 所有数据科学家应掌握的有用Python技能 数据科学是一门不断发展的学科,Python已成为数据科学家的核心语言之一。要在这个领域脱颖而出,掌握特定的Python技能至关重要。以下是每个数据科学家都应掌握的十个基本技能: Python基础知识 了解Python的语法:Python的语法以其简洁和可读性而闻名。数据科学家必须掌握基础知识,包括正确的缩进、变量赋值以及循环和条件结构等控制结构。 数据类型:Python提供了多种数据类型,包括整数、浮点数、字符串、列表和字典。了解这些数据类型对于处理和操作数据至关重要。 基本操作:熟练掌握算术、字符串操作和逻辑运算等基本操作是必要的。数据科学家使用这些操作来清洗和预处理数据。 数据操控与分析 熟练使用Pandas:Python的Pandas库提供了各种函数和数据结构,用于数据操控。数据科学家使用Pandas可以高效地从多个来源加载数据,包括CSV文件和数据库。这使他们能够高效地访问和处理数据。 数据清洗:Python与Pandas相结合,为数据清洗提供了强大的工具。数据科学家可以使用Python处理缺失值,删除重复记录,以及识别和处理异常值。Python的多功能性简化了这些关键的数据清洗任务。 数据变换:Python对于数据变换任务至关重要。数据科学家可以利用Python进行特征工程,即从现有数据中创建新的特征以提高模型性能。此外,Python还允许进行数据标准化和缩放,确保数据适用于各种建模技术。 探索性数据分析(EDA):Python和Matplotlib、Seaborn等库对于进行探索性数据分析(EDA)至关重要。数据科学家使用Python执行统计和可视化技术,揭示数据的模式、关系和异常值。EDA为假设的制定提供了基础,并帮助选择适当的建模方法。 数据可视化 Matplotlib和Seaborn:Python的Matplotlib库提供了各种自定义选项,允许数据科学家根据需要创建定制的可视化图形。包括调整颜色、标签和其他视觉元素。Seaborn简化了创建美观的统计可视化图形的过程。它增强了默认的Matplotlib样式,使得创建视觉吸引力的图表更加容易。 创建引人注目的图表:Python借助Matplotlib和Seaborn等工具赋予数据科学家开发各种图表的能力,包括散点图、条形图、直方图和热力图等。这些可视化图形是呈现数据驱动的洞察、趋势和模式的强大工具。此外,有效的数据可视化对于使复杂数据更易于理解和消化对于利益相关者而言至关重要。可视化呈现可以比原始数据更快速而全面地传达信息,有助于决策过程。 传达复杂洞察:数据可视化对于通过视觉方式传达复杂洞察至关重要。Python在这方面的能力简化了对发现的沟通,使非技术相关的利益相关者能够更容易理解和解释数据。通过将数据转化为直观的图表和图形,Python允许以引人注目的方式讲述数据的故事,有助于推动决策制定、报告生成和有效的数据驱动通信。 数据存储与检索 多样的数据存储系统:Python提供了与各种数据存储系统进行交互的库和连接器。对于像MySQL和PostgreSQL这样的关系型数据库,像SQLAlchemy这样的库可以简化数据访问。像PyMongo这样的库允许数据科学家使用NoSQL数据库(如MongoDB)进行工作。此外,Python可以通过像Pandas这样的库处理存储在平面文件(如CSV、JSON)和数据湖中的数据。 数据检索:数据科学家使用Python和SQL从关系型数据库(如MySQL和PostgreSQL)中检索数据。Python的数据库连接器和ORM(对象关系映射)工具简化了执行SQL查询的过程。 数据集成:Python在集成来自不同来源的数据的“提取、转换、加载(ETL)”过程中起到关键作用。像Apache Airflow这样的工具和像Pandas这样的库可以实现数据转换和加载任务。这些过程确保来自不同存储系统的数据统一到一个一致的格式中。 人工智能和机器学习 机器学习库:Python的scikit-learn库是机器学习的基石。它提供了许多用于分类、回归、聚类、降维等机器学习算法。Python的简洁性和scikit-learn库的用户友好的API使其成为数据科学家的首选。使用scikit-learn可以高效、有效地构建预测模型。 深度学习框架:深度学习框架TensorFlow和PyTorch在解决复杂的人工智能问题中起到关键作用。Python是TensorFlow和PyTorch的主要编程语言。这些框架提供了预建模型、广泛的神经网络架构和构建自定义深度学习模型的丰富工具。Python的灵活性和这些框架的能力对于图像识别、自然语言处理等任务至关重要。…

Leave a Comment

如何通过动态定价来优化收入?

介绍 Uber/Ola高峰时段的价格比普通车费要高。在IRCTC中,随着预订率的增加,Rajdhani的价格也会增加,在亚马逊中,同一产品的价格会多次变动。是谁决定何时改变这些价格,以及在何种程度上改变?是谁决定在合适的时间定出合适的价格?这些问题的答案都属于动态定价的范畴。本文为初学者提供了一些资源和理论知识,帮助他们构建一个基本的动态定价算法。 学习目标 了解定价的基本知识和不同的定价方法 深入探讨动态定价、优缺点、方法、应用案例等 掌握基本的收入管理知识 使用Python实现一个简单的动态定价算法以最大化收入 本文是作为数据科学博览会的一部分发表的。 何为‘价格’? 2023年8月,洋葱的价格是每公斤120卢比。是什么导致了这个价格?供应因外部环境因素而紧缺,需求保持稳定。市场、买家、卖家、需求和供应共同决定了价格。对于我们今天购买和销售的大多数产品也是如此:电影票、公交车票、电子商务、燃料等。 在价格理论中,需求和供应决定了商品和服务的交易价格。当消费者为商品和服务支付的金额与生产的边际成本相一致时,我们实现了最优市场价格,也称为需求和供应之间的均衡点。在正确的时间定出合适的价格对于业务增长至关重要。因此,定价经理们致力于接近“正确的价格”,这可以通过数据和分析来实现。 影响定价的因素 组织因素:产品库存可用性、预算限制 市场营销组合:产品生命周期阶段、产品、价格、渠道和促销 产品成本:生产成本和原材料成本 产品需求:对产品或服务的需求 市场竞争:竞争对手的定价在很大程度上决定了内部定价 何为动态定价? 动态定价使用最近的趋势、实时客户行为、供需情况和竞争定价来评估所售商品的价格。它允许商品以不同的价格销售,以满足客户满意度并使企业发展壮大。 当需求具有弹性时,采用动态定价策略。当需求不弹性或完全不弹性时,不能采用动态定价策略。当消费者对价格变化非常敏感时,需求的价格弹性很高,这一特性可以通过动态定价来利用。 例如,在班加罗尔,某个时刻和特定地点只有一辆汽车三轮车,而且是一个下雨天,愿意支付更高价格(是每公里费用的两倍或三倍 – 弹性价格)的客户将得到那辆汽车,而不愿意妥协的其他客户将不得不乘坐BMTC公交车,其价格保持恒定(不可弹性)。 动态定价的目标是什么? 增加利润、收入、灵活性、市场份额和客户满意度。…

Leave a Comment

“Doctran和LLMs:分析消费者投诉的强大组合”

引言 在如今竞争激烈的市场中,企业努力理解并有效解决消费者投诉。消费者投诉可以揭示各种问题,包括产品缺陷、差劲的客户服务、计费错误和安全问题。它们在企业和客户之间的反馈(关于产品、服务或体验)循环中发挥着关键作用。分析和理解这些投诉可以为产品或服务改进、客户满意度和整体业务增长提供宝贵的见解。在本文中,我们将探讨如何利用Doctran Python库来分析消费者投诉,提取见解并做出数据驱动的决策。 学习目标 在本文中,您将: 了解Doctran Python库及其主要功能 了解Doctran和LLMs在文档转换和分析中的作用 探索Doctran支持的六种文档转换类型,包括提取、删除、询问、精炼、总结和翻译 全面了解将消费者投诉的原始文本数据转化为可行动见解的方法 了解Doctran的文档数据结构,使用ExtractProperty类来定义提取属性的模式 本文作为数据科学博客马拉松的一部分发布。 Doctran Doctran是一种先进的Python库,用于文档转换和分析。它提供了一组函数来预处理文本数据,提取关键信息,分类,询问,总结信息,并将文本翻译成其他语言。Doctran利用OpenAI GPT型模型和开源NLP库等LLMs(大型语言模型)对文本数据进行解析。 它支持以下六种类型的文档转换: 提取:从文档中提取有用的特征/属性。 删除:在将数据发送给OpenAI之前,从文档中删除个人可识别信息(PII),如姓名、电子邮件地址、电话号码等。它在内部使用spaCy库删除敏感信息。 询问:将文档转换为问答格式。 精炼:从文档中消除与预定义主题无关的任何内容。 总结:将文档表示为简洁、全面且有意义的摘要。 翻译:将文档翻译成其他语言。 该集成还可在LangChain框架的document_transformers模块中使用。LangChain是一个先进的构建LLM支持应用程序的框架。 LangChain提供了灵活性,可以探索和利用各种开源和闭源的LLM模型。它无缝连接到多样化的外部数据源,如PDF、文本文件、Excel电子表格、PPT等。它还支持尝试不同的提示,进行提示工程,利用内置的链式和代理,等等。 在Langchain的document_transformers模块中,有三种实现:DoctranPropertyExtractor、DoctranQATransformer和DoctranTextTranslator。它们分别用于提取、询问和翻译文档转换。…

Leave a Comment