Press "Enter" to skip to content

Category: 数据科学

70%的开发者今天拥抱人工智能:深入研究大型语言模型、LangChain和向量数据库在当前技术领域的崛起

人工智能具有无限的可能性,这在其引入每个人的新产品和发展中显而易见。随着OpenAI开发的最新聊天机器人ChatGPT的发布,由于其GPT的变压器架构,AI领域已经席卷全球。从深度学习、自然语言处理(NLP)和自然语言理解(NLU)到计算机视觉,AI正将每个人推向一个拥有无尽创新的未来。几乎每个行业都在利用AI的潜力并进行革命性的改变。特别是在大规模语言模型(LLMs),LangChain和向量数据库等领域的卓越技术进步,是这一显著发展的原因。 大规模语言模型 大规模语言模型(LLMs)的发展代表了人工智能的一大步进。这些基于深度学习的模型在处理和理解自然语言时表现出令人印象深刻的准确性和流畅性。LLMs通过从各种来源(包括书籍、期刊、网页和其他文本资源)获取大量文本数据进行训练。它们通过学习语言来获取语言结构、模式和语义链接,从而帮助它们理解人类交流的复杂性。 LLMs的基本架构通常涉及具有多层的深度神经网络。根据训练数据中发现的模式和连接,该网络分析输入文本并生成预测。为了减少模型预期输出和预期输出之间的差异,模型的参数在训练阶段进行调整。LLM在训练过程中消耗文本数据,并试图根据上下文预测下一个单词或一系列单词。 LLMs的应用 回答问题:LLMs擅长回答问题,并通过搜索大量的文本语料库(如书籍、论文或网站)来提供精确而简洁的回答。 内容生成:LLMs在涉及内容生成的活动中证明了其有用性。它们能够生成语法正确、连贯的文章、博客条目和其他书面内容。 文本摘要:LLMs在文本摘要方面表现出色,能够在将冗长的文本压缩为更短、更易消化的摘要时保留重要信息。 聊天机器人:LLMs经常被用于创建聊天机器人和使用对话式AI的系统。它们使得这些系统能够用正常语言与用户进行交互,理解他们的问题并适当地回答,并在整个交互过程中保持上下文。 语言翻译:LLMs能够准确地在不同语言之间进行文本翻译,克服语言障碍,促进成功的交流。 训练LLMs的步骤 训练LLMs的初始阶段是编制一个庞大的文本数据集,模型将使用该数据集来发现语言模式和结构。 一旦收集到数据集,就需要进行预处理,以便为训练做准备。为此,必须通过删除任何不必要或冗余的条目来清理数据。 选择适当的模型架构对于训练LLMs至关重要。基于变压器的架构已经显示出在处理和生成自然语言方面非常高效,包括GPT模型。 使用反向传播等深度学习方法调整模型的参数来训练LLMs,并提高其准确性。模型在训练过程中处理输入数据并基于识别出的模式生成预测。 在初始训练之后,LLMs将进一步在特定任务或领域上进行微调,以提高其在这些领域的性能。 为了评估经过训练的LLMs的性能,使用多种指标(包括困惑度和准确性)来评估模型的性能。 经过训练和评估后,LLMs将在实际应用中的生产环境中使用于实际应用。 一些著名的语言模型 GPT(Generative Pre-trained Transformer)是OpenAI的GPT模型系列的重要成员,也是知名的ChatGPT的底层模型。它是一个仅解码器的单向自回归模型,通过根据先前生成的单词预测下一个单词来生成文本。GPT拥有1750亿个参数,广泛用于内容生成、问题回答等方面。 BERT – 双向Transformer编码器表示(BERT)是最早的基于Transformer的自监督语言模型之一。它是一个强大的模型,用于理解和处理自然语言,具有3.4亿个参数。…

Leave a Comment

微软研究员提出了一种新的框架,使用帕累托最优自监督而无需使用标记的训练数据来进行LLM校准

近期的发展使得大型语言模型(LLM)的能力显著增强,生成式预训练转换器(GPT)模型显示出了重要的潜力。从GPT-3到GPT-4的转变,以及PaLM和LLaMA等其他LLM的出现,都展示了在问题解决和自然语言理解技能方面的显著改进。此外,生成模型经常用于各个领域以生成不同应用的数据。当LLM用于需要高精度和可靠性的应用领域,如生物和医疗领域时,幻觉问题仍然是一个重大障碍。 不幸的是,目前没有系统的技术可用于准确检测幻觉或衡量输出的置信水平。特别是在使用强化学习与人类输入之后,生成LLM的内在置信度分数有时无法获得或无法有效校准以达到预期目标。启发式技术计算成本高,并受制于LLM本身的偏见,例如对LLM答案集进行采样。评估LLM回复的置信度程度的方法大致可分为两个基本类别。在第一种方法中,通过多种方式激励LLM生成多个回复,然后利用这些回复推断答案的可靠性。 自一致性和思维链激励是两个例子。这些技术不太定量,并且容易受到模型引起的偏见的影响。目前还没有标准化的测量方法,但提示技术可能对结果的质量产生重大影响。第二类选择借助外部数据源,例如雇用人工审核员验证答案或使用大量标记数据创建评估模型。目前监督模型训练的主要障碍之一是这些技术需要广泛的手动注释工作。在这方面,自我监督提供了一种可行的选择,因为它可以灵活地使用数据模式和超越常规的专业知识。 微软的研究人员在这项研究中提供了一个灵活的框架,利用帕累托最优学习将LLM响应数据和监督数据混合在一起。他们受到了程序化监督和帕累托优化研究的早期工作的启发。以下直觉指导了他们的策略。为了防止LLM自身评判的偏见,需要与LLM独立的外部监督数据源。其次,将LLM的错误视为对黄金标签的噪声扰动。当模型同时适应LLM噪声和独立的外部噪声时,实际上进行了隐式标签平滑处理,从而增强了校准能力。 在这方面,帕累托最优自我监督为整合两者提供了一个有用的框架。值得注意的是,所提出的方法只需要无标签数据,因此适用于注释成本较高的领域。他们通过帕累托最优自我监督对LLM进行校准的独特方法是该论文的关键创新。他们建议使用帕累托最优学习评估风险(POLAR)分数来计算LLM错误的可能性。他们在四个不同的自然语言处理任务上展示了实验结果,并证明所提出的POLAR分数与在黄金标签上评估的LLM错误率显著相关。他们展示了在高风险情况下通过POLAR分数确定的动态提示策略下,LLM的性能得到了提升。在不使用任何人工标记的训练数据的情况下,他们展示了他们的方法如何消除LLM的错误并提高GPT-4基线性能,超过最先进的监督模型。

Leave a Comment

论文摘要:使用GAN和DP的混合方法来保护IIoT数据的隐私

在处理工业物联网(IIoT)数据时,匿名化是一个重要问题。机器学习(ML)应用程序需要解密数据以有效执行任务,这意味着参与数据处理的第三方可能可以访问敏感信息。这对于生成数据的公司来说,存在隐私泄露和信息泄露的风险。因此,由于这些问题,公司在与第三方共享他们的IIoT数据时持怀疑态度。 解决匿名化问题的现有技术包括加密、同态加密、密码学技术和分布式/联邦学习等各种方法。然而,这些方法在计算成本、ML模型的可解释性和对网络攻击的脆弱性方面存在限制。此外,现有的隐私保护技术通常在隐私和准确性之间存在权衡,高度的隐私保护会导致ML模型准确性的显著损失。这些挑战阻碍了IIoT数据隐私的有效和高效保护。 在这种情况下,土耳其卡迪尔·哈斯大学的研究团队提出了一种将生成对抗网络(GAN)和差分隐私(DP)相结合的新方法,以保护IIoT操作中的敏感数据。这种混合方法旨在以最小的准确性损失和较低的附加计算成本实现隐私保护。GAN用于生成敏感数据的合成副本,而DP引入随机噪声和参数来维护隐私。该方法使用公开可用的数据集和从糖果制造过程中收集的现实IIoT数据集进行了测试。 作者提出了一种针对IIoT环境的混合隐私保护方法。他们的方法包括两个主要组件:GAN和DP。 GAN:他们使用GAN,具体来说是条件表格GAN(CTGAN)方法,来创建原始数据集(XO)的合成副本(XG)。GAN学习数据的分布并生成具有类似统计特性的合成数据。 DP:为了增强隐私保护,他们向数据中的敏感特征添加了来自拉普拉斯分布的随机噪声。这种技术在保持数据的整体概率分布的同时保护隐私。 该方法涉及以下步骤: 使用GAN创建合成数据集。 替换敏感特征。 通过添加随机噪声应用差分隐私。 生成的数据集在保护隐私的同时,可以用于机器学习分析,而不会泄露敏感信息。算法的复杂性取决于敏感特征的数量和数据集的大小。作者强调,他们的方法确保了IIoT数据的整体隐私保护。 本文进行的评估包括进行实验,测试提出的混合方法用于隐私保护数据合成和预测。实验是在四个SCADA数据集上进行的:风力涡轮机、蒸汽生产、能源效率和同步电机。实验使用了CTGAN合成数据生成和差分隐私(DP)技术。评估标准包括使用R平方度量准确性和使用六个隐私指标度量隐私保护。结果显示,所提出的混合方法实现了比其他方法(如CTGAN和DP)更高的准确性和隐私保护。实验还测试了所提出方法在具有隐藏敏感特征的数据集上的性能,并展示了它保护此类敏感数据的能力。 总之,本文提出了一种新颖的混合方法,将GAN和DP相结合,以解决工业物联网(IIoT)数据的匿名化问题。所提出的方法包括使用GAN创建合成数据集,并通过向敏感特征添加随机噪声应用DP。评估结果表明,所提出的混合方法实现了比其他方法更高的准确性和隐私保护。这种方法为在IIoT环境中保护敏感数据提供了有希望的解决方案,同时最小化了准确性损失和计算成本。

Leave a Comment

认识ToolQA:一个评估大型语言模型(LLMs)使用外部工具进行问答能力的新数据集

大型语言模型(LLMs)在自然语言处理(NLP)和自然语言理解(NLU)领域已被证明非常有效。著名的LLMs如GPT,BERT,PaLM等被研究人员用于为教育、社交媒体、金融和医疗保健等各个领域提供解决方案。通过大规模数据集的训练,这些LLMs获得了大量的知识。LLMs在问题回答、内容生成、文本摘要、语言翻译等方面显示出了能力。尽管LLMs最近展示了令人印象深刻的能力,但在生成合理且无根据的信息以及在数值推理方面存在困难。 最近的研究表明,将LLMs与外部工具(包括检索增强、数学工具和代码解释器)相结合是克服上述挑战的更好方法。评估这些外部工具的有效性存在困难,因为当前的评估方法需要帮助确定模型是否仅仅是回忆预训练信息,还是真正利用外部工具进行问题解决。为了克服这些限制,来自佐治亚理工学院计算学院的研究团队引入了ToolQA,这是一个用于问题回答的基准测试,用于评估LLMs在使用外部资源方面的熟练程度。 ToolQA包含来自八个领域的数据,并定义了13种可以从外部参考语料库中获取信息的工具类型。每个ToolQA实例中都包含一个问题、一个答案、参考语料库和可用工具列表。ToolQA的独特之处在于,所有问题只能通过使用适当的工具从参考语料库中提取信息来回答,从而最大程度地减少LLMs仅基于内部知识回答问题的可能性,并允许对其工具利用能力进行忠实评估。 ToolQA涉及三个自动化阶段:参考数据收集、人工引导的问题生成和程序化答案生成。在第一阶段,从不同领域收集各种类型的公共语料库,包括文本、表格和图表,作为基于工具的问题回答的参考语料库。在第二阶段,创建只能通过工具而不是参考语料库解决的问题。这是通过基于模板的问题生成方法实现的,该方法还涉及使用工具属性进行问题实例化和人工引导的模板制作和验证。第三阶段为生成的问题提供准确的答案,实现与工具对应的运算符,并从参考语料库中以程序化方式获取答案。 团队使用标准LLMs和工具增强的LLMs回答ToolQA中的问题进行了实验。结果显示,仅依赖内部知识的LLMs(如ChatGPT和Chain-of-thoughts prompting)的成功率较低,易问题约为5%,难问题约为2%。另一方面,通过使用外部工具,工具增强的LLMs(如Chameleon和ReAct)表现更好,易问题的最佳表现为43.15%,难问题为8.2%。 结果和错误分析显示,ToolQA对于当前的工具增强的LLM方法来说是一个具有挑战性的基准测试,尤其对于需要更复杂的工具组合推理的困难问题。这是人工智能发展中的一个有希望的补充。

Leave a Comment

数据科学是一个好的职业吗?

介绍 随着数据科学的日益突出和影响力,它已成为对于考虑自己职业发展方向的个人来说极具兴趣和魅力的主题。在一个数据生成、分析和利用呈指数增长的时代,一个问题出现了:数据科学是一个好的职业选择吗?通过探索数据科学的多方面特点、其在职业发展中的潜力以及其在各个行业中的相关性,人们可以辨别出使数据科学成为一种具有吸引力和良好的职业选择的巨大价值和前景。 在本文中,我们将回答关于数据科学家是否是一份好工作以及数据科学是否是未来一个好的职业的问题。这些问题的答案将提供一个全面的了解,使人们能够了解到使数据科学成为一种可行和充实的职业选择的前景和机会。让我们开始吧! 什么是数据科学? 数据科学专注于利用各种科学方法、算法和程序从大量数据中提取知识。它帮助发现原始数据中隐晦的模式。数据科学可以将一个业务问题转化为一个研究项目,从而将其转化为一个真正的解决方案。许多人选择从事数据科学职业,因为它提供了许多职位和有吸引力的薪资。 也可阅读:2023年成为数据科学家的逐步指南 为什么选择数据科学? 数据科学领域广泛而多样。这个领域对于寻找技术领域职业的专业人士来说有很多提供。这是一个薪资丰厚的职业选择,拥有很多发展机会。选择从事数据科学职业的一些原因包括: 需求量大 数据科学非常抢手。潜在雇员的机会很多。在LinkedIn上,这个职位的增长速度最快,并预计到2026年将新增1150万个工作岗位。因此,数据科学领域需求量大。 可供选择的职位众多 只有一些人具备成为合格数据科学家所需的技能组合。因此,数据科学相对于其他IT行业来说发展较少。因此,数据科学这个学科非常多样,并提供许多选择。数据科学家需求量大,但仍然需要更多的人才。 薪资丰厚的职业 数据科学领域属于高薪职业。根据Glassdoor的数据,数据科学家的平均年薪为116,100美元。因此,从事数据科学职业可以获得丰厚的回报。 数据科学是一个灵活的领域 数据科学有广泛的应用领域。它经常用于银行、医疗保健、咨询和电子商务等领域。数据科学领域非常多样。因此,您将能够在各种领域工作。 数据科学的趋势和行业事实 数据科学经历了显著的增长,并成为许多行业不可或缺的一部分。一些趋势和行业事实突显了数据科学作为职业选择的重要性和潜力。数据科学领域提供有吸引力的薪资待遇。根据Glassdoor的数据,美国数据科学家的平均薪资约为每年113,000美元。这种高收入潜力证明了数据科学技能和专业知识在就业市场中的价值。 此外,数据科学在各个行业都有应用。从医疗保健和金融到市场营销和电子商务,各个行业的组织都依靠数据科学家提取有意义的见解并推动战略决策。例如,在医疗保健行业,数据科学用于分析患者数据并制定个性化治疗计划。同样,在市场营销中,数据科学有助于识别消费者趋势、针对特定受众并优化广告活动。 这些趋势和行业事实表明,数据科学是一个蓬勃发展且备受追捧的职业道路,在各个领域有着广阔的发展和影响机会。 数据科学职业的未来 就职机会而言,数据科学有很多。经济学家预计到2026年全国将有超过1100万个工作岗位。事实上,自2019年以来,数据科学招聘增长了46%。尽管如此,截至2020年8月底,印度仍有约9.3万个空缺的数据科学岗位。因此,数据科学的潜力是不可否认的。 在数据科学领域,除了数据科学家的角色外,还有许多工作选项,包括: 数据分析师:他们使用数据分析工具分析数据,并与团队合作产生洞察和商业计划。 数据管理员:数据库管理系统的管理、协调和运作是数据库管理员(DBA)的职责。…

Leave a Comment

如何从数据分析师转变为数据科学家?

人们经常处理数据,数据分析师在掌握领域专业知识后寻求更具挑战性的角色。数据科学家常常被认为是最具吸引力的职业选择之一。虽然需要扩展技能,但许多教育平台提供了有益的知识,有利于变革。许多数据分析师已成功转行,你可以是下一个! 以下步骤将帮助您为公司的发展做出贡献,并在您成为数据科学家的职业道路上增加专业知识: 评估技能差距 数据科学家角色所需的基本技能和知识 数据科学家需要对数据进行实验,因此开发新想法和研究的思维方式至关重要。同样重要的是,能够分析过去实验的错误。除此之外,执行这些职责所需的技术技能和知识如下: 技术技能: 编程或数据语言,如Python或R 机器学习算法,例如线性回归、逻辑回归、随机森林、决策树、支持向量机、KNN 关系型数据库,如SAP HANA、MySQL、Microsoft SQL Server、Oracle Database 特殊技能,如自然语言处理(NLP)、光学字符识别(OCR)、神经网络、计算机视觉、深度学习 RShiny、ggplot、Plotly、Matplotlit中的数据可视化能力 Hadoop、MapReduce、Spark等分布式计算 分析技能: IBM Watson、OAuth、Microsoft Azure等API工具 实验和A/B测试 预测建模和统计概念,如回归、分类和时间序列分析 领域知识: 计算机科学、软件工程或统计学的硕士或博士学位 专业知识…

Leave a Comment

什么是机器人仿真?

机器人正在仓库中搬运货物、包装食品、帮助组装车辆——当它们不翻转汉堡或者冲泡拿铁时。 它们是如何如此迅速地变得如此熟练呢?机器人模拟。 它正在以飞跃的进步改变我们周围的各个行业。 机器人模拟简介 机器人模拟器将虚拟机器人放置在虚拟环境中,以测试机器人的软件,而无需实际机器人。而最新的模拟器可以生成数据集,用于训练将在实际机器人上运行的机器学习模型。 在这个虚拟世界中,开发者创建机器人、环境和其他机器人可能遇到的素材的数字版本。这些环境可以遵守物理定律,并模拟真实世界的重力、摩擦、材料和光照条件。 谁在使用机器人模拟? 如今,机器人在大规模上提升了业务。一些最大和最具创新性的机器人公司都依赖于机器人模拟。 得益于模拟,配送中心每天可以处理数千万个包裹。 亚马逊机器人使用它来支持其配送中心。宝马集团借助它加速其汽车装配厂的规划。软性机器人应用它来完善食品包装的抓取和放置。 全球各地的汽车制造商都在用机器人来支持他们的业务。 “汽车公司雇佣了将近1400万人。数字化将提高这个行业的效率、生产力和速度,” NVIDIA首席执行官Jensen Huang在最新的GTC主题演讲中说道。 机器人模拟的工作原理简介 一个先进的机器人模拟器首先应用物理基本方程。例如,它可以使用牛顿运动定律来确定物体在一个小时间增量或时间步长内的运动方式。它还可以结合机器人的物理约束条件,比如由铰链般的连接构成,或者无法穿过其他物体。 模拟器使用各种方法来检测物体之间的潜在碰撞,识别碰撞物体之间的接触点,并计算阻止物体相互穿过的力或冲量。模拟器还可以计算用户寻求的传感器信号,比如机器人关节处的扭矩或机器人夹持器与物体之间的力。 然后,模拟器将根据用户的要求重复这个过程。一些模拟器,比如基于NVIDIA Omniverse的NVIDIA Isaac Sim应用程序,还可以在每个时间步长上提供物理上准确的模拟器输出的可视化。 使用机器人模拟器的成果 机器人模拟器用户通常会导入机器人的计算机辅助设计模型,并导入或生成感兴趣的对象来构建虚拟场景。开发者可以使用一组算法来执行任务规划和运动规划,然后指定控制信号来执行这些计划。这使得机器人能够执行任务并以特定方式移动,比如拾取一个物体并将其放置在目标位置。 开发者可以观察计划和控制信号的结果,然后根据需要进行修改以确保成功。最近,有一种向基于机器学习的方法的转变。所以,用户不是直接指定控制信号,而是指定所需的行为,比如移动到一个位置而不发生碰撞。在这种情况下,一个数据驱动的算法会根据机器人的模拟传感器信号生成控制信号。 这些算法可以包括模仿学习,其中人类演示可以提供参考,以及强化学习,机器人通过智能的试错学习来实现行为,通过加速的虚拟体验快速学习多年的经验。…

Leave a Comment

通过数据清洗提升数字化转型指南

数字化转型是现代企业的关键,它使企业能够在快速发展的数字化环境中适应和蓬勃发展为了充分利用数字化转型的好处,组织必须依赖准确可靠的数据然而,许多公司在数据质量方面存在问题,这可能阻碍他们的数字化转型努力本文是一份指南,旨在通过数据清洗来增强数字化转型

Leave a Comment

人工智能如何帮助潜在客户生成?

无论您的服务或产品有多么出色,或者它们有多么独特,如果您不能有效地进行营销,那都是无关紧要的。全球范围内,小型和大型企业主都在努力跟上快速变化的营销发展。通过人工智能和机器学习技术的快速进步,我们现在拥有非常先进的AI线索生成解决方案,可以比传统方法更快地产生高质量的线索。人工智能通过减少从研究到营销所需的时间,帮助营销人员提高效率。 什么是AI线索生成? AI线索生成是利用人工智能技术和策略,识别和吸引潜在客户或线索的过程。它包括使用AI工具和算法自动化发现和评估潜在客户。 通过利用人工智能和数据驱动的理解能力,AI线索生成使企业能够有效管理其营销和销售业务,发现高质量的线索,并促进收入增长。 营销和销售团队可以利用这些洞察力进行预测、建议或基于数据的措施,提高潜在客户成为客户的可能性。 借助AI线索生成的帮助,组织可以自动化和简化发现和与潜在客户互动的过程,从而提高生产力、提高转化率,并在销售和营销活动中获得更好的投资回报率(ROI)。 AI线索生成统计数据 以下是关于AI线索生成的一些最新统计数据: 44%的企业使用基于技术的方法来确定线索的资格。 59%的营销人员依赖搜索引擎优化对线索产生重大影响。 73%的B2B企业表示虚拟会议和网络研讨会是最佳的线索生成方法之一。 79%的营销人员在电子邮件营销中使用自动化。 33%的营销部门使用无代码或低代码工具。 56%的营销人员在线索分段中使用自动化。 还阅读:为什么要在2023年学习无代码机器学习? 人工智能如何帮助线索生成? 1. 基于人工智能的线索评分和资格认定 为了确定每个线索的质量和潜在价值,AI算法分析收集到的数据。根据预先确定的标准,例如线索的参与程度、兴趣和成为消费者的可能性,可以对线索进行评分。这样可以更容易地对线索进行分类,并专注于最有潜力的线索。 通过线索评分,为每个线索指定一个反映其潜在价值和转化可能性的数值。人口统计数据、参与程度、网站通信、过去的购买记录和其他相关因素都可以作为线索评分的参数。得分较高的线索有更高的转化机会。 可以使用机器学习技术创建理想的客户配置文件(ICP),以找到与您的目标人物相符的线索。由人工智能驱动的工具在网络上搜索符合您人口统计学的消费者和企业,生成一个合格的潜在客户列表,可用作营销和销售工作的基础。 2. 个性化营销和内容推荐 人工智能利用收集到的数据和洞察力,定制每个线索的推广活动和信息。通过解读他们的选择、需求和行为模式,AI算法可以为特定的线索提供定制内容。 人工智能系统可以根据过去的浏览和内容使用模式,为潜在客户和网站访问者提供超个性化的内容,增加对品牌的兴趣,最终提高转化率。…

Leave a Comment