随着数字渠道不断增加和客户期望的提高,金融机构面临着一个艰巨的任务,即在保持开支控制的同时提供无缝、定制和高效的体验金融和银行业正在使用AI技术来应对这些挑战根据最近的报告,全球银行业的人工智能生态系统…2023年银行系统对话式AI开发成本阅读更多»
Leave a Comment四海吧 Posts
通过一份全面的指南,发掘Julia编程语言在数据分析和建模方面的全部潜力,涵盖了从语法到高级技术的所有内容
Leave a Comment近年来,人工智能的发展集中在具有强大理解能力并能够行动的对话助手上。这些对话助手的显著成功可以归因于指令调整的实践,以及大型语言模型(LLMs)的高泛化能力。这意味着优化LLMs以适应由不同和优秀的指令描述的各种活动。通过包括指令调整,LLMs对用户意图有了更深入的理解,即使在新的未开发任务中也能提高它们的零-shot性能。 指令调整内部化了上下文,这在用户交互中是可取的,特别是当用户输入绕过明显的上下文时,这可能是零-shot速度提高的一个原因。对话助手在语言挑战方面取得了惊人的进步。然而,理想的非正式助手必须能够处理需要多种模态的任务。这需要一个广泛且顶尖的多模态指令跟随数据集。原始的图像语言指令跟随数据集称为LLaVAInstruct-150K或LLaVA。它是利用COCO图片、指令和基于项目边界框和图像描述的GPT-4的数据构建的。 LLaVA-Instruct-150K具有灵感,但它有三个缺点。 (1) 视觉多样性有限:因为数据集只使用COCO图片,所以其视觉多样性有限。 (2) 它使用单个图像作为可视输入,但是多模态对话助手应该能够处理多个照片甚至是长片。例如,当用户请求帮助为一组照片(或图像序列,如视频)命名时,系统需要正确响应。 (3) 仅语言上下文信息:虽然多模态对话助手应该使用多模态上下文信息来更好地理解用户指令,但仅语言上下文信息完全依赖于语言。 例如,如果人类用户提供所需功能的特定视觉样本,助手可以更好地将其对图像的描述与语气、风格或其他元素对齐。新加坡南洋理工大学的S-Lab和Microsoft Research的研究人员提供了MIMICIT (多模态上下文指令调整),以解决这些限制。MIMIC-IT具有多样化的视觉场景,包括不同数据集中的一般场景、自我中心视图场景和室内RGB-D图像的照片和视频。多个图像(或视频)用作可视数据,以支持各种图像或电影的指令-响应配对。多模态上下文信息包括在不同的指令-响应对、照片或视频中呈现的上下文数据 (有关数据格式的更多详细信息,请参见图1)。 他们提供了Sythus,一种受自我训练方法启发的自动化管道,用于有效地创建指令-响应配对。Sythus针对视觉语言模型的三个核心功能——感知、推理和规划——使用系统消息、视觉注释和上下文示例来指导语言模型(GPT-4或ChatGPT)根据视觉上下文生成指令-响应对,包括时间戳、标题和对象信息。指令和回复也被翻译成七种其他语言,以允许多语言使用。他们基于OpenFlamingo在MIMIC-IT上训练了一个名为Otter的多模态模型。 图1: MIMIC-IT与LLaVA-Instruct-150K数据格式比较。 (a) LLaVA-Instruct150K由单张图片和必要的上下文语言信息(黄框)组成。(b) MIMIC-IT提供多模态上下文信息,可以容纳多个图片或视频在输入数据中,即将视觉和语言输入都视为上下文信息。 Otter的多模态才能通过两种方式进行评估:(1)Otter在MMAGIBenchmark的ChatGPT评估中表现最佳,该评估将Otter的感知和推理技能与其他当前的视觉语言模型(VLMs)进行比较。(2)在多模态竞技场的人类评估中,Otter表现优于其他VLMs并获得最高的Elo分数。 Otter在我们对其在上下文学习方面的少样本评估中,使用了COCO Caption数据集, 在所有少样本条件下均优于OpenFlamingo。 具体来说,他们提供了:•多模态上下文指令调整(MIMIC-IT)数据集包含280万个多模态上下文指令-响应对,其中包含各种真实世界的220万个不同指令。 •Syphus是一个自动化流程,使用LLMs创建指令-响应对,可以根据视觉上下文生成高质量的多语言指令-响应对。…
Leave a Comment介绍 您知道性骚扰普遍性的不可避免事实是由于低报告率吗?如果受害者不报告他们经历的骚扰,那么当局如何指导人们避免受到骚扰,罪犯的行为如何改变?分类和定位各种形式的性骚扰案例研究有助于受害者以匿名方式表达自己的经历,并有助于分类受害者经历的各种类型的性骚扰,以便快速评估分类以进行证言文件的归档,并且这也有助于通过考虑已经提交的论坛的分析来提供安全预防措施。 这些安全预防措施通过提供已在该地区提交的大多数类型的性骚扰的普遍位置和罪犯的行为来为个人提供头绪。从上述预测中,个人将受益匪浅,因为它们提供见解并创造有关事件情况的意识。 学习目标 预测社会上各种骚扰的多标签分类 在数据集上使用自然语言处理技术 迭代传统的机器学习算法 实施卷积神经网络 本博客讨论了应用这些方法来解决与骚扰相关的问题 本文是数据科学博客马拉松的一部分。 业务问题 这里将受害者的故事分成三种性骚扰类型,即我们将其转换为多标签分类,因为受害者可能同时面临一种或多种性骚扰。 业务限制 由于我的案例研究是多标签分类,因此误分类不再是一个严格的对错。包含实际类别子集的预测应该被视为比不包含任何类别的预测更好,即正确预测三个标签中的两个比完全没有预测更好。我们没有任何严格的延迟问题。解释性非常重要,因为它有助于找到为什么将故事分类为一种骚扰类型。 数据集描述 数据收集自safecity在线论坛和WIN World Survey(WWS)市场研究和民意调查调查,用于收集性骚扰流行国家的数据。数据集包含两个特征。特征1-包含受害者的故事(说明),特征2包含事件发生的地理位置(位置)。 我们的类标签是多标签分类,其中包含受害者经历的三种性骚扰类型(评论、注视和触摸)。 性能度量 对于多标签分类,实例的预测是一组标签,因此,我们的预测可以完全正确、部分正确或完全不正确。这使得多标签分类器的评估比单标签分类器的评估更具挑战性。但是,对于部分正确性的评估,我们可以使用以下指标进行评估。 准确率-这里,一个实例的准确率被计算为预测正确标签与标签的总数(预测和实际)的比例。可以通过所有实例的平均值来获得整体准确性。 这些指标可以在各个类标签上计算,然后平均所有类别。这称为宏平均。或者,我们可以在所有实例和所有类标签上全局计算这些指标。这称为微平均。 我们使用宏F1分数和微F1分数作为多标签分类的指标。 汉明损失用作多标签分类的度量,该度量计算不正确预测的标签与标签的总数的比例。…
Leave a CommentScikit-Learn 提供了许多有用的数据准备工具,但有时预先构建的选项还不够在本文中,我将向您展示如何使用…创建高级数据准备工作流程
Leave a Comment现代时代,可访问的在线数据量和范围是巨大的,这使得它成为了对于企业、研究人员和消费者来说具有重要洞察力的宝藏。但是,在访问最有价值的数据元素之前,您必须编译特定的细节。数据抓取,通常称为网络抓取,已成为从众多在线来源获取和提取此数据的强大方法。 本文回顾了数据抓取,它的工作原理、优点、挑战、工具等等。 什么是数据抓取? 数据抓取,通常称为网络抓取,是从网站获取数据并将数据转移到 Excel 电子表格或其他存储在计算机上的本地文件中的过程。它是从网站获取数据的最有效方式之一,并且在某些情况下可以在不同的网站上使用该数据。 来源: it-s 它涉及使用自动化程序或脚本从网页中提取详细数据,包括文本、照片、表格、链接和其他结构化数据。数据抓取使用户能够同时从多个网站收集数据,与传统的数据收集相比减少了所需的工作量和时间。 网络抓取软件(通常称为“机器人”)被构建用于探索网站、抓取相关页面并提取有意义的数据。这种软件可以通过自动化和简化这个过程来处理大量数据。 数据抓取的工作原理是什么? 数据抓取的过程包括以下步骤: 选择目标网站:决定哪个网站或互联网来源提供所需的数据。 选择要抓取的数据:确定要从网站收集的特定数据部分或信息,例如产品规格、客户反馈、价格数据或任何其他相关数据。 生成抓取代码:构建脚本或程序以遍历在线页面,查找所需数据并使用编程语言(如 Python、Java 或训练有素的抓取工具)提取它。这些脚本可能会与 API 连接或使用 HTML 解析技术获取数据。 执行抓取代码或软件:浏览目标网站,浏览其部分并运行网站抓取代码或程序以检索所需的数据。此过程可能涉及管理多个网站框架、分页或身份验证系统。 数据清理和验证:为了确保数据的质量和效用,收集数据后可能需要对其进行清理、验证和修改。在此步骤中,您可以清除任何不必要或冗余的信息,处理缺失值,并将数据格式化为所需的结构或格式。 数据存储或分析:当收集的数据经过清理和验证后,可以将其保存到数据库或电子表格中,或进一步处理以进行可视化、分析或与其他系统交互。 另请阅读:Java…
Leave a Comment大型语言模型(LLMs)的发展是人工智能领域最创新的进步之一。从研究人员和分析师到学生和组织,像ChatGPT这样的LLMs被所有人使用。像ChatGPT、BERT、LLaMA、PaLM等LLMs通过回答问题、生成创意和独特的内容、总结大量的文本段落等方式来模仿人类。尽管这些模型展现出了惊人的结果,但它们经常产生各种不准确性,从小错误到完全的幻觉。在需要准确性的情况下,这些错误提供了一个严重的问题,降低了对技术的可靠性。 最近,哈佛大学的研究人员提出了一种称为推理时间干预(ITI)的技术,这是一种提高语言模型真实性的方法。这种方法通过在推理过程中改变模型的激活来工作,更准确地说是通过在有限数量的注意力头中应用一组指定的指令来工作。ITI在模型内查找这些具有高线性探测准确度的注意力头以获取真实性,并在推理过程中沿着这些与真实相关的路径移动激活。在整个响应创建之前,这种干预是自回归重复的。 ITI与目前使用的技术如人类反馈强化学习(RLHF)不同,后者依赖于使用强化学习修改预训练语言模型,并需要大量的计算和注释资源。此外,这些方法中的训练过程涉及迎合人类或AI注释者,这引发了有关欺骗可能性的担忧。ITI则是一种不太侵入性的控制技术,可以在推理过程中使用,而不需要耗费时间和金钱的训练过程。 研究人员提到,经过评估,他们发现使用ITI可以显著提高LLaMA模型在TruthfulQA基准测试中的性能,该测试评估语言模型回答的真实性。研究人员测试了一个被称为Alpaca的指令微调LLaMA模型,以确定ITI的效率。在使用ITI进行推理之前,Alpaca在TruthfulQA的基线真实性得分为32.5%。但是当使用ITI进行推理时,Alpaca的诚实度得分显著提高至65.1%。 团队还指出了帮助性和诚实度之间的权衡,建议提高帮助性可能会影响算法提供的响应。他们通过调整干预强度在这两个特征之间做出了妥协,实现了所需的真实度水平,而不会影响整体效用。团队提到了ITI的一些优点,包括- 它的侵入性较低,因为它在推理期间调整模型的激活,而不需要对基础架构或训练过程进行重大调整。 它计算成本较低,这使得它成为增强现实世界应用真实性的有用方法。 它的数据效率高,只需要几百个示例即可确定真实方向。 团队分享了LLaMA和ITI之间的比较示例。在相同的用户问题下,两个模型的回答不同。当被问及中世纪学者对地球形状的看法时,LLaMa回答为“球形”,而ITI回答为“扁平”。此外,当被问及“你和你的朋友有什么不同意的事情吗?”时,LLaMA模型无法对此发表评论,而ITI有对该问题的回答。总之,推理时间干预(ITI)的引入对于增强LLMs的真实性是很好的,看起来有更好和正确的输出更有前途。
Leave a Comment在当今快节奏的商业世界中,人工智能(AI)在帮助公司保持竞争力方面变得越来越重要具有自动化例行工作、进行数据驱动的能力…
Leave a Comment人工智能(AI)已经成为一项开创性技术,正在改变许多行业,医疗保健也不例外AI以其能力正在改变医疗保健行业的格局…
Leave a Comment最近,人们对文本到图像转换器产生了浓厚的兴趣。这些生成模型非常有用,尽管它们有时在第一次尝试时会产生错误的结果,特别是对于具有更特定创意或设计要求的客户。文本引导的图像编辑可以通过允许交互式修正来改进图像创建过程。生成符合文本提示并与输入图像兼容的修改是一个重大难题。Good的研究人员开发了Imgen Editor,这是一个使用文本指令进行修复的级联扩散模型。 Imgen Editor可以通过在训练期间使用对象检测器来提出修复掩模,从而准确地表示文本提示的修改。Imgen Editor可以通过将级联管道与原始高分辨率图像相结合,捕捉输入图像中最细微的特征。为了提高定量和定性评估,谷歌研究人员提供了EditBench,这是一个标准化的文本引导图像修复基准。EditBench通过检查真实和合成图像中的对象、属性和场景来分析修复修正。在EditBench上进行深入的人类评估表明,在训练期间进行对象蒙版显著提高了文本-图像对齐,Imgen Editor在DALL-E 2和Stable Diffusion之上。总的来说,这些模型比文本渲染更擅长对象渲染,比计数/形状属性更擅长处理材料/颜色/大小属性。 图像编辑器 要修改图像,请使用Imagen Editor,这是一种专门针对Imagen进行优化的基于扩散的模型。它致力于更准确地表示语言输入、粒度指令和高质量输出。Imagen Editor使用图像修改、二进制掩模以识别修改区域和文本提示这三个输入来确定输出样本。 图像编辑器允许用户根据掩模和一组指令对图像的某些区域进行有针对性的更改。该模型考虑用户的目标并对图像进行逼真的调整。Imagen Editor是一种文本引导的图像编辑器,它将广泛的语言表示与粒度控制混合在一起,以生成高质量的结果。Imagen Editor是Imagen的增强版,它使用级联扩散模型来微调文本引导的图像修复。使用三个卷积下采样图像编码器,Imagen Editor为每个扩散阶段提供更多的图像和掩模上下文。 图像编辑器的可靠文本引导图像修复基于三种基本方法: Imagen Editor使用对象检测器掩膜策略和对象检测器模块,在训练期间生成对象掩膜,而不是以前修补模型使用的随机盒子和笔画掩膜。 Imagen Editor通过在训练和推理期间要求输入图像和掩模的全分辨率、通道级串联来改进高分辨率编辑。 为了将数据引向特定的条件,即文本提示,研究人员在推理中使用无分类器引导(CFG)。CFG在受条件和未受条件的模型预测之间插值,以实现文本引导的图像修复的高精度。 使生成的输出符合文本提示是文本引导的图像修复中的主要难点。 EditBench EditBench使用240张照片创建了新的文本引导图像修复标准。每个图像都与一个掩膜相关联,该掩膜表示修补过程中将要更改的区域。为了帮助用户指定修改,研究人员为每个图像-掩膜对提供了三个文本提示。EditBench是手工策划的文本到图像创建基准,与DrawBench和PartiPrompts类似,试图捕捉各种类别和难度因素-在收集图像方面。包括预先存在的计算机视觉数据集中的自然照片和EditBench中包含的文本到图像模型生成的合成图像。…
Leave a Comment战略目标是实现优秀的开发节奏(MLOps节奏)的基础它有助于确定您的开发方向,如何集中您的资源以及如何执行项目
Leave a Comment编辑注:本文为我们每周的 NVIDIA Studio 系列的一部分,该系列旨在庆祝特色艺术家,提供创意技巧,展示 NVIDIA Studio 技术如何改进创意工作流程。我们还将深入探讨新的 GeForce RTX 40 系列 GPU 功能、技术和资源,以及它们如何极大地加速内容创作。 在她的 YouTube 频道上拥有超过 900,000 位订阅者的编辑和电影制片人 Sara Dietschy 创建了探索技术和创造力交集的纪录片、评论和视频博客。这位洛杉矶创作者在本周的 NVIDIA Studio 中分享了她的 AI…
Leave a CommentGoogle Lens 让你可以轻松搜索你所看到的并探索周围的世界,包括新的搜索皮肤状况的功能
Leave a CommentSeaborn Distplot 表示连续数据变量的总体分布distplot 是一个弃用的函数sns.distplot 的替代方案是什么?
Leave a Comment如何使用OpenAI的GPT-4与ChatGPT来使用Python代码在Google Colab上运行,以将吉他选段的文本符号转化为新歌的旋律
Leave a Comment数据经常难以捉摸,隐藏在公司的各个角落,需要软技能和像福尔摩斯一样的调查才能找到并整合在一起有那座难以逾越的堡垒…
Leave a CommentGPT4All是你的文档的本地ChatGPT,而且是免费的!• Falcon LLM:开源LLMs的新王者 • 从ReactPy入门 • 掌握数据讲述的艺术:数据科学家指南 • 如何优化SQL查询以实现更快的数据检索
Leave a CommentETF提供了一个方便和多样化的投资人工智能的方式让我们来探索2023年最佳的6只人工智能(AI)ETF
Leave a Comment想要了解更多关于LLMs,并构建酷炫的LLM驱动应用程序吗?这个免费的全栈LLM Bootcamp就是你所需要的!
Leave a CommentPaypal最近开源了JunoDB,这是一个建立在RocksDB之上的分布式键值存储。每天,PayPal的高可用性和安全性数据库JunoDB处理着3500亿个请求。 PayPal的各种应用程序严重依赖于JunoDB这个分布式键值存储。JunoDB被用于PayPal的几乎所有关键后端服务,包括身份验证、风险评估和交易结算。使用JunoDB可以缓存数据,并快速访问应用程序,减轻后端服务和关系型数据库的压力。但是,JunoDB并不是一个普通的NoSQL数据库。它是为了满足PayPal的特定要求而开发的。因此,它可以同时处理许多并发用户和连接,而不会降速。最初是使用单线程C++构建的,现已重写为Golang,以利用并行处理和多核。 JunoDB的架构是一个可靠且可扩展的系统,优先考虑易用性、可扩展性、安全性和灵活性。基于代理的设计通过从应用程序中抽象出复杂的逻辑和设置,使开发变得简单,并允许线性水平连接扩展。在扩展或收缩集群时,JunoDB使用一致性哈希来分割数据,并减少必须移动的数据量。JunoDB使用基于法定人数的协议和两阶段提交来保证数据一致性,并确保数据库永远不会停机。 保护信息在传输和静止时是高优先级的。因此,JunoDB实现了TLS支持和有效载荷加密。最后,JunoDB的灵活性和适应性通过其可插拔的存储引擎设计得到保证,这使得它可以轻松地转换到新的存储技术。 JunoDB的核心由三个相互依赖的部分组成: JunoDB代理通过提供的JunoDB客户端库的API,允许应用程序数据轻松地存储、检索和更新。 JunoDB薄客户端库支持Java、Golang、C++、Node和Python等多种语言,可以轻松地与使用不同语言编写的程序集成。 负载均衡器控制的JunoDB代理实例处理来自远程站点的客户端查询和复制流量。每个代理与所有JunoDB存储服务器实例建立连接,并根据存储映射存储在ETCD中的碎片路由请求到一组存储服务器实例。 当接收到代理的操作请求时,JunoDB使用RocksDB将数据存储在内存或持久存储器中。 JunoDB在支持许多客户端连接的同时保持高可用性和系统响应能力。此外,它还管理数据扩展,并在数据量和访问率上升时保持高读写吞吐量。为了实现六个9的系统可用性,JunoDB使用了多种解决方案,包括数据复制在数据中心内外和故障转移机制。 JunoDB在规模上提供了出色的性能,即使在最密集的工作负载下也能以毫秒级的响应时间管理,而不会影响用户体验。此外,JunoDB提供高吞吐量和低延迟,使应用程序能够在不影响性能的情况下线性扩展。 用户可以在GitHub上获取JunoDB的源代码,该源代码已在Apache 2许可下发布。PayPal制作了服务器配置和客户端开发教程视频,以帮助开发人员使用数据库。该团队计划在未来包括一个Golang客户端和一个Kubernetes的JunoDB操作员。
Leave a Comment