Press "Enter" to skip to content

428 search results for "回归"

使用Amazon DocumentDB在Amazon SageMaker Canvas中构建无代码机器学习解决方案

我们很高兴地宣布亚马逊文档数据库(兼容MongoDB)与亚马逊SageMaker Canvas的集成正式发布,这使得亚马逊文档数据库的客户可以在不编写代码的情况下构建和使用生成型人工智能和机器学习(ML)解决方案亚马逊文档数据库是一个完全托管的本地JSON文档数据库,使操作关键业务变得简单且具有成本效益

Leave a Comment

CMU和马克斯普朗克研究所的研究人员揭示了WHAM:一种突破性的人工智能方法,可以从视频中精确高效地估计3D人体动作

三维人体动作重建是一个复杂的过程,涉及准确捕捉和建模人体主体在三维空间中的动作。当处理由移动相机在现实世界环境中捕获的视频时,这项工作变得更加具有挑战性,因为它们经常出现脚滑等问题。然而,来自卡内基梅隆大学和马克斯普朗克智能系统研究所的研究人员开发了一种名为WHAM(基于世界的具有准确运动的人体)的方法来解决这些挑战,并实现精确的三维人体动作重建。 该研究审查了从图像中恢复三维人体姿态和形状的两种方法:无模型和基于模型。它强调了在模型化方法中使用深度学习技术来估计统计身体模型参数的重要性。现有基于视频的三维人体姿态估计方法通过各种神经网络架构引入时间信息。某些方法使用附加传感器(如惯性传感器),但它们可能会对使用者造成干扰。WHAM通过有效地结合三维人体运动和视频上下文、利用先验知识并在全局坐标中准确重建三维人体活动而脱颖而出。 该研究解决了从单目视频准确估计三维人体姿态和形状的挑战,强调全局坐标一致性、计算效率和真实脚地接触。利用AMASS动作捕捉和视频数据集,WHAM结合运动编码器-解码器网络将2D关键点提升到3D姿态,利用特征集成器处理时间线索,并利用考虑脚接触的全局运动估计的轨迹细化网络,提高在非平面表面上的准确性。 WHAM采用单向RNN进行在线推理和精确的三维动作重建,其中运动编码器用于上下文提取,运动解码器用于SMPL参数、相机平移和脚接触概率。利用包围盒标准化技术有助于提取运动上下文。图像编码器在预训练的人类网格恢复时捕捉和整合图像特征与运动特征。轨迹解码器预测全局方向,细化过程减小脚滑动。在合成的AMASS数据上进行训练,WHAM在评估中优于现有方法。 https://arxiv.org/abs/2312.07531 WHAM超越了当前最先进的方法,展现出在单帧和基于视频的三维人体姿态和形状估计方面的卓越准确性。WHAM通过利用运动上下文和脚接触信息实现精确的全局轨迹估计,减小脚滑动,增强国际协调性。该方法通过整合2D关键点和像素特征,提高了三维人体运动重建的准确性。对野外基准数据集的评估证明了WHAM在MPJPE、PA-MPJPE和PVE等指标上的卓越表现。轨迹细化技术进一步提升了全局轨迹估计的精度,减小了脚滑动,通过改进的错误指标得到了证明。 总之,该研究的要点可以总结为: WHAM引入了一种结合三维人体运动和视频上下文的先导性方法。 该技术提升了三维人体姿态和形状回归。 该过程使用了全局轨迹估计框架,包括运动上下文和脚接触。 该方法解决了脚滑动问题,确保在非平面表面上的准确三维跟踪。 WHAM的方法在多个基准数据集上表现出色,包括3DPW、RICH和EMDB。 该方法在全局坐标中优秀地完成了高效的人体姿态和形状估计。 该方法的特征集成和轨迹细化显著提高了运动和全局轨迹的准确性。 该方法的准确性通过深入的消融研究得到了验证。

Leave a Comment

使用LangChain表达语言和LLM的验证实现链 (shǐyòng LangChain biǎodá yǔyán hé LLM de yànzhèng shíxiàn liàn)

介绍 在人工智能(AI)领域中,对精准度和可靠性的不断追求带来了突破性的创新。这些策略对于引领生成模型提供相关答案至关重要。生成AI在不同复杂应用中的使用的最大障碍之一就是幻觉。Meta AI研究发布的最新论文《链式验证减少大型语言模型中的幻觉》介绍了一种简单的技术,可以直接减少文本生成时的幻觉。 本文将探讨幻觉问题,并介绍论文中提到的CoVe概念,以及如何使用LLMs、LangChain框架和LangChain表达语言(LCEL)来实现它以创建自定义链。 学习目标 了解LLMs中的幻觉问题。 了解缓解幻觉的链式验证(CoVe)机制。 了解CoVe的优点和缺点。 学习使用LangChain来实现CoVe,并理解LangChain表达语言。 本文是作为数据科学博文马拉松的一部分发表的。 LLMs中的幻觉问题是什么? 让我们首先尝试了解LLM中的幻觉问题。使用自回归生成方法,LLM模型根据之前的上下文来预测下一个单词。对于频繁主题,模型已经看过足够多的示例,可以自信地为正确的标记分配高概率。然而,由于模型没有接受过关于异常或陌生主题的训练,它可能会以高置信度提供不准确的标记。这导致了看似合理但错误的幻觉信息。 下面是Open AI的ChatGPT中出现幻觉的一个例子,我询问了一本由印度作者于2020年出版的书籍《Small Things的经济学》,但模型却带着充分的自信回答错误,并将其与另一位诺贝尔奖获得者阿比吉特·巴纳吉的书《Poor Economics》混淆。 链式验证(CoVe)技术 CoVe机制结合了提示和一致性检查,为LLMs创建了一个自我验证系统。下面是论文中列出的主要步骤。我们将逐一详细了解每个步骤。 链式过程概述 生成基线响应:给定查询,使用LLM生成响应。 计划验证:给定查询和基线响应,生成一系列验证问题的列表,这些问题可以帮助自我分析是否存在原始响应中的任何错误。 执行验证:依次回答每个验证问题,因此检查答案与原始响应之间的一致性或错误。 生成最终经过验证的响应:根据发现的不一致性(如果有的话),生成一个经过修订的响应,并纳入验证结果。 使用详细示例理解链式过程 生成初始响应…

Leave a Comment

卷积神经网络(CNNs)中的空洞卷积全面指南

介绍 在计算机视觉领域中,卷积神经网络(CNN)已经重新定义了图像分析和理解的领域。这些强大的网络已经在图像分类、物体检测和语义分割等任务中取得了突破。它们为医疗保健、自动驾驶等领域的各种应用奠定了基础。 然而,随着对更具上下文感知和稳健模型的需求不断增长,传统的卷积层在捕捉广泛的上下文信息方面面临限制。这导致了对能够提高网络理解更广泛上下文能力的创新技术的需求,而不会显著增加计算复杂性。 介绍扩张卷积(Atrous Convolution),这是一种颠覆卷积神经网络中常规规则的突破性方法。扩张卷积,也被称为空洞卷积,通过在深度学习领域引入新的维度,使网络能够在不显著增加计算成本或参数的情况下捕捉更广泛的上下文。 学习目标 了解卷积神经网络的基本知识,以及它们如何处理视觉数据来理解图像。 了解扩张卷积如何改进传统卷积方法,从而在图像中捕捉更大的上下文。 探索使用扩张卷积的知名CNN架构,例如DeepLab和WaveNet,以了解它如何提高它们的性能。 通过实际示例和代码片段,获得对扩张卷积在CNN中应用的实际理解。 本文是Data Science Blogathon的一部分。 理解卷积神经网络:它的工作原理 卷积神经网络(CNN)是一类主要用于分析图像和视频等视觉数据的深度神经网络。它们受到人类视觉系统的启发,在涉及视觉数据的模式识别任务中非常有效。以下是详情: 卷积层:CNN由多个层组成,其中卷积层是核心。这些层使用卷积运算将可学习的滤波器应用于输入数据,从图像中提取各种特征。 汇聚层:在卷积之后,通常会使用汇聚层来减小空间维度,压缩卷积层学到的信息。常见的汇聚操作包括最大汇聚或平均汇聚,它们减小表示的大小同时保留关键信息。 激活函数:在卷积和汇聚层之后使用非线性激活函数(例如ReLU)来引入非线性,让网络能够学习数据中的复杂模式和关系。 全连接层:在CNN末尾,通常使用全连接层。这些层整合前面层提取的特征,并执行分类或回归任务。 逐点卷积:逐点卷积,也被称为1×1卷积,是CNN中用于降低维度和特征组合的技术。它涉及将1×1滤波器应用于输入数据,有效减少输入通道数,并允许跨通道组合特征。逐点卷积通常与其他卷积操作一起使用,以增强网络捕捉数据中的复杂模式和关系的能力。 可学习参数:CNN依赖于在训练过程中更新的可学习参数(权重和偏置)。训练过程包括前向传播,其中输入数据通过网络,以及反向传播,根据网络的性能调整参数。 从扩张卷积开始 扩张卷积,也被称为空洞卷积,是一种引入了参数扩张率的卷积操作。与常规卷积将滤波器应用于相邻像素不同,扩张卷积通过在它们之间引入间隙来分散滤波器的参数,由扩张率来控制。这个过程扩大了滤波器的感受野,而不增加参数的数量。简单来说,它允许网络在不增加复杂性的情况下从输入数据中捕获更广泛的上下文。 扩张率决定了卷积的每一步之间跳过多少像素。1的扩张率表示常规卷积,而较高的扩张率跳过更多的像素。这个扩大的感受野能够捕获更大的上下文信息,而不增加计算成本,使网络能够高效地捕获局部细节和全局上下文。 本质上,扩张卷积有助于将更广泛的上下文信息整合到卷积神经网络中,从而更好地对数据中的大规模模式进行建模。它通常用于需要关注不同尺度上的背景信息的应用,例如计算机视觉中的语义分割或自然语言处理任务中处理序列。…

Leave a Comment

“用GPT-4打造个性化的人工智能交易顾问”

介绍 近年来,将人工智能(AI)整合到股票交易中已经改变了投资者的决策方式。随着大型语言模型(LLMs)如GPT-3和GPT-4的出现,发生了一场范式转变,使个人投资者和交易者更容易获得复杂的市场分析和见解。这种革命性的技术利用大量的数据和复杂的算法,提供了以前仅由机构投资者独占的市场理解深度。本文重点介绍使用LLMs开发个性化AI交易顾问,旨在根据风险偏好、投资时间、预算和期望回报来匹配个人投资者的投资配置,为零售投资者提供个性化、战略性的投资建议。 由GPT-3和GPT-4等大型语言模型(LLMs)驱动的股票交易顾问已经彻底改变了金融咨询服务。它们可以利用人工智能来分析历史股票数据和当前的财经新闻,为投资者提供与其独特投资组合和财务目标相符合的个性化投资建议。我们将尝试构建一个顾问来预测市场行为和趋势,根据个人风险承受能力、投资期限、可用资本和期望回报提供量身定制的建议。 学习目标 通过本文,读者将能够: 了解AI和像GPT-3这样的LLMs如何改变股市分析和交易。 认识到基于个人风险偏好和投资目标的AI驱动工具提供个性化投资建议的能力。 了解AI如何利用历史和实时数据制定投资策略和预测。 了解股票交易中的AI如何使复杂的投资策略对更广泛的受众(包括零售投资者)可行。 发现如何利用AI驱动的工具进行个人投资和股票交易决策。 了解利用LLMs构建股票交易顾问的概念。 本文作为数据科学博文马拉松的一部分进行发布。 关于数据集 该项目的数据集从纽约证券交易所获取,并在Kaggle上提供,包括覆盖七年的四个CSV文件。其中包括关键的财务指标“fundamentals.csv”,提供历史股价和股票分割调整的“prices.csv”和“prices-split-adjusted.csv”,以及提供附加公司信息(如部门分类和总部)的“securities.csv”。这些文件的综合提供了对公司业绩和股票市场动态的全面了解。 数据准备 使用类似GPT-4这样的大型语言模型(LLMs)来实现股票交易顾问,需要进行关键的数据准备。这个过程包括重要的任务:数据清洗、归一化和分类,使用提供的数据集:fundamentals.csv、prices.csv、prices-split-adjusted.csv和securities.csv。 步骤1:数据清洗 在“基本数据集”中,我们使用中值插补来处理“For Year”、“Earnings Per Share”和“Estimated Shares Outstanding”的缺失值(173个、219个和219个缺失值)。 我们将“Period Ending”列转换为日期时间格式,使其适合进行数字字段分析。…

Leave a Comment

迎接EAGLE:基于压缩的快速LLM解码的新机器学习方法

大型语言模型(LLMs)如ChatGPT在自然语言处理领域取得了巨大的革命性进展,展示了他们在各种语言相关任务中的能力。然而,这些模型面临着一个关键问题——自回归解码过程,其中每个标记都需要进行完整的前向通行。这种计算瓶颈在拥有庞大参数集的LLMs中尤为明显,在实时应用中产生了障碍,并给具有受限GPU能力的用户带来了挑战。 来自Vector Institute、滑铁卢大学和北京大学的研究人员介绍了EAGLE(Extrapolation Algorithm for Greater Language-Model Efficiency),以应对LLM解码中固有的挑战。与Medusa和Lookahead等传统方法有所不同,EAGLE采取了一种独特的方法,专注于对第二层顶层上下文特征向量的外推。与前辈们不同,EAGLE努力高效地预测后续特征向量,为文本生成提供了显著加速的突破。 EAGLE方法的核心是部署了一种轻量级插件——FeatExtrapolator。这个插件与原始LLM的冻结嵌入层一起进行训练,根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础建立在特征向量随时间的可压缩性上,为加快标记生成铺平了道路。值得注意的是,EAGLE具有出色的性能指标;与普通解码相比,它的速度提高了三倍,比Lookahead快了一倍,并且相对于Medusa加速了1.6倍。最为关键的是,它保持了与普通解码一致性,确保了生成文本分布的保持。 https://sites.google.com/view/eagle-llm EAGLE的能力远不止于加速。它可以在标准GPU上进行训练和测试,使更广泛的用户群体能够使用。它与各种并行技术的无缝集成增加了其应用的灵活性,进一步巩固了它作为高效语言模型解码工具包中宝贵的补充的地位。 考虑到该方法对FeatExtrapolator的依赖,这是一个轻量级但功能强大的工具,与原始LLM的冻结嵌入层合作。这种合作根据第二顶层的当前特征序列预测下一个特征。EAGLE的理论基础根植于特征向量随时间的可压缩性,为更流畅的标记生成过程提供了途径。 https://sites.google.com/view/eagle-llm 传统的解码方法需要对每个标记进行完整的前向通行,而EAGLE的特征级外推提供了一个新的解决方案。研究团队的理论探索最终形成了一种方法,不仅显著加速了文本生成,而且保持了生成文本的分布的完整性——这是维护语言模型输出质量和连贯性的关键因素。 https://sites.google.com/view/eagle-llm 总结起来,EAGLE在解决LLM解码长期存在的低效问题上脱颖而出。通过巧妙地解决自回归生成的核心问题,EAGLE的研究团队提出了一种不仅能大幅加速文本生成,而且能保持分布一致性的方法。在实时自然语言处理需求激增的时代,EAGLE的创新方法使其成为前沿技术的领跑者,填补了尖端技术能力与实际应用之间的鸿沟。

Leave a Comment

这篇AI论文揭示了HiFi4G:照片级人物建模和高效渲染的突破性技术

以体积记录和真实表现4D(时空)人类表演来消除观众和表演者之间的障碍。它提供各种沉浸式的VR / AR体验,如远程呈现和远程教育。一些早期系统使用非刚性配准明确地从录制的镜头中重新创建纹理模型。然而,它们仍然容易受到遮挡和纹理缺陷的影响,从而导致重建输出中的缺口和噪音。最近的神经突破,如NeRF,通过优化基于坐标的多层感知器(MLP),而不是诉诸于显式重建,以实现照片级别的体积渲染。 某些动态NeRF变体旨在通过额外的隐式变形场保持一个规范的特征空间,用于在每帧中重现特征。然而,这样的规范设计对重要的拓扑变化或大规模运动敏感。通过平面因子化或哈希编码,最新的方法消除了变形场,并简洁地描述了4D特征网格。它们极大地加快了交互式程序渲染和训练的速度,但在运行时内存和存储问题上有待解决。最近,3D高斯点(3DGS)回归到了表示静态场景的显式范例。它基于GPU友好的3D高斯基元的光栅化,实现了以前无法实现的实时高质量辐射场渲染。一些正在进行的项目修改3DGS以适应动态设置。 一些集中在捕捉动态高斯的非刚性运动,但在过程中失去渲染质量。其他的失去了原始3DGS的明确和GPU友好的优雅,并且不能处理长期运动,因为它们使用额外的隐式变形场来填补运动信息。在本研究中,上海科技大学、NeuDim、字节跳动和DGene的研究团队介绍了HiFi4G,这是一种完全明确且紧凑的基于高斯的方法,用于从密集视频中重现高保真度的4D人类表演(参见图1)。他们的主要概念是将非刚性跟踪与3D高斯表示相结合,将运动和外观数据分离,以实现紧凑和压缩友好的表示。HiFi4G在当前隐式渲染技术的优化速度、渲染质量和存储开销方面表现出色。 图1展示了我们的高分辨率紧凑高斯点光栅。HiFi4G将经典的非刚性融合技术与多视角人类表演视频的可微光栅化进展相结合,有效生成紧凑的4D资产。 借助明确表示的帮助,他们的结果也可以轻松集成到基于GPU的光栅化流水线中,让用户在佩戴VR头盔时见证高保真度的虚拟现实人类表演。研究团队首先提供了一个由细粒度高斯和粗略变形图组成的双图技术,以自然地将高斯表示与非刚性跟踪连接起来。对于前者,研究团队使用NeuS2在使用嵌入式变形(ED)以关键帧的方式之前为每帧创建几何代理。这种明确的跟踪技术将序列分成若干部分,在每个片段内提供丰富的运动先验。类似于关键体积更新,研究团队通过使用3DGS从先前的片段减去错误的高斯并更新新的高斯来限制当前片段中的高斯数量。 接下来,研究团队构建了一个细粒度的高斯图,以通过从粗略的ED网络中插值每个高斯运动进一步初始化。通过简单地将高斯图与ED图弯曲并转换到屏幕空间,会导致严重的不自然扭曲;而持续优化而没有任何限制则会产生抖动的伪影。为了适当地平衡高斯特征的更新和非刚性运动先验,研究团队建议了一个4D高斯优化方法。研究团队使用时态正则化器确保每个高斯的外观属性的一致性,例如不透明度、缩放系数和球面谐波(SH)。研究团队建议对动态特性(位置和旋转)进行平滑处理,以在相邻高斯之间生成尽可能刚性的移动。 为了惩罚那些展示出小型、非刚性运动的区域上的闪烁瑕疵,这些正则化器添加了自适应加权机制。研究团队在优化后生成了时空紧凑的四维高斯模型。研究团队提出了一种伴随压缩技术,该技术采用了常规的残差校正、量化和熵编码,用于对高斯参数进行处理,以使其HiFi4G对消费者有用。每帧具有显著的压缩比约为25倍,并且仅需要不到2MB的存储空间,使其能够在各种设备上进行沉浸式观测,包括虚拟现实头显设备。 简而言之,他们的主要贡献包括以下几点: • 研究团队引入了一种紧凑的四维高斯模型,将高斯飞溅与非刚性跟踪相连接,用于人体表演渲染。 • 研究团队提供了一种双图结构方法,可以有效地恢复具有空间时间一致性的四维高斯模型,采用不同的正则化设计。 • 研究团队提供了一种互补的压缩方法,可以在多个平台上实现低存储的沉浸式人体表演体验。

Leave a Comment

简洁与准确相遇:使用AWS Trainium进行高性价比的GPT NeoX和Pythia模型训练

大型语言模型(或LLM)已成为日常对话的话题它们被迅速采用的证据是从“Facebook的4.5年”到“ChatGPT的短短2个月”的时间内就达到了1亿用户的数量生成式预训练变压器(GPT)使用因果自回归更新[…]

Leave a Comment

元AI宣布紫色羊驼,以协助社区通过开放和生成式AI模型进行道德建设

由于自动回归语言建模的数据增加、模型规模和计算能力的成功,会话式AI代理在过去几年中实现了显著的飞跃。聊天机器人通常使用大型语言模型(LLMs),以其众多有用的技能而闻名,包括自然语言处理、推理和工具熟练度。 这些新应用需要经过全面的测试和谨慎的发布,以减少潜在的危险。因此,建议由生成性AI驱动的产品实施防止生成违反政策的高风险内容的保障措施,以及防止对模型进行敌对输入和越狱的尝试。其中包括资源,如Llama 2负责任使用指南。 在寻找控制在线内容的工具时,Perspective API1、OpenAI内容审查API2和Azure内容安全API3都是很好的起点。然而,当将它们用作输入/输出保障措施时,这些在线审查技术在几个方面存在问题。首先,目前无法区分用户和AI代理在他们所带来的危险方面的区别;毕竟,用户要求信息和帮助,而AI代理更有可能提供。此外,用户无法根据新政策更改工具,因为它们都有固定的政策需要执行。第三,无法将它们调整为特定的使用案例,因为每个工具仅提供API访问。最后,所有现有工具都是基于普通的传统Transformer模型。与更强大的LLMs相比,这严重限制了它们的潜力。 新的Meta研究揭示了一种用于输入输出保护的工具,它将会话式AI代理的提示和响应中的潜在危险进行分类。这填补了该领域中将LLMs用作审查基础的一个需求。 他们使用基于分类学的数据来对Llama Guard进行微调,这是一个基于逻辑回归的输入输出保护模型。Llama Guard将相关分类学作为输入来分类羊驼,并应用指令职责。用户可以使用零样本或少样本提示来个性化模型输入,以适应不同的使用案例相应的分类法。在推断时,可以选择几个微调的分类法,并相应地应用Llama Guard。 他们提出了区分LLM输出(AI模型的响应)和人类请求(对LLM的输入)的独特指南。因此,Llama Guard可以捕捉到用户和代理责任之间的语义差异。利用LLM模型遵循指令的能力,他们只需要一个模型就可以完成这个任务。 他们还推出了Purple Llama。将来,它将成为一个综合资源和评估项目,以帮助社区在以开放、生成的AI模型进行伦理建设方面取得成功。网络安全和输入/输出保护工具和评估将是首次发布的一部分,更多的工具将会陆续推出。 他们为业界提供了首个全面的LLM网络安全评估指南。这些指南是与他们的安全专家一起开发的,并基于行业建议和标准(如CWE和MITRE ATT&CK)。在这个首次发布中,他们希望提供资源,以帮助减轻在白宫创建负责任的人工智能的承诺中提到的一些危险,例如: 量化LLM网络安全威胁的度量标准。 评估不安全代码提案的工具。 评估使LLM编写恶意代码或进行网络攻击更加困难的工具。 他们预计这些工具将通过减少提出不安全的AI生成代码的频率来减少LLM对网络攻击者的效用。他们的研究发现,当LLM建议不安全代码或配合恶意请求时,将会带来严重的网络安全问题。 在应用特定内容限制方面,所有LLM的输入和输出都应根据Llama 2负责任使用指南进行审查和过滤。 该模型使用公开可用数据集的组合进行训练,以检测可能有害或侵权信息的常见类别,这些信息可能与各种开发者使用案例相关。通过公开可用其模型权重,他们消除了实践者和研究人员依赖带宽有限的昂贵API的需求。这为进一步的实验和根据个人需求调整Llama Guard的能力打开了大门。

Leave a Comment

揭示机器学习中随机性的本质 (Jiēshì jīqì xuéxí zhōng suíjīxìng de běnzhì)

介绍 机器学习是一门让计算机能够从数据中学习并做出智能决策的领域。它涵盖了各种概念和技巧。其中一个概念是“随机”,在许多机器学习算法和模型中扮演着关键角色。在本文中,我们将深入探讨机器学习中随机的意义,探索其应用,并了解其在优化学习过程中的重要性。 了解机器学习中的随机 在机器学习的背景下,随机指的是将随机性或概率引入算法和模型中。它允许引入不确定性,使算法能够有效处理嘈杂或不完整的数据。通过接受随机性,机器学习算法能够适应不断变化的环境并进行强大的预测。 机器学习中的随机过程 随机过程是描述随机变量随时间演变的数学模型。它们被广泛应用于机器学习中的建模和分析各种现象。这些过程具有独特的特征,使它们适合捕捉数据中固有的随机性。 随机过程的定义和特征 随机过程是按时间或另一个参数索引的随机变量的集合。它提供了描述系统随时间演变的概率行为的数学框架。随机过程具有稳定性、独立性和马尔可夫性等特性,使其能够捕捉数据中的复杂依赖关系。 随机过程在机器学习中的应用 随机过程在机器学习的各个领域中都有应用。它们在时间序列分析中很有帮助,该领域的目标是基于过去观察值预测未来值。它们还在建模和模拟复杂系统中起着关键作用,例如金融市场、生物过程和自然语言处理。 随机梯度下降(SGD) 随机梯度下降(SGD)是机器学习中流行的优化算法。它是传统梯度下降算法的一种变体,引入了参数更新的随机性。在处理大型数据集时,SGD特别有用,因为它可以实现高效可扩展的优化。 SGD概述 在SGD中,不是使用整个数据集计算梯度,而是使用随机选择的数据子集(称为 mini-batch)估计梯度。这种随机抽样在优化过程中引入了随机性,使其更适应嘈杂或动态的数据。通过根据这些 mini-batch 梯度迭代更新模型参数,SGD收敛到最优解。 SGD的优势和缺点 相比传统的梯度下降,SGD具有几个优势。它收敛更快,需要更少的内存,并且在处理大规模数据集时计算效率高。然而,SGD的随机性也带来了一些缺点。由于梯度估计中的噪声,它可能收敛到次优解,并且学习率需要仔细调整以确保收敛。 在机器学习算法中实现SGD SGD可以在各种机器学习算法中实现,例如线性回归、逻辑回归和神经网络。在每种情况下,算法会根据从 mini-batch 计算的梯度更新模型参数。这种随机优化技术使模型能够高效地从大规模数据集中学习。 机器学习中的随机模型 随机模型是捕捉数据不确定性并基于概率分布进行预测的概率模型。它们被广泛用于机器学习中的复杂系统建模和生成逼真样本。…

Leave a Comment

支持向量机(SVM)是什么?

支持向量机(SVM)是一种在机器学习领域中使用的监督学习算法。它主要用于执行分类和回归等任务。该算法可以处理各种任务,例如判断电子邮件是否为垃圾邮件、识别手写字体,甚至在图片中检测人脸。它非常适应性强,能处理大量信息和数据中的复杂关系。 SVM的主要任务是根据特征绘制最佳的分隔线(或平面),以区分不同组的事物。就像在数据集中找到不同类别之间的最佳边界一样。因此,无论是对文本、图像还是其他任何东西进行分类,SVM都是机器学习中的首选工具。 SVM的类型 线性支持向量机 当数据可以通过一条直线轻松分为两组时,线性SVM效果最好。想象一下你的数据就像是纸上的点,你可以画一条直线将它们整齐地分成两个不同的类。也就是说,数据应该是完全线性可分的。 非线性支持向量机 当数据无法通过一条直线分类成两组时,我们就会引入非线性SVM。这种情况下,数据不是线性可分的。在这种情况下,非线性SVM可以派上用场。在现实世界中,数据通常杂乱无章,不遵循简单的规律,这时我们就可以使用非线性SVM及其核技巧。 它是如何工作的? 想象一下,你手上有两组事物,比如绿色和蓝色的点,散落在地板上。SVM的任务是找到一条最佳的直线(或者如果你在三维世界中则是一个平面),将这些点分隔成各自的组。 现在,可能有很多条分隔这些点的直线,对吧?但是SVM会寻找一个特殊的直线——与最接近的绿色点到直线的距离和最接近的蓝色点到直线的距离之间有最大距离的直线。这个距离被称为“间隔”,SVM希望使其尽可能大。 那些在定义直线时起着关键作用的最近的点被称为“支持向量”。SVM专注于这些点,以绘制最佳的直线,使两组之间的空间最大化。 但是,如果你的点没有被一条直线整齐地分开呢?如果它们到处都是?这就是SVM可以使用所谓的“核技巧”将问题提升到一个更高维度空间的地方,这样可以绘制出更复杂的分割曲线或曲面。 用例与应用 1. 垃圾邮件过滤:想象一下,你的电子邮箱里有一堆邮件,其中一些是垃圾邮件,一些则不是。支持向量机(SVM)可以用来创建一个智能过滤器,学会区分垃圾邮件和普通邮件。它会查看邮件的各种特征,比如使用的词语,并绘制一条线来将垃圾邮件与非垃圾邮件分开,保持您的邮箱清洁。 2. 手写识别:如果你希望你的计算机识别不同人的手写。SVM可以做到这一点。通过分析手写字母的特征,比如形状和大小,SVM可以绘制线条或曲线来将一个人的手写与另一个人的手写分开,使其在邮政服务等应用中有用于识别数字。 3. 医学诊断:在医学领域,SVM可以帮助诊断疾病。假设你有关于患者的数据,其中一些患有某种疾病,另一些没有。SVM可以分析各种健康指标,并创建一个边界来区分健康患者和患有该疾病的患者。这可以帮助医生进行更准确的诊断。 4. 图像分类:考虑这样一个场景,你有很多图片,其中一些是猫,一些是狗。SVM可以成为一个英雄,创建一个系统,学会根据颜色、形状或图案等特征区分猫和狗。它绘制一条线(或更复杂的边界)来正确分类新的图片。 5. 股票市场预测:如果你对股票市场感兴趣,SVM可以派上用场。通过分析历史股票数据,考虑交易量和价格变动等各种因素,SVM可以创建一个模型来预测股票的涨跌。 参考资料: https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47…

Leave a Comment

约翰霍普金斯大学和圣克鲁兹加利福尼亚大学的研究人员揭示了D-iGPT:图像AI学习方面的突破性进展

自然语言处理(NLP)已经进入了一个转型期,引入了大型语言模型(LLMs),例如GPT系列,为各种语言任务设置了新的性能标准。自回归预训练是这一惊人成就的主要因素之一,这种技术教会模型预测序列中最可能的标记。由于这种基本技术,模型能够吸收语法和语义之间的复杂交互,从而为他们理解语言的能力提供卓越的贡献,就像一个人一样。自回归预训练在NLP之外也在计算机视觉方面起到了重要作用。 在计算机视觉中,自回归预训练起初取得了成功,但随后的发展显示出明显的范式转变,更倾向于BERT风格的预训练。特别值得注意的是,从iGPT的首次结果可以看出,自回归和BERT风格的预训练在各种任务上的表现类似。然而,由于在视觉表示学习方面更加有效,后续的研究更偏向于BERT风格的预训练。例如,MAE表明,可扩展的视觉表示学习方法可能就是简单地预测随机屏蔽像素的值。 在这项研究中,约翰斯·霍普金斯大学和加州大学圣克鲁兹分校的研究团队重新审视了iGPT,并质疑自回归预训练是否能够产生高度熟练的视觉学习者,尤其是在广泛应用时。研究团队在其过程中融入了两个重要的改变。首先,研究团队使用BEiT将照片“分词”为语义标记,考虑到图像本身具有噪声和冗余。这个修改将自回归预测的重点从像素转移到语义标记上,从而更加复杂地理解各个图像区域之间的相互作用。其次,研究团队在生成解码器中添加了一个判别解码器,它自回归地预测下一个语义标记。 对于已看到的像素预测语义标记是这个额外组件的责任。此外,值得注意的是,像CLIP这样以判别方式训练的模型最适合该预训练路径的语义视觉标记。研究团队将这种改进方法称为D-iGPT。通过对各种数据集和任务进行广泛测试,证实了他们所提议的D-iGPT的效能。仅使用ImageNet-1K作为相关数据集,他们的基准模型在可达到86.2%的Top-1分类准确率上超越了之前的最先进技术的0.6%。 此外,他们的大规模模型在3600万个公开可用数据集上实现了89.5%的Top-1分类准确率。D-iGPT在公共数据集上达到了先前最先进的训练水平,尽管使用的训练数据更少,模型尺寸更小。研究团队还在相同的预训练和微调数据集上分析了D-iGPT在语义分割上的表现,发现其优于MAE相等的方法。

Leave a Comment

CMU和普林斯顿大学的研究人员揭开了Mamba的面纱:一种突破性的SSM架构,超越变压器的效率,用于多模式深度学习应用

在当代机器学习中,基础模型是成功的典范,它们是在大量数据上进行预训练,然后修改以用于下游任务。序列模型是这些基础模型的基础,它们可以处理来自各个领域的任意序列输入,包括语言、图片、声音、音频、时间序列和基因组等。尽管这个想法与任何特定的模型设计无关,但Transformer及其核心的自注意力层是当代大多数基础模型的基础。自注意力是有效的,因为它可以通过紧密地在一个上下文窗口内传递信息来表示复杂的事实。 然而,这种属性有两个基本缺点。一个是窗口长度的二次缩放,另一个是无法描述有限窗口之外的任何事物。为了解决这些缺点,对更有效的注意力相关策略进行了大量研究,然而往往以注意力成功的相同品质为代价。这些变化尚未在各个领域的大规模实验证明其有效性。结构化状态空间序列模型是一类新颖且令人兴奋的序列建模体系结构。这些模型受传统状态空间模型的影响,可以看作是卷积神经网络和循环神经网络的混合体。 这类模型在序列长度方面具有线性或几乎线性的扩展,并且可以通过递归或卷积计算非常快速。它们还主导了Long Range Arena等基准测试,并为在某些数据模态中建模长程相互依赖性定义了工具。许多SSM(结构化状态空间模型)的变种在需要连续信号数据的音频和视觉等领域显示出了有效性。但在建模离散、信息密集的文本等方面,它们尚未取得如此成功。 卡内基梅隆大学和普林斯顿大学的研究团队提出了一种新颖的选择性状态空间模型的类别,通过在几个维度上增强了早期研究,以获得类似Transformer的建模能力,同时保持与序列长度的线性关系。 选择机制。首先,我们指出早期模型的一个重要缺陷:它们无法以有效的方式根据输入选择数据。研究团队通过根据输入参数化SSM参数来提供一个简单的选择过程,借鉴了从选择性复制和归纳头等重要的合成任务中获得的理解。这使得模型能够永久地保留相关信息,同时消除不必要的数据。 硬件感知代码。这种简单的修改在技术上对模型的计算构成挑战;所有以前的SSM模型在计算上必须是输入和时间不变的,以保证计算效率。为了防止在GPU内存层次结构的不同层之间进行IO访问,我们使用了一种硬件感知方法,使用扫描而非卷积对模型进行递归计算。然而,扩大的状态没有实现。得到的实现在当前硬件上比以前的技术更快,并且在理论建模设计中也更好。 架构:为了提供一种简单和均匀的架构设计,将以前的SSM架构设计与Transformer的MLP块相结合,形成一个单一的块,简化了以前的深度序列模型设计。 选择性SSM和Mamba架构的关键特性使它们成为更广泛的基础模型的基石,这些模型可以处理完全循环的序列,具有以下特点: (i) 高质量:选择性在遗传学和语言等密集模态上表现良好 (ii) 快速推断和训练:在推断过程中,自回归展开模型每一步只需要常数时间,因为它不需要先前组件的缓存,并且计算和内存随序列长度线性扩展 (iii) 长上下文:结合质量和效率,可以在实际数据上获得长达100万长度序列的性能提升 研究团队通过实验证明了Mamba作为通用序列FM骨干模型在各种模态和任务中的潜力: • 人工材料。Mamba不仅可以轻松解决关键的合成任务,如复制和归纳头任务,而且可以无限延伸解决无限长度的问题。 • 基因组和音频。在建模音频波形和DNA序列方面,Mamba要优于以前的最先进模型,如SaShiMi、Hyena和Transformers。其性能在两种情况下都随着更多上下文(长达一百万长度的序列)的增加而改善。 • 建模语言。曼巴(Mamba)代表了第一个能够在下游评估和预训练困惑度中真正达到类Transformer性能的线性时间序列模型。 研究团队证明了曼巴(Mamba)胜过了许多基线,包括基于 LLaMa…

Leave a Comment

10种使用自主AI代理自动化任务的方法

介绍 在技术的动态领域中,自主人工智能代理已经成为具有变革性的实体,在重新塑造我们与数据和人工智能互动的方式。当我们深入探索这个迷人的领域时,很明显这些代理不仅仅是程序,它们代表着将人工智能融入我们日常生活的范式转变。本文将介绍您今天可以使用的10个最重要的自主人工智能代理。请继续阅读,了解这些人工智能代理可以为您做什么。 什么是自主人工智能代理? 自主人工智能代理是高级人工智能系统,能够独立运行并执行任务,而不需要持续的人类干预。这些代理利用机器学习和自动化来分析、学习和执行各种领域的任务。它们可以从简单的任务自动化工具扩展到能够理解自然语言,做出决策并随着时间的推移适应新信息的复杂系统。自主人工智能代理在革新技术与支持各种日常任务的交互方式中发挥着重要的作用。 自主人工智能代理如何工作? 您是否一直想知道自主人工智能代理到底是做什么以及它们如何能够自己完成任务?这些先进的人工智能模型被设计成将复杂的指令或目标分解为更小、更简单的任务,并以结构化的方式执行它们。它们还能自动化某些任务并循环运行。以下是大多数自主人工智能代理的基本工作流程。 定义任务:首先,人工智能代理根据清晰的指示、截止日期和优先级创建任务。 任务优先级排序:然后,它们使用人工智能算法根据紧急性和重要性对任务进行排序。 自动化任务:它们将重复性任务委托给人工智能模型以实现高效执行。 监控进展:在设置流程和执行任务后,它们实时跟踪这些任务的进展并接收更新。 交互:这些代理通过自然语言命令轻松创建、修改和管理任务。 顶级自主人工智能代理 以下是10个最重要的自主人工智能代理及其描述、优点和示例。 1. AgentGPT AgentGPT是一个功能强大且可定制的开源自主代理。它能够执行各种任务,例如规划旅行、撰写电子邮件和生成创造性的文本格式,并且可以通过添加其他功能和功能来定制。AgentGPT无需编码即可使用,您只需添加名称和目标,然后点击部署即可创建代理。它通过将复杂任务分解为较小的子任务来工作。然后,它使用迭代提示来以最小的人类参与实现主要目标。 优点 节省时间和精力:AgentGPT可以自动化其他需要您大量时间和精力完成的任务。 提高生产力:通过自动化任务,您可以释放更多时间关注更重要的事情。 更有趣:通过自动化您认为乏味或枯燥的任务,它可以帮助您更加有趣。 更具创造力:它还可以通过生成新的想法和可能性来帮助您更具创造力。 示例 规划夏威夷之旅:AgentGPT可以帮助您计划一次详细的夏威夷之旅,包括寻找航班、住宿和活动。 撰写电子邮件:它可以帮助您撰写电子邮件,包括编写主题、正文和签名。 生成诗歌:您甚至可以使用AgentGPT根据特定的押韵方案和格律生成诗歌。…

Leave a Comment

“Q4 Inc. 如何利用 Amazon Bedrock、RAG 和 SQLDatabaseChain 解决数值和结构化数据集挑战,构建他们的问答聊天机器人”

此文章由Q4 Inc.的Stanislav Yeshchenko共同撰写企业们越来越多地采用检索增强生成(RAG)作为构建问答聊天机器人的主流方法我们继续看到源于现有数据集种类的新挑战这些数据集通常是数值和文本数据的混合,有时是结构化的,…

Leave a Comment

VoAGI新闻,12月6日:GitHub存储库用于掌握机器学习• 5个免费课程,掌握数据工程

本周在VoAGI上:发现来自机器学习课程、训练营、书籍、工具、面试题、备忘单、MLOps平台等的GitHub代码库,以掌握机器学习,保障你梦寐以求的工作 • 数据工程师必须准备和管理数据驱动的整个数据工作流所需的基础设施和工具…

Leave a Comment

GPT-4和XGBoost 2.0的深入解析:AI的新领域

介绍 人工智能(AI)正在经历一次重大转变,GPT-4等LLM的出现正在革新机器对人类语言的理解和生成。与此同时,xgboost 2.0作为一种强大的预测建模工具出现,通过提高效率和准确性增强了机器学习。本文探讨了GPT-4和xgboost 2.0的能力和应用,并研究了它们在各个领域的变革性影响。期待深入了解它们的实际应用、挑战和未来前景,并概述这些先进的AI技术在塑造AI未来中的作用。 学习目标 深入了解GPT-4如何革新自然语言处理,以及xgboost 2.0如何增强预测建模。 了解这些技术在客户服务、金融等不同领域的多样化实际应用。 认识到与实施这些AI技术相关的潜在挑战和道德问题。 探索AI领域的未来发展,考虑GPT-4和xgboost 2.0等技术的当前发展轨迹。 这篇文章是 Data Science Blogathon 的一部分。 GPT-4概述 GPT-4是OpenAI生成预训练transformer家族中最新的继任者,代表着自然语言处理领域的重大突破。在其前身GPT-3已经具备了令人印象深刻的能力的基础上,GPT-4通过无与伦比的抓住和解释上下文的能力使自己与众不同。这个先进模型擅长生成不仅连贯和符合上下文的回答,而且与人类表达惊人地相似。它的多功能性涵盖了广泛的应用领域,包括复杂的文本生成、无缝的翻译、简明的摘要和准确的问答。 GPT-4的这一广泛功能范围使其在多个领域中成为宝贵的资产,从自动化客户服务互动和增强语言翻译服务到提供教育支持和简化内容创作流程。该模型对微妙语言的深刻理解以及生成丰富、多样的文本内容的能力,将其置于基于AI的沟通和内容生成解决方案的前沿,为数字和实际场景中的创新和应用开辟了新的道路。 XGBoost 2.0分析 XGBoost 2.0在机器学习方面迈出了重大的一步,提升了处理复杂预测建模任务的能力,涉及金融和医疗等高风险领域。该更新引入了几个关键的创新,例如具有向量叶子输出的多目标树,允许单棵树管理多个目标变量。这一发展显著降低了过拟合和模型大小,同时更有效地捕捉目标之间的相关性。此外,XGBoost 2.0通过新的“device”参数简化了GPU配置,取代了多个单独的设置,简化了选择过程。它还引入了“max_cached_hist_node”参数,可以更好地控制直方图的CPU缓存大小,在深度树场景中优化内存使用。 这些更新进一步增强了XGBoost在处理结构化数据方面的优势。在内存管理、GPU利用率和多目标树构建方面的改进,增强了它作为处理结构化数据挑战的首选。新版本将“hist”设为默认的树方法,优化基于直方图的方法。它还为“approx”树方法引入了GPU支持,展示了XGBoost在计算效率方面的承诺。…

Leave a Comment

Can't find what you're looking for? Try refining your search: