Press "Enter" to skip to content

Tag: Uncategorized

谷歌Deepmind研究介绍了FunSearch一种在数学和计算机科学中寻找新解决方案的新人工智能方法

LLMs擅长理解和生成人类般的文本,使其能够理解并生成模仿人类语言的回应,改善机器与人类之间的沟通。这些模型在语言翻译、摘要、问答、文本生成、情感分析等各种任务中具有多样性和适应性。它们的灵活性使其可以在各行各业和各种应用中使用。 然而,LLMs有时会出现错觉,导致产生可信的错误陈述。GPT模型等大型语言模型在语言理解和生成方面非常先进,但由于多种原因,仍然可能产生虚构的响应。如果向模型提供的输入或提示是模糊的、矛盾的或误导性的,模型可能会基于它对输入的理解生成错误的响应。 Google DeepMind的研究人员通过提出一种称为FunSearch的方法来克服这一限制。它将预训练的LLM与评估器相结合,可以防止虚构和错误的想法。FunSearch通过组合多个重要因素,将初始评分较低的程序演变为评分较高的程序,以发现新知识。FunSearch生成能够解决问题的程序。 FunSearch作为一个迭代过程运行,在每个周期中,系统从当前程序池中选择特定的程序。然后,这些选定的程序经过LLM处理,LLM在其基础上进行创新性扩展,生成经过自动评估的新程序。其中最有前景的程序被重新引入现有程序池中,建立起一个自我增强的循环。 研究人员抽样表现较好的程序,并将其作为提示输入LLMs以改进它们。他们从一个初始程序开始,作为骨架,并只发展管控部分的关键程序逻辑。他们设置一个贪婪的程序骨架,并通过在每一步上放置优先级函数来做决策。他们使用基于岛屿的进化方法来维持一个多样化的程序池。他们异步地扩展它,以扩大他们的方法的适用范围,寻找新的结果。 FunSearch使用与装箱问题相同的一般策略。它不是将物品放入容量最小的箱子中,而是仅当放置物品后适应度非常紧密时才将物品分配给容量最小的箱子。这种策略消除了不太可能填充的小箱隙。FunSearch的一个关键组成部分是,它在程序空间中运行,而不是直接搜索构造。这使得FunSearch具有真实世界应用的潜力。 当然,这只是初始阶段。FunSearch的进展将自然地与LLMs的整体发展相一致。研究人员致力于扩展其功能,以解决社会中的各种重要科学和工程挑战。

Leave a Comment

如何使用Github?逐步指南

在GitHub上注册的六个步骤 步骤 1:注册GitHub账号 访问他们的网站并点击注册按钮。 填写相关信息,包括您的用户名、电子邮件和密码。 完成后,验证您的电子邮件,您将拥有一个免费的GitHub账号,可用于代码存储库和协作。 https://docs.github.com/en/get-started/quickstart/hello-world 步骤 2:在GitHub上创建一个代码库 在GitHub上创建一个代码库 要为您的项目创建GitHub代码库,请按照以下简单的步骤进行: 1. 在任何GitHub页面的右上角点击“+”符号,然后选择“新建代码库”。 2. 在“代码库名称”框中为您的代码库命名。 3. 在“描述”框中添加简短的描述。 4. 选择您的代码库是公开还是私人。 5. 选中“添加README文件”的选项。 6. 点击“创建代码库”按钮。 此代码库可以用于组织和存储文件、与他人进行协作,并在GitHub上展示您的项目。 https://docs.github.com/en/get-started/quickstart/hello-world…

Leave a Comment

支持向量机(SVM)是什么?

支持向量机(SVM)是一种在机器学习领域中使用的监督学习算法。它主要用于执行分类和回归等任务。该算法可以处理各种任务,例如判断电子邮件是否为垃圾邮件、识别手写字体,甚至在图片中检测人脸。它非常适应性强,能处理大量信息和数据中的复杂关系。 SVM的主要任务是根据特征绘制最佳的分隔线(或平面),以区分不同组的事物。就像在数据集中找到不同类别之间的最佳边界一样。因此,无论是对文本、图像还是其他任何东西进行分类,SVM都是机器学习中的首选工具。 SVM的类型 线性支持向量机 当数据可以通过一条直线轻松分为两组时,线性SVM效果最好。想象一下你的数据就像是纸上的点,你可以画一条直线将它们整齐地分成两个不同的类。也就是说,数据应该是完全线性可分的。 非线性支持向量机 当数据无法通过一条直线分类成两组时,我们就会引入非线性SVM。这种情况下,数据不是线性可分的。在这种情况下,非线性SVM可以派上用场。在现实世界中,数据通常杂乱无章,不遵循简单的规律,这时我们就可以使用非线性SVM及其核技巧。 它是如何工作的? 想象一下,你手上有两组事物,比如绿色和蓝色的点,散落在地板上。SVM的任务是找到一条最佳的直线(或者如果你在三维世界中则是一个平面),将这些点分隔成各自的组。 现在,可能有很多条分隔这些点的直线,对吧?但是SVM会寻找一个特殊的直线——与最接近的绿色点到直线的距离和最接近的蓝色点到直线的距离之间有最大距离的直线。这个距离被称为“间隔”,SVM希望使其尽可能大。 那些在定义直线时起着关键作用的最近的点被称为“支持向量”。SVM专注于这些点,以绘制最佳的直线,使两组之间的空间最大化。 但是,如果你的点没有被一条直线整齐地分开呢?如果它们到处都是?这就是SVM可以使用所谓的“核技巧”将问题提升到一个更高维度空间的地方,这样可以绘制出更复杂的分割曲线或曲面。 用例与应用 1. 垃圾邮件过滤:想象一下,你的电子邮箱里有一堆邮件,其中一些是垃圾邮件,一些则不是。支持向量机(SVM)可以用来创建一个智能过滤器,学会区分垃圾邮件和普通邮件。它会查看邮件的各种特征,比如使用的词语,并绘制一条线来将垃圾邮件与非垃圾邮件分开,保持您的邮箱清洁。 2. 手写识别:如果你希望你的计算机识别不同人的手写。SVM可以做到这一点。通过分析手写字母的特征,比如形状和大小,SVM可以绘制线条或曲线来将一个人的手写与另一个人的手写分开,使其在邮政服务等应用中有用于识别数字。 3. 医学诊断:在医学领域,SVM可以帮助诊断疾病。假设你有关于患者的数据,其中一些患有某种疾病,另一些没有。SVM可以分析各种健康指标,并创建一个边界来区分健康患者和患有该疾病的患者。这可以帮助医生进行更准确的诊断。 4. 图像分类:考虑这样一个场景,你有很多图片,其中一些是猫,一些是狗。SVM可以成为一个英雄,创建一个系统,学会根据颜色、形状或图案等特征区分猫和狗。它绘制一条线(或更复杂的边界)来正确分类新的图片。 5. 股票市场预测:如果你对股票市场感兴趣,SVM可以派上用场。通过分析历史股票数据,考虑交易量和价格变动等各种因素,SVM可以创建一个模型来预测股票的涨跌。 参考资料: https://towardsdatascience.com/support-vector-machine-introduction-to-machine-learning-algorithms-934a444fca47…

Leave a Comment

提升数据安全性与协作能力:AWS Clean Rooms引入机器学习和差分隐私功能

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.49.22-AM-1024×573.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.49.22-AM-150×150.png” /><p>亚马逊网络服务(AWS)推出了安全数据共享服务Clean Rooms的新更新,通过创新的机器学习(ML)和差分隐私功能增强了其功能。这些进步使企业能够安全地协作,利用机器学习模型的能力,并在进行准确的数据分析的同时保护敏感数据隐私。</p><p>Clean Rooms的最新版本引入了一套强大的功能,旨在加强数据隐私和促进安全协作。机器学习支持的添加使用户能够利用ML模型而不暴露原始数据。这一创新功能使得协作数据分析成为可能,而不会危及数据隐私,对于希望获取洞察力而不泄露敏感信息的企业来说,这是一个福音。</p><p>一个重要的新增功能是将差分隐私功能集成到Clean Rooms中。这个新颖的功能将精心校准的错误或“噪音”引入到查询结果中,确保分析准确性同时使个人数据贡献难以理解。通过将隐私视为有限资源,并通过隐私预算组件对其进行处理,这个功能防止了数据泄露,避免了隐私资源的耗尽和潜在违规行为。</p><p>差分隐私是一种在数据共享期间增强隐私保护的技术,它可以揭示统计模式而不泄露具体个人细节的能力。AWS Clean Rooms简化了这项技术的应用,使其易于实施。通过启用差分隐私功能并在协作环境中配置隐私策略,用户可以轻松地使用这种增强隐私保护技术。</p><p>在此更新中的一个开创性功能是Clean Rooms ML,它允许用户在保护敏感数据的同时使用机器学习模型进行预测分析。它的应用涵盖了各个行业,促进了有针对性的营销工作,确定潜在客户,并加速了临床研究,同时不暴露关键信息。</p><p>Clean Rooms ML的实施涉及在组织数据共享协作中训练AWS管理的模型,从而消除了用户构建和部署自己的模型的需求。这种无缝整合的ML功能使用户具备灵活的控制能力,可以调整模型的预测结果,确保分析的适应性和精确性。</p><p>此外,Clean Rooms还引入了一系列隐私控制功能,授权用户管理具有适当权限的Clean Rooms成员执行的查询和输出。这个额外的控制层进一步加强了协作生态系统中的数据安全和隐私保护措施。</p><p>在本质上,改进后的AWS Clean Rooms标志着安全数据协作的范式转变,是在保护敏感信息的同时释放全面数据分析潜力的重要步伐。AWS通过融合最先进的机器学习和差分隐私功能,优先考虑了数据安全,而不会牺牲分析效率,为更安全、更有洞察力的协作未来铺平了道路。</p><p>本文首发于<a href=”https://guoyuhan.love/5g-robots-clean-singapores-rivers.html”>Enhancing Data Security and Collaboration:…

Leave a Comment

微软和佐治亚理工学院的研究人员推出TongueTap:使用头戴式设备进行多模式舌头手势识别

在迅速发展的可穿戴技术领域,追求平滑、无需手动操作的交互方式产生了突破性的发现。TongueTap是一种通过同步多个数据流实现舌头手势识别来控制佩戴式设备的技术,它是一项有前景的发展。这种方法使用户能够静默地进行交互,无需使用手或眼睛,也无需需要通常放置在口内或接近口腔的特殊接口。 在与美国华盛顿州雷德蒙德的微软研究院合作下,乔治亚理工学院的研究人员将两个商业头戴式设备中的传感器(Muse 2和Reverb G2 OE设备)进行了整合,创建了一种舌头手势接口(TongueTap)。这两个头戴式设备都包含IMU和光电测量(PPG)传感器。其中一个头戴设备还包括脑电图(EEG)、眼动追踪和头部追踪传感器。两个头戴设备的数据使用“实验室流式层(LSL)”进行了同步,该系统是用于多模式脑-计算机界面常用的时间同步系统。 团队在其流程中使用了SciPy对EEG信号进行了128Hz低通滤波和独立分量分析(ICA)处理,同时对其他传感器分别应用了主成分分析(PCA)。为了进行手势识别,他们使用Scikit-Learn中的支持向量机(SVM)方法,使用径向基函数(RBF)核函数和超参数C=100、gamma=1进行二元分类,判断一个移动窗口的数据是否包含手势或非手势。 他们通过与16名参与者合作,收集了用于评估舌头手势识别的大型数据集。研究中最有趣的结果是哪些传感器在分类舌头手势时最有效。Muse上的IMU传感器是最有效的传感器,单独使用可以达到80%的准确率。多模态组合,包括Muse IMU传感器,效率更高,多种PPG传感器的准确率达到94%。 基于表现最佳的传感器,研究人员观察到,耳后的IMU是一种低成本的舌头手势检测方法,其位置可以与以往的口腔感应方法相结合。使舌头手势成为产品的关键步骤之一是建立可靠的、用户无关的分类模型。为了使手势在更现实的环境中适应,需要进行更生态有效的研究设计,包括多次实验和在不同环境之间进行移动。 TongueTap是朝着平滑、直观的可穿戴设备交互方向迈出的一大步。它利用商业可购买的技术来识别和分类舌头手势,为实现离散、准确和用户友好的佩戴式设备控制打下了基础。舌头交互的最有前景的应用是控制增强现实界面。研究人员计划通过将其用于增强现实头盔,并与其他注视交互方式进行比较,进一步研究这种多器官交互。

Leave a Comment

探索单细胞生物学中的人工智能前沿:对Geneformer和scGPT等零射基础模型的批判性评价

Translate from English to Chinese: 基于基因形态模型在单细胞生物学中的应用近来一直是研究人员讨论的热点话题。像scGPT、GeneCompass和Geneformer这样的模型是该领域的一些有希望的工具。然而,它们的有效性一直是一个令人担忧的问题,特别是在零-shot环境中,尤其是当这个领域涉及到探索性实验和缺乏明确的标签进行微调时。本论文基于此问题,对这些模型的零-shot性能进行了严格评估。 以前,有研究依赖于对特定任务进行微调,但由于该领域的特性以及高计算要求,当应用于单细胞生物学领域时,其局限性变得非常明显。因此,为了应对这一挑战,微软研究人员评估了Geneformer和scGPT基因形态模型在涉及多样数据集和多个任务的多个方面上的零-shot性能,如细胞类型聚类的嵌入表示效用、批效应校正和基于预训练目标的模型输入重构的效果。 选择这两个模型的原因是它们的预训练权重(在评估时的时间点上)是可用的。研究人员使用了五个不同的人类组织数据集进行评估,每个数据集都对单细胞分析提出了独特且相关的挑战。为了比较,研究人员还使用了一个名为scVI的生成模型,该模型在每个数据集上进行了训练。他们使用了以下指标来评估每个任务: 对于评估细胞嵌入,他们使用平均轮廓宽度(ASW)和平均Bio(AvgBIO)评分来计算细胞类型在嵌入空间内的唯一度。 对于批次整合,他们采用一种在0到1之间的变体AWS评分,0表示完全分离批次,1表示完美混合批次。 对于评估scGPT和Geneformer在预训练目标上的性能,分别使用均方差(MSE)和皮尔逊相关性。 在这两个度量标准上,scGPT和Geneformer的表现均不如基准策略。Geneformer在不同数据集上具有很大的方差,尽管scGPT在其中一个数据集上的表现优于基准模型scVI,但在另外两个数据集上表现较差。随后,研究人员评估了预训练数据集对模型性能的影响,主要集中在scGPT(四个变体)上,并发现所有模型变体的中位数得分有所改善。 在评估批次效应时,两个模型均表现不佳,常常落后于scVI等模型,这表明它们对零-shot环境中的批次效应并不完全稳健。在最后一组评估中,研究人员发现scGPT无法重构基因表达,而Geneformer的表现更好。与基准模型相比,他们观察到基准预测胜过所有scGPT变体,而Geneformer在其中一个数据集上的表现优于平均排名。 总之,研究人员对将scGPT和Geneformer应用于单细胞生物学的零-shot能力进行了全面分析,他们的分析突显了这些模型的不佳性能。他们的研究发现,scGPT在所有评估中优于Geneformer模型。最后,研究人员还提供了一些关于未来工作需要关注的见解,尤其是关于预训练任务、预训练数据集与下游分析任务性能之间的关系。

Leave a Comment

MLOps是什么?

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Blog-Banner-2-1-1024×576.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Blog-Banner-2-1-150×150.png”/><p>机器学习运营,或MLOps,是一套用于通过将机器学习(ML)开发和ML部署结合起来,以标准化和简化在生产中连续交付高性能模型的过程。</p><p>制作和完善ML模型被称为ML开发。部署机器学习模型是将它们发布供在生产环境中使用。</p><p>通过自动化将ML模型从开发移至生产所需的过程,MLOps弥合了这两种方法之间的差距。这有助于快速和有效地部署ML模型,并保证其在工业环境中的持续成功。</p><p><strong>MLOps的好处有哪些?</strong></p><p>MLOps的价值在于它使企业能够:</p><ul><li>MLOps简化了将ML模型从开发到生产的流程,加快了部署速度,为组织提供了优势。</li><li>MLOps通过确保在训练环境一致的生产环境中部署ML模型,帮助企业提高机器学习(ML)模型的质量。这样做减少了模型随着基础数据分布的变化而逐渐失去准确性的可能性。</li><li>通过自动化管理和监控生产中的ML模型的过程,MLOps能够降低ML运营的高成本。员工因此可以将更多时间投入到其他项目中,如创建新的ML模型。</li></ul><p><strong>那么,MLOps到底是如何工作的呢?</strong></p><p>连续集成和交付(CI / CD)流水线通常用于实施MLOps。构建,测试和发布软件应用程序都是可以通过CI / CD流水线自动化的过程。</p><p>以下是MLOps CI / CD流水线中的典型步骤示例:</p><ul><li>使用过去收集的数据训练ML模型。</li><li>将ML模型与保留数据集进行比较进行测试。</li><li>将ML模型放入生产环境中,称为“部署”。</li><li>密切关注ML模型,确保其在生产中保持良好状态。</li></ul><p>您可以手动或自动启动CI / CD工作流。例如,当学习到机器学习模型的新版本时,可以激活流水线。</p><p><strong>用于MLOps的工具有哪些?</strong></p><p>对于MLOps,您可以选择各种有用的工具。常用工具包括:</p><ul><li>一套被称为ML框架的工具可用于训练和部署ML模型。最常用的ML框架包括TensorFlow,PyTorch和scikit-learn。</li><li>云计算平台提供了在生产中安装和管理ML模型所需的基础设施和服务。亚马逊网络服务(AWS),Google云平台(GCP)和Microsoft Azure是为MLOps而知名的云计算平台之一。</li></ul><p><strong>MLOps系统包括:</strong></p><ul><li>用于构建的集中式中心。</li><li>发布。</li><li>维护机器学习(ML)模型。</li></ul><p>Kubeflow,MLflow和Prefect是受欢迎的MLOps系统示例。</p><p><strong>如何开始使用MLOps</strong></p><p>您可以采取一些措施来开始使用MLOps:</p><p><strong>选择合适的工具:</strong>MLOps工具有各种形式。选择符合您的要求和预算的工具。</p><p><strong>设置CI / CD流水线:</strong>带有CI / CD流水线的自动化可以将ML模型从开发到生产的过程。</p><p><strong>监控您的ML模型:</strong>密切关注您的生产ML模型的表现。</p><p><strong>结论</strong></p><p>MLOps技术的目标是通过将ML开发和ML部署结合起来,标准化和简化在生产中连续交付高性能模型的过程。企业可以通过加快ML模型的部署速度,提高模型质量和降低ML运营成本从MLOps中受益。您可以采取多种措施开始使用MLOps,例如选择适当的工具,建立CI / CD流水线以及监控您的ML模型。</p> 机器学习运营,或称为MLOps,是一组流程,旨在通过将机器学习(ML)开发和ML部署结合起来,标准化和简化在生产中连续交付高性能模型的过程。 制作和优化ML模型被称为ML开发。部署机器学习模型是将它们发布供在生产环境中使用的过程。 通过自动化将ML模型从开发移到生产所需的过程,MLOps弥合了两种方法之间的差距。这有助于快速有效地部署ML模型,并使其在工业环境中保持成功。 MLOps的好处是什么?…

Leave a Comment

亚马逊推出Q:一款可以根据企业定制的生成式AI聊天机器人

亚马逊网络服务(AWS)最近宣布了一款开创性的生成式AI助手 – 亚马逊Q,旨在改变工作场所。亚马逊Q突出的特点是能够根据具体的业务需求定制其辅助功能,利用公司的数据和专业知识提供答案、解决问题、生成内容和促进行动。 亚马逊Q的主要特点和能力包括: 满足业务需求的定制化:亚马逊Q可以根据组织已有的身份、角色和权限进行个性化互动。这种定制化确保了助手的回答和建议与公司特定的工作流程和信息系统相关。 安全与隐私:亚马逊Q的一个突出特点是其内置的安全和隐私措施。与其他可能最初不包含这些关键特性的生成式AI解决方案不同,亚马逊Q设计时就考虑了这些因素。 开发人员和IT支持:对于开发人员和IT专业人员来说,亚马逊Q是一个知识渊博的助手,可以帮助处理从故障排除到代码优化的各种任务。它经过了AWS的知识和经验培训,在各种AWS服务和工具上提供见解和解决方案。 功能开发和代码转换:亚马逊Q帮助开发新功能和转换现有代码,简化应用程序开发和维护。它可以自动化开发过程的许多方面,减少开发人员所需的时间和精力。 与业务数据和系统的集成:助手可以连接到公司的数据和系统,为问题解决和内容生成提供量身定制的帮助。这种能力使员工能够充分利用生成式AI,有效利用内部资源。 管理控制:亚马逊Q允许管理员对其可以处理的主题和可以提供的回答设定控制,确保其使用符合公司政策和数据访问限制。 在各种服务中的广泛应用:亚马逊Q扩展其能力到各种AWS服务和应用程序,包括Amazon QuickSight、Amazon Connect和AWS供应链。这种整合使得能够更高效地执行各种领域特定任务。 亚马逊Q代表了生成式AI在工作场所应用的重大进展,提供了一个多功能、安全、定制化的助手,可以增加各种业务功能的生产力和创新能力。 本文来源:亚马逊推出Q:一款可以专门为企业定制的生成式AI聊天机器人 – MarkTechPost

Leave a Comment

美国电脑图形处理器公司NVIDIA和德克萨斯大学奥斯丁分校共同研发出了MimicGen:一种用于机器人的自主数据生成系统

通过模仿学习人类示范,可以训练机器人执行各种操作行为。一种流行的方法涉及通过各种控制界面,让人类操作员与机器人臂进行远程操纵,产生机器人执行不同操作任务的多个示范,并使用这些数据训练机器人独立执行这些任务。最近的努力尝试通过与更多的人类操作员在更广泛的功能范围内收集更多的数据来扩展这个范例。这些研究已经证明,在大规模、多样化的数据集上进行模仿学习可以取得令人印象深刻的性能,使机器人能够推广到新的物体和未知的任务。 这意味着收集大量丰富的数据集是创建广泛熟练的机器人的关键第一步。但是,这一成就只有通过昂贵和耗时的人工工作才能实现。看一个机器人模仿案例研究,该案例中,机器人的任务是将一只可乐罐从一个垃圾桶移动到另一个垃圾桶。尽管只有一个场景、一个物品和一个机器人参与这个简单的任务,但需要一个庞大的数据集200个演示才能达到73.3%的相对成功率。对于最近尝试扩展到具有不同场景和物品的环境的努力,需要更大规模的数据集,包括数万个演示。例如,它表明,只有使用超过20,000个轨迹的数据集,才能推广具有物体和目标微小变化的挑战。 图1:研究人员提供了一个数据生成系统,通过重新利用人类示范使其在新的情境中变得有用,可以从少量人类示范中生成大量不同的数据集。他们使用MimicGen为各种物品、机器人装备和场景设置提供数据。 在约1.5年的RT-1数据收集工作中,涉及到多位人类操作员、多个月份、多个厨房和机器人臂,以97%的成功率成功地重新安排、清理和恢复物品。然而,在现实世界的厨房中实现这样一个系统所需要的年数仍待发现。他们问:“这些数据在多大程度上包含不同的操作行为?”这些数据集可能包括在不同的环境或情况下使用的类似的操作技术。例如,当抓取一个杯子时,无论杯子放在台面的何处,人类操作员的机器人轨迹可能是非常相似的。 将这些轨迹调整到不同的情况中可以帮助产生各种各样的行为。虽然有希望,但这些方法的应用受到其对特定任务和算法的假设的限制。相反,他们希望创建一个可以轻松整合到当前模仿学习过程中并增强各种活动性能的通用系统。在这项研究中,他们提供了一种独特的数据收集技术,该技术可以使用少量的人类示例自动生成跨多种场景的大规模数据集。他们的技术MimicGen将有限数量的人类示范拆分为以物品为中心的部分。 然后,它选择一个人类示范,对每个以物品为中心的部分进行空间改变,将它们拼接在一起,并指导机器人按照这条新路径进行操作,在不同的情境中采集最新的示范,其中包含不同的物体姿势。尽管方法简单,但他们发现这种方法非常擅长从各种情境中生成庞大的数据集。这些数据集可用于模仿学习,以训练能胜任的智能体。 他们的贡献包括以下内容: • NVIDIA和UT Austin的研究人员提出了MimicGen技术,该技术利用新的情境适应性,从有限数量的人类示范中创建大规模、多样化的数据集。 • 他们展示了MimicGen可以在各种场景配置、物体实例和机器人臂上提供高质量的数据,这些数据在原始示范中没有包含,以通过模仿学习训练熟练的智能体(见图1)。拾取和放置、插入和与关节式物体的互动仅是MimicGen广泛适用于的许多长期和高精度活动中的几个例子,这些活动需要具备不同的操作能力。只使用200个源人类示范,他们为两个模拟器和一个真实的机器人臂的18个任务生成了50,000多个额外的演示。 • 他们的方法与收集更多人类示范相比表现相当;这就引发了一个重要的问题,即何时需要向人类请求额外数据。使用MimicGen生成相同数量的合成数据(例如,从10个人类生成200个示范与从200个人类生成200个示范)会导致相似的代理性能。

Leave a Comment

颠覆产前诊断:了解PAICS深度学习系统如何增强对神经超声图像中胎儿颅内畸形的检测

人工智能(AI),尤其是深度学习(DL),在医学影像和医疗领域中找到了越来越广泛的应用。与DL相关的研究的相当一部分集中在使用已知地面真实标签的验证数据集来回顾性评估模型性能。很少有研究进一步探讨了DL辅助如何影响声学家的诊断能力,甚至更少有研究探索DL在临床诊断中如何最有效地提供帮助。 在本研究中,进行了一项多读者、交叉随机对照试验(RCT),招募了36名声学家。他们的任务是解读胎儿神经声学图像和视频,既不使用PAICS系统的帮助,也使用两种不同模式的PAICS辅助。主要目标是评估PAICS在支持胎儿颅内畸形诊断方面的有效性,并将其与其他辅助诊断方法进行比较。 这项研究的发现表明,PAICS系统深度学习能力增强的图像和视频阅读模式大大提高了中枢神经系统畸形分类的准确性。这表明该系统在提高声学家对胎儿颅内畸形检测方面的诊断性能方面具有重要的潜力。 在研究过程中,共扫描了734个有颅内异常发现的胎儿和19,709个正常胎儿。然而,由于图像质量或冗余等问题,排除了254个有异常发现的胎儿和19,631个正常胎儿。最终,符合纳入标准的共有558个胎儿的709个原始图像和视频(549个图像和160个视频)被纳入研究。 试验结果表明,PAICS有潜力提高声学家从神经声学数据中识别胎儿颅内畸形的诊断性能,无论是同时使用还是以次要模式使用。值得注意的是,对于所有读者来说,同时使用PAICS的效果更好。进一步的研究应在真实临床环境中进行,涉及更多病例,以全面评估PAICS在检测先天性颅内畸形方面提供的帮助。

Leave a Comment

颠覆数字艺术保护:打击未经授权的AI网络抓取的新工具

艺术与创造表达领域出现了一个紧迫的问题,艺术家们正在努力应对AI网络爬虫对其在线作品的未经授权的使用。这些操作收集大量的数字内容用于训练图像生成模型,通常未经原创者的同意或补偿。这种情况使艺术家们在面对为各种目的收集这些图像的技术公司时感到无助。 虽然对这个问题的担忧不断增加,但现有的解决方案却有限。在技术似乎超越法律和道德考虑的背景下,艺术家们长期以来面临着保护他们的数字创作的挑战。网络爬虫经常无视用于保护数字艺术品的“选择退出”或“不爬行”指令,给艺术家们留下了很少的选择。 然而,一个潜在的解决方案已经出现。研究人员引入了一种创新工具,旨在对抗AI公司对在线艺术作品的未经授权使用。这个工具微妙地操纵图像像素,引入不可察觉的改变,影响AI模型的训练过程。 借助这个工具,创造性的干扰潜力是巨大的。例如,在模型的训练阶段,一个物体的图像可以被转变为另一个物体的图片,从而导致意想不到的结果。该工具的创造者已经证明,即使是少量这样的“攻击”也可以破坏文本到图像生成模型的基本特征,使其无法生成有意义的图像。 它以显著的效率实现这些结果的能力使之与众不同。与一般认为阻止爬取操作需要上传大量改变过的图像的共识相反,这个工具只需要少于指定数量的“有毒”样本就能实现干扰。 对于个体艺术家和更大的实体,如工作室和开发者来说,这个工具提供了希望。它可以成为他们在保护数字资产和创意努力方面的有力工具。例如,标志性品牌可以利用这个工具保护他们的经典形象,同时探索其角色的创新概念。 此外,这个工具可以转变艺术风格,为其能力增添一种引人入胜的维度。它可以以特定方式请求一个图像,并产生完全不同的图像。这种多功能性使其成为那些希望突破艺术表达界限的人的宝贵工具。 总之,这个创新工具是一个具有突破性的解决方案,承诺在艺术家和创意实体对抗未经授权的AI网络爬虫操作中赋予他们力量。借助其微妙地操纵图像像素、破坏训练过程和转变艺术风格的能力,这个解决方案为保护创意表达的数字领域提供了一种强大工具。在技术与艺术之间的界限日益模糊的时代,它是艺术家们的希望之光,确保他们的作品在数字领域得到尊重和保护。

Leave a Comment

改革语言模型微调:通过NEFTune的噪声嵌入实现前所未有的收益

指令微调是在小规模筛选指令数据集上对LLM进行训练的过程,从而使模型在基于指令的任务上表现出较高的性能。它具有许多优点,例如更好的可解释性、减少偏差和增强任务性能。因此,指令微调对于发挥LLM的全部潜力至关重要,并因此变得必不可少,以改善过程的结果。 本研究论文的作者们提出了一种名为NEFTune(Noisy Embedding Instruction Fine Tuning)的新方法,以改善基于指令任务的模型性能。他们证明通过在微调的前向传递过程中向训练数据的嵌入向量添加随机噪声,可以显著提高模型的性能,而无需额外的计算资源或附加数据。NEFTune在保持事实问答性能的同时,使LLM在对话任务中的性能出乎意料地提高。 研究人员主要使用LLaMA-1、LLaMA-2和OPT-6.7B等7B参数LLM以及Alpaca、ShareGPT等微调数据集进行了大部分实验。使用AplacaEval数据集评估结果,计算胜率-评估者GPT-4确定的LLM优于OpenAI的Text-Davinci-003模型的比率。 结果显示,使用NEFT对这些模型进行训练可以显著提高对话能力和答案质量。在使用噪声嵌入进行微调的情况下,LLaMA-2 7B的性能从29.8%大幅提高至64.7%,所有模型的平均性能提高约15%。除了使用LLM评估性能外,研究人员还使用了人工标注者。NEFT在88个事件中被优先选择,22个情况为平局,对应NEFT的胜率约为74%。 在其中一项实验中,LLaMA-2在Alpaca上进行了有和无NEFT的训练,并被询问了关于量子计算的提示。第二阶段,即使用噪声嵌入,回答更加流利,更清晰地解释了超决和量子纠缠等复杂概念。 研究人员假设在训练时引入噪声到嵌入中,模型变得不那么容易过拟合。模型不再专注于精确的信息分布,如格式细节、文本长度和准确措辞,而是提供了包含在预训练基础模型中的知识和行为的答案。 鉴于指令微调的重要性,多年来研究人员引入了许多模型和方法。NEFT不是第一个使用噪声嵌入来提高性能的方法。然而,它能够显著提高LLM在对话任务中的性能,提供更详细和清晰的解释,例如量子计算等复杂主题。最重要的是,该方法不需要额外的计算资源,本文的作者将其称为微调LLM的“免费午餐”。NEFTune有潜力被广泛应用于未来的LLM开发,使其成为增强LLM在各种现实任务中能力的有希望的工具。

Leave a Comment

微软Azure人工智能推出Idea2Img:自筹资金的多模态人工智能框架,用于自动开发和设计图像

“图像设计与生成”的目标是根据用户提供的广泛概念生成一幅图像。这个输入的概念可能包括参考图像,例如“狗看起来像图中的那只”,或者进一步定义设计意图应用的指示说明,例如“用于Idea2Img系统的标志”。人们可以利用文本到图像(T2I)模型根据对想象图像(IDEA)的详细描述创建图片,用户必须手动探索多个选项,直到找到最能描述问题(T2I提示)的一个。 鉴于大型多模态模型(LMM)的令人印象深刻的能力,研究人员调查了我们是否可以基于LMM进行训练,使系统具备相同的迭代自我完善能力,从而使人们摆脱将概念转化为视觉图像的繁重任务。在涉足未知领域或处理困难任务时,人类有自然的倾向不断提升他们的方法。大型语言模型(LLM)代理系统表明了利用自我完善可以更好地解决缩写生成、情感检索、基于文本的环境探索等自然语言处理任务。当我们从纯文本活动转向多模态设置时,会出现增强、评估和验证多模态内容(如多个交错的图像-文本序列)的挑战。 自我探索使LMM框架能够自动学习解决各种现实挑战,例如使用图形用户界面(GUI)与数字设备进行交互,带领体验代理穿越未知领域,玩数字游戏等。微软Azure的研究人员通过将“图像设计与生成”作为任务来研究迭代自我完善的多模态能力。为此,他们提出了Idea2Img,一种自我完善的多模态框架,用于自动开发和设计图像。LMM GPT-4V(vision)与Idea2Img中的T2I模型进行交互,以对模型的应用进行调查,并确定一个有用的T2I线索。LMM将处理T2I模型的返回信号(草案图像)的分析以及创建后续回合的查询(文本T2I提示)。 T2I提示生成、草案图像选择和反馈反思都有助于多模态的迭代自我完善能力。具体而言,GPT-4V执行以下步骤: 提示生成:GPT-4V生成N个文本提示,这些提示与输入的多模态用户IDEA相对应,条件是先前的文本反馈和完善历史 草案图像选择:GPT-4V仔细比较相同IDEA的N个草案图像,并选择最有前途的一个 反馈反思:GPT-4V分析草案图像与IDEA之间的差异。然后,GPT-4V就出了什么问题,为什么出了问题以及T2I提示如何改进给出反馈。 此外,Idea2Img还具有内置的记忆模块,可跟踪每种提示类型(图片、文本和反馈)的探索历史。对于自动图像创建和生成,Idea2Img框架在这三个基于GPT-4V的过程之间反复循环。作为改进的图片设计和创作助手,Idea2Img是用户的有用工具。通过接受设计方向而不是详细的图片描述,适用于多模态的IDEA输入,并生成具有更高语义和视觉质量的图像,Idea2Img在T2I模型中脱颖而出。 团队回顾了一些图片创建和设计的示例案例。例如,Idea2Img可以处理任意交错的图片-文本序列的IDEA,将视觉设计和预期用途描述整合到IDEA中,并从输入的图像中提取任意的视觉信息。基于这些更新的特性和用例,他们创建了一个包含复杂问题的104个样本评估IDEA集,这些问题人们在第一次可能会回答错误。团队使用Idea2Img和各种T2I模型进行用户偏好研究。用户偏好分数在许多图像生成模型中的提高,例如与SDXL相比增加了26.9%,显示了Idea2Img在这一领域的功效。

Leave a Comment

认识ToolJet:一个开源的低代码框架,以最小的工程投入构建和部署内部工具

在软件开发的世界中,组织面临的一个常见挑战是在不过多花费工程力量的情况下迅速构建和部署内部工具的需求。这些工具对于简化各种流程和提高组织效率至关重要。然而,传统的构建此类工具的方法往往需要大量的时间和资源,导致延误解决关键业务需求。 解决这个问题的现有解决方案包括低代码和无代码平台,旨在简化应用程序开发。尽管这些平台提供了一定的便利性,但它们在定制性、灵活性和集成能力方面常常存在限制。在与外部数据源、API和SaaS工具集成时,组织可能需要改进功能或面临挑战。 让我们来认识一下ToolJet,这是一个开源的低代码框架,为这些挑战提供了一个引人注目的解决方案。 ToolJet的拖放前端构建器使用户能够在几分钟内创建复杂且响应式的前端界面,无需进行大量编码。ToolJet的独特之处在于其与一系列数据源的强大集成能力,包括数据库如PostgreSQL、MongoDB和Elasticsearch,具有OpenAPI规范和OAuth2支持的API端点,支持Stripe、Slack、Google Sheets、Airtable、Notion等SaaS工具,以及S3,GCS和Minio等对象存储服务。 与ToolJet相关的指标证明了其能力。它提供了超过40个内置响应式组件,为设计用户界面提供丰富的库。它还提供了内置的无代码数据库,支持多页面应用程序,甚至允许多人协作编辑,促进开发人员之间的协作。ToolJet的多功能性还包括与各种主机选项的兼容性,包括Docker、Kubernetes、Heroku、AWS EC2、Google Cloud Run等。此外,它具有细粒度的访问控制、运行自定义JavaScript和Python代码的能力,以及支持单点登录(SSO)提供程序,增强安全性和定制性。 总之,ToolJet为以最少的工程力量构建和部署内部工具提供了强大的解决方案。其令人印象深刻的功能、广泛的集成能力和易用性使其成为希望加速内部工具开发流程的组织的宝贵资产。通过利用ToolJet的能力,企业可以满足其独特需求,提高生产力,同时最大限度地减少开发时间和复杂性。

Leave a Comment

微软研究人员推出SpaceEvo:为设计超高效和量化的神经网络以适应现实设备而改变游戏规则

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-13-at-6.09.27-PM-1024×629.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-13-at-6.09.27-PM-150×150.png”/><p>在深度学习领域,开发有效的深度神经网络 (DNN) 模型,兼具高性能和最小延迟,以适应各种设备,仍然是一个挑战。现有的方法涉及基于硬件的神经架构搜索 (NAS),来自动化特定硬件设置下的模型设计,包括预定义的搜索空间和搜索算法。然而,这种方法往往忽视了对搜索空间本身的优化。</p><p>作为针对此问题的回应,一支研究团队引入了一种称为“SpaceEvo”的新方法,用于自动创建适用于特定硬件平台上高效INT8推理的专用搜索空间。SpaceEvo的独特之处在于其能够自动执行此设计过程,从而实现基于硬件的、量化友好的NAS搜索空间。</p><p>SpaceEvo的轻量级设计使其实用,只需25个GPU小时即可创建专为特定硬件的解决方案,具有成本效益。这种专用搜索空间,具有优先选择的硬件运算符和配置,可以探索具有低INT8延迟的更高效模型,始终优于现有的替代方法。</p><p>研究人员对两个广泛使用的设备进行了INT8量化延迟因素的深入分析,发现运算符类型和配置的选择显著影响INT8延迟。SpaceEvo将这些发现纳入考虑,创建了一个多样化的准确度高且INT8延迟友好的体系结构人口,在搜索空间内进行进化搜索算法、Q-T分数作为度量标准、重新设计的搜索算法和块级搜索空间量化方案等方面作出了贡献。</p><p>两阶段的NAS过程确保候选模型能够在不进行单独微调或量化的情况下达到可比较的量化准确性。对真实世界的边缘设备和ImageNet进行的广泛实验表明,SpaceEvo始终优于手动设计的搜索空间,在INT8量化准确性和延迟的权衡方面树立了新的基准。</p><p>总之,SpaceEvo代表了为不同的真实世界边缘设备提供高效深度学习模型的追求中的重要进展。其自动设计的量化友好搜索空间具有增强边缘计算解决方案可持续性的潜力。研究人员计划将这些方法应用于变压器等各种模型架构,进一步扩大其在深度学习模型设计和高效部署中的作用。</p>

Leave a Comment

谷歌将其顶点AI搜索更新为医疗和生命科学功能 (Gǔgē jiāng qí dǐan AI sōusuǒ gēngxīn wéi yīliáo hé shēngmìng kēxué gōngnéng)

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-13-at-2.35.11-PM-1024×627.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/Screenshot-2023-10-13-at-2.35.11-PM-150×150.png”/><p>在医疗领域,人工智能(AI)的出现成为一束希望的明灯,承诺引领进一步高效和精准的新时代。谷歌云与医疗领域的领导者合作,牵头推进人工智能技术的进展,即将改变医疗和生命科学的格局。从优化流程到加速医学研究,这项卓越技术的潜力无限,承载着更健康、更充实生活的希望。</p><p>基因AI在医疗保健领域最直接的应用之一在于增强个人获取重要信息并从中获取洞见的能力。通过谷歌云的顶点AI搜索,医疗专业人士现在可以利用经过医学调整的人工智能高效从各种来源(包括FHIR数据,临床笔记和电子健康记录(EHR))中提取准确的临床信息。这种搜索能力的飞跃解决了一个关键需求,因为医护人员经常面临从大量结构化和非结构化数据中筛选重要信息的挑战,其中关键信息很容易被忽视。</p><p>对于生命科学公司来说,基因AI是推动业务增强的动力,实现更精简的流程并支持精准医学的发展。顶点AI搜索与谷歌云的医疗保健API和医疗数据引擎的整合进一步加强了这一进展,确保符合《健康保险流通职责与问责法案》(HIPAA)的严格要求。</p><p>作为医疗保健领域的开拓者,Highmark Health设想未来医疗经验将类似于顶级零售商提供的无缝互动体验。通过他们的Living Health模型,Highmark Health旨在通过利用生成式AI来提高内部生产力、信息的可访问性以及医生和会员的整体体验,从而彻底改变客户和临床人员的互动方式。顶点AI和大型语言模型(LLMs)的整合承诺以前所未有的规模个性化会员材料和其他公开可用信息。</p><p>作为医疗保健领域的另一个阵容强大的公司,Hackensack Meridian Health正在通过将关键数据、应用和资源迁移到谷歌云上进行重大的IT现代化。这种过渡增强了敏捷性、可靠性和安全性,并从多样数据源中解锁了大量见解,加速了发现和创新。这种合作是Hackensack Meridian Health与谷歌云的更广泛合作的一部分,涵盖了人工智能利用、数据分析和生产力软件。</p><p>为了应对全国性的护士和医护人员心力交瘁和短缺的挑战,care.ai提供了基于生成式AI的解决方案。他们的智能护理设施平台由谷歌的大型语言模型提供支持,旨在减轻行政负担、缓解人员不足,并使临床医生能够更多地投入到患者护理中。care.ai致力于建立一个基于实时数据的生态系统,赋予临床和运营团队以无与伦比的有效性,通过创建持续学习环境和利用环境智能传感器来满足患者需求。</p><p>由谷歌开发的Med-PaLM 2是一种经过医学调整的大型语言模型,代表了基因AI技术的重大进步。这个专门的模型具备促进丰富、信息性讨论、回答复杂的医学问题和从复杂的非结构化医学文本中提取洞见的能力。通过与顶点AI搜索相辅相成,Med-PaLM 2为医疗组织提供了一个强大的工具包,以访问和理解复杂的医学信息,从而加快决策过程。</p><p>随着谷歌云与医疗保健和生命科学组织的合作不断深化,朝着在医疗保健领域安全有效的人工智能技术之路已经开始。通过数据和基因AI的协同作用,改善医疗体验和在生命科学领域加快进展的潜力已经在我们掌握之中。医疗保健的未来正在一次次基于人工智能的突破中重塑。</p>

Leave a Comment

BrainChip推出第二代Akida平台,用于边缘人工智能进步

在一个对人工智能(AI)能力有着无尽渴望的时代,神经网络处理器先驱BrainChip迈出了赋予边缘设备前所未有的处理能力的重大步伐。公司的最新发布,第二代Akida平台,代表了边缘AI领域的飞跃,为设备摆脱云端依赖提供了潜力。 BrainChip初次展示的Akida神经形态处理技术于2019年林利秋季处理器大会上展现出来,为这个旅程铺平了道路,并在2021年面向普通用户推出了开发套件。2023年3月,宣布了Akida 2.0的推出,这是一种承诺支持Temporal Event-Based Neural Network(TENN)加速和可选视觉变换器硬件的改进。这个增强不仅增加了平台的能力,还减轻了主机处理器的计算负载。BrainChip将Akida 2.0分为三个不同的产品类别:Akida-E,注重能源效率;Akida-S,设计用于无缝集成到微控制器单元和片上系统;Akida-P,一个高性能范围,辅以可选的视觉变换器加速。 现在,BrainChip启动了“提前访问”计划,授权访问Akida 2.0知识产权(IP),并承诺通过TENN支持实现“数量级”的计算密度提升。这一颠覆性的飞跃证明了向多模式边缘AI不可避免的转变,这一趋势加剧了对边缘智能计算的需求。研究人员对此发展表示赞誉,强调BrainChip的第二代Akida与性能、效率、准确性和可靠性的关键要求完全吻合,有助于加速这一转变。 Akida 2.0平台的核心是TENN,它们提供了模型尺寸和计算需求的“数量级”巨大减少。这种效率的提升对于加速AI采用并有望使边缘AI解决方案更易于访问和部署。 随着BrainChip向Akida 2.0 IP敞开大门,热切的创新者和科技爱好者被鼓励联系公司的销售部门以获取更多详情。虽然目前尚未公布定价,但基于第二代平台的硬件开发套件的发布时间尚待确认。 总之,BrainChip引入第二代Akida平台将重新定义边缘人工智能的领域。以TENN为核心,这项创新解决了边缘计算中对性能、效率和可靠性的迫切需求。

Leave a Comment

“NVIDIA是否滥用其人工智能市场主导地位?欧盟调查NVIDIA在人工智能芯片领域的压倒性控制力”

欧洲正在对著名GPU制造商Nvidia在AI芯片市场上的主导地位展开调查。华尔街日报的最新报道揭示,法国反垄断机构正在搜查Nvidia的法国办公室,旨在确定Nvidia是否从事违法的垄断行为。 法国竞争局(FCA)宣布进行了搜查,确认在图形芯片领域的某些制造商的办公室。其目的是发现任何垄断行为的迹象。尽管FCA没有点名被调查的公司,但《华盛顿每日新闻》的消息来源确认了Nvidia是调查对象。在搜查中,法国当局没收了物理和数字文件,并对Nvidia的员工进行了讯问。然而,Nvidia选择保持沉默。 在相关的发展中,彭博社援引消息人士的话称,欧洲竞争委员会目前正在与各行业利益相关者进行非正式讨论。其目标是评估Nvidia是否在企业和游戏领域操纵AI芯片市场。由于Nvidia的A100和H100芯片在AI芯片市场上占据了惊人的80%份额,像英特尔和AMD这样的传统CPU巨头正面临难以跟进的挑战。如果欧盟的调查确认存在垄断行为,Nvidia可能面临数十亿美元的罚款。 AI的流行使Nvidia受益匪浅。该公司的股票价格暴涨,最近一个季度的收入达到惊人的135.1亿美元,同比增长101%。凭借超过万亿美元的市值,Nvidia的成功是无可否认的。然而,伴随巨大的权力而来的是巨大的审查,如何处理这次欧洲调查的展开仍然待观察。

Leave a Comment

苹果的这项人工智能研究调查了LLM在性别刻板印象方面的行为问题

大型语言模型(LLMs)在过去几个月取得了巨大的进展,在许多不同领域击败了最先进的基准。人们在使用和研究大型语言模型(LLMs)方面有了明显的增长,特别是在自然语言处理(NLP)领域。除了在SAT、LSAT、医学院考试和智商测试等方面通过甚至超越,这些模型在各种自然语言任务中也显著超过了最先进技术(SOTA)。这些显著的发展引发了关于在日常任务中采用和依赖这些模型的广泛讨论,从医疗建议到安全应用再到分类工作项。 由苹果研究人员提出的一种新的测试范式之一,使用了当前LLMs正在使用的训练数据中可能被排除的表达式。他们表明,LLMs广泛使用了有性别偏见的假设。他们研究了LLMs对其决策的理由,并发现LLMs经常对刻板印象本身进行明确陈述,除了使用关于句子结构和语法的主张,这些主张在更详细的调查中并不成立。LLM的行为与西方文明的集体智慧相一致,至少在用于训练LLMs的数据中编码。找到这种行为模式、分离其原因并提出解决方案至关重要。 语言习得算法的性别偏见 关于语言模型中的性别偏见已经有了广泛的研究和记录。根据研究,无约束的语言模型反映并加剧了所处文化中的偏见。除了自动字幕、情感分析、毒性检测、机器翻译和其他NLP任务,性别偏见还在各种模型中得到了证明。性别不是唯一一个受到这种偏见影响的社会类别;宗教、肤色、国籍、残疾和职业都包括在内。 句子理解中的无意识偏见 人类句子处理文献还广泛记录了使用几种实验方法来证明性别偏见。总之,研究表明,了解文本中名词的有性别类别可以帮助理解,代词通常被认为是指主语而不是宾语。因此,在不太可能的情况下,句子得分可能会下降,阅读速度可能会降低,并且眼动实验中的回归等意外效应可能会发生。 社会对女性的偏见 鉴于性别成见和偏见在当今文化中的存在和普遍性,也许不应该奇怪语言模型的输出也会表现出偏见。从医学和经济学到教育和法律等各个领域都已经记录了性别偏见,但是这些发现的完整调查超出了本研究的范围。例如,研究发现各种学科和教育环境中存在偏见。即使是学前儿童也容易受到刻板印象的负面影响,这可能对自我认知、学业和职业选择以及其他发展领域产生持久影响。 设计 科学家们设计了一个类似于但与WinoBias不同的框架来研究性别偏见。每个研究项目都包括一对描述职业的名词,一个与男性刻板印象相关,另一个与女性刻板印象相关,以及一个男性化或女性化的代词。根据战术的不同,他们预期会有各种不同的反应。此外,根据与句子的词汇成分相关的假设和世界知识,该技术可能会从句子到句子不断变化。 由于研究人员认为WinoBias句子现在已成为多个LLMs的训练数据的一部分,他们在工作中避免使用这些句子。相反,他们按照上述模式构建了15个句子模式。此外,与WinoBias不同,他们不是根据美国劳工部的数据选择名词,而是根据衡量英语使用者对特定表示男性或女性倾向的职业名词看法的研究进行选择。 2023年,研究人员检查了四个对公众开放的LLMs。在模型有许多配置选项时,他们使用了工厂默认设置。他们提供了关于代词和职业选择之间关系的对比结果和解释。 研究人员没有考虑LLMs的行为,例如使用(和不使用)诸如单数they和新代词等性别中立代词,如何反映和影响跨性别个体的现实。鉴于这些二元范式的发现和以往研究的数据缺失,他们推测包含更多性别将对LLM的性能产生更加沉重的影响。在这里,他们承认接受这些假设可能会伤害那些不符合这些简单性别观念的边缘化群体,并且他们对未来研究专注于这些微妙关系并为其带来新的启示表示乐观。 总结 为了确定现有的大型语言模型是否存在性别偏见,研究人员设计了一个简单的场景。WinoBias是一个流行的性别偏见数据集,预计已包含在现有LLM的训练数据中,而这个范式扩展了但又有所区别于该数据集。研究人员检查了2023年第一季度发布的四个LLM。他们发现不同模型之间存在一致的结果,表明他们的发现可能适用于当前市场上的其他LLM。他们显示LLM对男性和女性存在性别偏见的假设,特别是那些符合人们对男性和女性职业的观念,而不是基于来自美国劳工局的数据揭示的情况的观念。其中一个关键发现是: (a) LLM在决定哪个代词最有可能指代哪个性别时使用了性别刻板印象;例如,LLM使用代词“他”指代男性,“她”指代女性。 (b) LLM倾向于放大关于女性的性别偏见观念,而不是男性。虽然LLM在特定提示下普遍观察到这一点,但在自由发挥时很少这样做。 (d) LLM对其决策给出似乎有权威性的理由,但这些理由往往是错误的,可能掩盖了其预测背后的真正动机。 这些模型的另一个重要特征因此被揭示出来:由于LLM是在有偏见的数据上进行训练的,即使在使用人类反馈进行强化学习时,它们也倾向于反映和加剧这些偏见。研究人员坚持认为,就像其他形式的社会偏见一样, marginalized people and…

Leave a Comment

“苏黎世联邦理工学院研究人员提出了快速前馈(FFF)架构:一种与前馈(FF)架构相媲美的架构,能够在对其神经元进行块访问时以对数时间完成”

令人难以置信的大型语言模型(LLM)的引入在人工智能领域具有划时代的意义。由于这些复杂算法受到大量数据和计算能力的驱动,人类与技术的互动方式发生了变化。人工智能正在改变人与机器的互动方式,而借助于LLM的强大能力,许多领域正在得到革命性的改变。 Transformer模型需要前馈层,因为它们对模型的性能至关重要。这些层负责转换输入数据,并且对模型的性能起着核心作用。近年来,Transformer模型的规模不断扩大,其前馈层现在包含数万个隐藏神经元。因为模型规模的增长导致了推断过程中更高的计算开销,因此寻找加速前馈层计算的策略至关重要。 在非常大的网络中,只需要前馈隐藏神经元的一小部分就足以确定给定输入的输出。为了应对这一认识,人们努力创建利用这种现象的模块化网络。最近在这个领域的研究集中在鼓励前馈层稀疏性的架构布局上。这些设计要求训练一个门控层,在推断过程中选择要使用的专家,并将前馈层细分为不同的神经元块。这种方法增加了训练复杂性,缩短了推断时间,但也依赖于有噪声的门控。 作为现有方法的替代方案,来自苏黎世联邦理工学院的两位研究人员引入了快速前馈(FFF)架构。FFF使用可微分的二叉树,将输入空间分为多个区域,同时学习每个区域的边界和相关的神经元块。与传统的前馈层和模块化技术相比,FFF具有优势。它通过对数时间访问特定的神经元块,降低了推断时间。这与之前方法的前馈层宽度线性扩展形成对比。 FFF与混合专家(MoE)方法进行了比较,后者也使用专家块但包含有噪声的门控。FFF避免了这种噪声,并通过减少计算复杂性实现了更快的推断。研究人员还强调了FFF取得的令人印象深刻的速度增益。它指出,FFF比传统的前馈网络快220倍,这表明在计算效率方面有了显著改进。例如,FFF在视觉Transformer中的应用被强调,声称FFF在仅使用1%的神经元的情况下可以保持94.2%的预测性能。 总之,FFF的设计无疑是提高神经网络计算效率的一种划时代的方法。与专家混合网络相比,它表现出色,并且与典型的前馈网络相比,推断时间大大缩短。FFF的训练特性,如无噪声的条件执行以及在使用较少神经元的情况下达到良好的预测准确性,也是其主要特点。这些发展有潜力加快和提高巨型模型的性能,从而革新深度学习行业。

Leave a Comment

“大型语言模型真的擅长生成复杂结构化数据吗?这篇人工智能论文介绍了Struc-Bench:评估LLM能力并引入了一个结构感知的微调解决方案”

大型语言模型(LLMs)在文本生成任务以及其他自然语言处理任务中取得了重大进展。生成能力的一个基本组成部分是生成结构化数据的能力,在先前的研究中引起了广泛关注。然而,LLMs在生成复杂的结构化输出方面仍然表现不佳,这是各种应用的关键技能,从自动报告撰写到编码帮助。此外,对LLMs生成结构化输出的能力进行的研究相对较少;大多数对LLMs的评估都集中在自发文本或代码开发上。这引发了一个问题,即LLMs能否很好地生成复杂的结构化数据。 耶鲁大学、浙江大学、纽约大学和苏黎世联邦理工学院的研究人员旨在对这些开放问题进行彻底分析并加以解决。首先,需要对LLMs生成复杂结构化数据的能力进行更全面的研究。以往评估LLMs在结构化数据上的尝试主要集中在简单的信息提取(IE)任务上,例如提取关系、识别事件和识别命名实体。在这种情况下,IE任务的目标是以井然有序的方式收集提取的数据。相比于以LLM为中心的工作,早期的工作更加任务为中心。使用像BART和T5这样的预训练模型,这些模型可以从文本中生成结构化数据,主要关注的是文本到数据的问题。其次,需要全面评估LLMs的性能或指标。 现有的基准经常使用简单的客观度量标准(如词重叠)来衡量机器生成的内容分类信息的质量。但是,可能需要更多的内容来确定LLMs是否能够提供结构化输出,因为适当的评估标准还应考虑所生成信息的格式。第三,当前的LLMs是否能更准确地遵循人类自然语言输入并提供具有准确格式和无错误内容的输出?本研究试图填补文献中的这些空白,并改进LLMs生成结构化输出的训练数据集和评估标准。 以下是他们的贡献列表:(1)他们创建了一个名为STRUCBENCH的基准,专注于生成原始文本、HTML和LaTeX形式的结构化文本。他们还仔细评估了知名LLMs的能力,发现了内容正确性、格式化、数值推理和管理冗长表格方面的重大问题。(2)他们对知名LLMs在结构化文本生成基准上进行了实证评估,包括重要数据集,并扩展到不同领域,使人们更深入地了解常见错误类型和缺陷的规模。他们的研究结果表明,GPT-3.5和GPT-4在生成准确的输出方面需要帮助,问题主要出在错误的内容、格式不佳、数值推理能力不足以及无法处理冗长表格等方面。(3)他们使用结构感知指令调整来解决这些问题,通过使用ChatGPT创建格式指令,训练LLaMA模型遵循这些格式。对可见和隐藏数据的积极结果表明,这可能显著提高LLMs提供结构化输出的能力。

Leave a Comment

家里的好莱坞:DragNUWA是一个能够实现可控视频生成的AI模型

生成式人工智能在过去两年取得了巨大的飞跃,这要归功于大规模扩散模型的成功发布。这些模型是一种生成模型,可以用来生成逼真的图像、文本和其他数据。 扩散模型通过从随机噪声图像或文本开始,逐渐添加细节。这个过程被称为扩散,类似于现实世界中物体逐渐变得越来越详细的过程。它们通常在一个大型真实图像或文本数据集上进行训练。 另一方面,视频生成在近年来也取得了显著的进展。它包含了生成逼真和动态视频内容的令人兴奋的能力。这项技术利用深度学习和生成模型生成从超现实的梦幻景观到对我们世界的逼真模拟的视频。 利用深度学习的能力来精确控制视频的内容、空间排列和时间演化,对各种应用领域都具有巨大的潜力,从娱乐到教育等等。 在历史上,这个领域的研究主要集中在视觉线索上,严重依赖于初始帧图像来引导后续的视频生成。然而,这种方法有其局限性,特别是在预测视频的复杂时间动态方面,包括摄像机运动和复杂的物体轨迹。为了克服这些挑战,最近的研究已经转向将文本描述和轨迹数据作为额外的控制机制。虽然这些方法取得了重大进展,但它们也有自己的限制。 让我们来认识一下DragNUWA,它解决了这些限制。 DragNUWA是一个具有细粒度控制的轨迹感知视频生成模型。它无缝集成了文本、图像和轨迹信息,提供了强大和用户友好的可控性。 使用DragNUWA生成的示例视频。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA有一个生成逼真视频的简单公式。这个公式的三个支柱是语义、空间和时间控制。这些控制分别通过文本描述、图像和轨迹来实现。 文本控制以文本描述的形式进行。这将意义和语义注入到视频生成中。它使模型能够理解和表达视频背后的意图。例如,它可以区分真实世界中的鱼游泳和一幅画中的鱼。 对于视觉控制,使用图像。图像提供了空间上下文和细节,有助于准确地表示视频中的对象和场景。它们是文本描述的重要补充,为生成的内容增加了深度和清晰度。 这些都是我们熟悉的东西,而真正的区别在于DragNUWA在最后一个组成部分中的应用:轨迹控制。 DragNUWA采用开放域轨迹控制。而以前的模型在处理轨迹复杂性方面存在困难,DragNUWA采用了轨迹采样器(TS)、多尺度融合(MF)和自适应训练(AT)来应对这一挑战。这一创新使得可以生成具有复杂的、开放域的轨迹、逼真的摄像机运动和复杂的物体交互的视频。 DragNUWA概览。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA提供了一个端到端的解决方案,将文本、图像和轨迹三个基本的控制机制统一起来。这种整合赋予用户对视频内容的精确和直观的控制能力。它重新构想了视频生成中的轨迹控制。它的TS、MF和AT策略实现了对任意轨迹的开放域控制,使其适用于复杂和多样化的视频场景。

Leave a Comment

You.com发布YouAgent:一种具有代码执行功能的AI智能助手,能够更准确地回答复杂的数学和科学问题

在人工智能迅速发展的领域中,长文本语言模型(LLM)无疑改变了我们在互联网上学习和创作的方式。它们能够提供广泛而富有对话性的答案,回答各种问题。然而,它们也存在一些局限性。它们难以及时更新,常常产生错误信息,并且在理解数学、科学和逻辑等复杂主题方面面临挑战。这些缺点导致在提供准确可靠的信息方面出现了空白,尤其是在STEM领域。 为了应对这些挑战,You.com在2022年推出了一款消费产品,利用LLM的功能来访问和参考互联网,确保答案全面更新,并附带引用文献。在此成功的基础上,You.com在2023年春季推出了多模态聊天输出,通过提供绘图、图表和应用等交互式视觉效果,增强了用户体验,为实时话题提供了可靠的文本回答的替代方案。 现在,You.com推出了具有开创性的YouAgent,将AI代理概念提升到一个新的水平。与传统的LLM不同,YouAgent不仅能够处理信息,还可以在其环境中执行操作。这是通过运行Python代码的计算环境实现的。LLM可以编写和执行代码,为复杂的STEM问题解决打开了可能性。结合YouAgent的多步推理过程,这个代码解释器使其能够以无与伦比的准确性解决复杂的STEM问题。 使用YouAgent非常简单。用户可以在AI聊天界面中使用“@agent”或“/agent”发起查询。这将促使You.com与YouAgent进行交互,YouAgent可以在其计算环境中执行Python代码。目前,每个登录用户每天可以进行最多五次YouAgent查询,而YouPro订阅用户每天可以进行多达100次查询。 YouAgent在STEM基准测试中的表现令人印象深刻。与强大的GPT-4相比,YouAgent在各种任务中始终表现出卓越的准确性。值得注意的是,在官方ACT数学部分的准确性上,有27%的绝对增加。这相当于C-和A+学生之间的差距,展示了YouAgent在计算密集型评估中的能力。 YouAgent的一个突出特点是它能够回答其他消费者LLM产品难以解答的STEM问题。凭借对代码执行环境和多步推理能力的访问,YouAgent可以可靠地回答涉及复杂数学操作的问题,使其与竞争对手区别开来。 尽管取得了一定的成就,YouAgent也意识到还有改进的空间。在基准测试中实现100%的准确性是一个需要持续研究和开发的目标。此外,团队还希望改进代码的执行方式,确保其在优化问题解决方面的合理使用。 展望未来,YouAgent有着雄心勃勃的扩展计划。包括支持文件上传,生成绘图和图形等图像输出,并通过代码执行进行网络搜索。还将增加更多的数学和科学库,改进数学文本的格式,以及在各种STEM基准测试中持续提高性能。 总之,YouAgent代表了在利用AI代理的潜能方面的重大飞跃。它解决了传统LLM所面临的重要限制,在STEM领域提供准确可靠的信息。通过利用计算环境执行Python代码,YouAgent在复杂问题解决方面展示了无与伦比的能力。展望未来,YouAgent有望彻底改变我们与AI技术互动和获取洞见的方式,为STEM学科的学习和问题解决开辟了新的时代。

Leave a Comment

来自俄勒冈大学和Adobe的研究人员推出了CulturaX:一个面向大型语言模型(LLM)开发的多语言数据集,其中包含167种语言的6.3万亿个标记

通过显著提高广泛任务的最新性能和揭示新的新兴技能,大型语言模型(LLM)对NLP研究和应用产生了深远影响。为了将输入文本编码为表示向量,已经进行了仅编码器模型的研究;为了创建文本,已经研究了仅解码器模型;为了完成序列到序列的生成,已经研究了编码器-解码器模型。模型大小和训练数据集的指数级增长,这两者都是最大性能的扩展率所需的,是LLM卓越能力背后的主要推动力。例如,尽管BERT模型只包含几亿个参数,但更现代的基于GPT的模型现在包含数千亿个参数。 庞大的模型大小和庞大的训练数据集是提升大型语言模型(LLM)具有惊人学习能力的主要要素。随着NLP的发展,LLM已逐渐向公众开放,以鼓励进一步的研究和实际应用。然而,这些LLM的训练数据集通常只提供部分,特别是对于最新的最先进模型。需要进行大量数据清理和去重,以创建高质量的LLM训练数据。因此,对训练数据更加开放的需求,阻碍了复制发现和推进LLM中的幻觉和偏见研究领域的努力。在多语言学习场景中,这些困难在通常不充分收集和清理多语言文本集合的情况下更加复杂。因此,目前没有一个可以用于跨语言训练LLM的良好开源数据集。CulturaX是由俄勒冈大学和Adobe Research的学术界合作开发的,包括167种语言的63万亿个标记的大型多语言数据集,旨在解决这个问题。为了确保模型训练的最高质量,数据集经过严格的处理流程,包括多个清理和去重的步骤。这些过程包括识别数据集中的语言、使用URL过滤数据集、使用度量标准清理数据集、优化文档和去重数据。 CulturaX经过全面的文档级清理和去重,以确保跨语言训练LLM的最高质量。数据清理过程使用完整的流水线来消除不准确的信息。这需要消除不准确的语言识别、有毒数据和非语言材料等干扰因素。 主要特点 CulturaX是迄今为止最大的经过全面清理和去重的开源多语言数据集,可用于LLM和NLP应用。 CulturaX提供了一个多语言、开源和庞大的数据集,具有立即可用和高质量的数据,可用于训练LLM,解决当前数据集的许多问题。 虽然存在包含各种语言文本数据的多语言开源数据集,如mC4,但它们的质量和规模不符合高效训练LLM的要求,特别是生成模型如GPT。例如,如介绍中所提到的,mC4和OSCAR都没有提供文档级模糊去重。mC4的语言识别使用cld3的结果较差,这是另一个缺点。虽然CC100确实包含2018年以后的数据,但BigScience ROOTS只为46种语言提供了部分数据的样本。 HuggingFace的CulturaX的完整公开发布将有助于进一步研究多语言LLM及其应用。在这里查看https://huggingface.co/datasets/uonlp/CulturaX  您应该了解一下CulturaX,这是一个包含167种语言的新的多语言数据集。经过全面的工作流程清理和去重后,数据集中含有63万亿个标记。作为一个庞大而高质量的数据集,CulturaX可以轻松用于训练各种语言的有效LLM。这些信息对公众免费提供,并且研究人员希望它可以激发进一步的语言习得研究和实际应用。

Leave a Comment

微软研究人员介绍了Kosmos-2.5:一种用于机器阅读文本密集型图像的多模式文学模型

近年来,大型语言模型(LLMs)在人工智能领域获得了重要地位,但它们主要关注文本,并且在理解视觉内容方面存在困难。多模态大型语言模型(MLLMs)应运而生,用于弥合这一差距。MLLMs将视觉和文本信息结合在一个基于Transformer的模型中,使其能够从两种模态中学习和生成内容,标志着人工智能能力的重大进展。 KOSMOS-2.5是一个多模态模型,旨在在统一框架内处理两个密切相关的转录任务。第一个任务涉及生成具有空间感知的文本块,并在文本丰富的图像中为文本行分配空间坐标。第二个任务侧重于以markdown格式生成结构化文本输出,捕捉各种样式和结构。 这两个任务在单个系统下管理,利用共享的Transformer架构、任务特定的提示和可适应的文本表示。该模型的架构结合了基于ViT(Vision Transformer)的视觉编码器和基于Transformer架构的语言解码器,通过一个重采样模块连接起来。 为了训练这个模型,它在大量的文本密集图像数据集上进行了预训练,其中包括带有边界框和纯markdown文本的文本行。这种双任务训练方法增强了KOSMOS-2.5的整体多模态识字能力。 以上图片显示了KOSMOS-2.5的模型架构。KOSMOS-2.5的性能在两个主要任务中进行了评估:端到端的文档级文本识别和以markdown格式从图像生成文本。实验结果展示了它在理解文本密集图像任务方面的强大性能。此外,KOSMOS-2.5在涉及少样本和零样本学习的场景中展示了有前途的能力,使其成为处理文本丰富图像的现实应用的多功能工具。 尽管取得了这些有希望的结果,但当前模型仍面临一些限制,并提供了宝贵的未来研究方向。例如,尽管KOSMOS-2.5在输入和输出涉及文本的空间坐标的情况下进行了预训练,但目前不支持使用自然语言指令对文档元素的位置进行细粒度控制。在更广泛的研究领域中,进一步发展模型扩展能力是一个重要方向。

Leave a Comment

遇见BlindChat:一个开源的人工智能项目,旨在开发完全基于浏览器和私密的对话式AI

BlindChat是由MithrilSecurity推出的开源和注重隐私的ChatGPT替代方案。BlindChat是一个开源的人工智能项目,旨在在Web浏览器中完全运行,不需要任何第三方访问。当前普遍的每日人工智能解决方案通常包括与AI服务提供商共享用户数据以换取AI模型使用。如果用户允许此类情况发生,他们的数据可能会被窃取。由于数据是提高LLM效果的宝贵资源,因此一些方法会隐含地调整用户的数据以更好地训练模型。用户以这种方式运行着有私人信息的LLMs的风险。 通过执行本地推理或使用称为安全隔离环境的安全、隔离环境,BlindChat确保用户的数据始终保持私密,并且用户完全控制数据。 BlindChat主要面向两个受众: 消费者:提供更安全的选择,优先考虑用户隐私。如今,大多数消费者将数据交给AI服务,但隐私设置通常需要明确或不存在。 BlindChat团队为了开发人员的好处,已经做了大量工作,确保平台在配置和部署方面的简单性,以便他们能够更轻松地提供以隐私为设计的对话式人工智能。 MithrilSecurity对程序进行了更改,以使浏览器执行通常由服务器执行的功能。因此,AI服务提供商不包含在信任模型中,因此隐私得到保护。 通过将功能从服务器移至用户端的浏览器,实现了透明且安全的人工智能,保护了终端用户的个人信息,并赋予他们对数据的控制权。例如,变形器允许在本地执行推理。JavaScript还可以将聊天保存在用户的浏览器历史记录中,提供了额外的便利。结果是,AI服务的管理员无法看到用户的任何信息,因此服务被称为“BlindChat”。 在激活遥远的隔离模式时,数据仅传输到服务器。此设置将服务器部署在被称为隔离区的经过验证和安全的容器中,提供了完整的周界防御,并阻止外界访问。即使是隔离区的AI提供商管理员也无法访问用户信息。 MithrilSecurity为用户提供了两种不同的隐私选项: 在设备上设置中,模型会在用户的浏览器上本地下载,并且推理是在本地处理的。 由于可用带宽和处理能力的限制,此模式最适用于较简单的模型。 使用零信任AI API时,信息会传输到一个被称为隔离区的安全位置,模型在其中存储,以便可以进行远程推理。通过强大的隔离和验证,这些设置提供了全面的安全性。任何AI服务提供商都无法以未加密的方式访问其用户的数据。 该项目由三个主要部分组成: 用户界面:用户与Chat进行交互时看到的界面。其中有一个聊天窗口,并且最终将提供用于加载文档和语音控制等功能的小部件和插件。 开发人员完全控制用于处理用户请求的私有LLM。当前的解决方案是本地模型或远程隔离区,以提供透明和机密的推理。 开发人员可配置用于保存聊天记录等数据的存储类型,将来还可配置RAG嵌入。 MithrilSecurity目前仅允许进行LaMini-Flan-T5推理。一旦370M发布,他们打算集成Microsoft phi-1.5以提高性能。客户端上也正在开发LlamaIndex-TS集成,以便在浏览器中本地查询敏感文档时可以使用RAG。

Leave a Comment

“人工智能有多环保?比较人工智能和人类任务的碳足迹”

近年来,人工智能(AI)取得了令人印象深刻的进展,其应用已经扩展到包括医疗保健、银行、交通运输和环境保护在内的各个行业。然而,随着AI的应用扩大,人们对其对环境的影响产生了担忧,尤其是与运行和训练AI模型所需的能源以及由此产生的温室气体排放相关的担忧。例如,目前使用的最强大的AI系统之一GPT-3,在训练过程中产生的排放量相当于五辆汽车在其使用寿命内产生的排放量。 最近的一项研究调查了多个AI系统的环境影响,重点关注它们在撰写和绘画等任务中的能力。研究人员团队将ChatGPT、BLOOM、DALL-E2和Midjourney等各种AI系统产生的排放与人类在执行相同任务时产生的排放进行了比较。撰写文本和制作图像是两个常见的任务。 目标是对比人类执行这些任务与AI执行这些任务的环境影响。该团队通过展示这些成本通常低于人类执行相同活动时支付的成本,尽管与AI相关的环境成本,强调了人类和AI的可互换性。结果显示,在创建文字方面存在明显的差异。 在创建一篇文字页面时,AI系统产生的二氧化碳当量(CO2e)比人类少130到1500倍。这种显著差异突显了AI在此情况下的环境优势。同样,当使用AI创建图像时,AI系统释放的CO2e比人类少310到2900倍。这些数字明确显示了使用AI创建图像时产生的排放量较少。 该团队分享了一个关键的认识,即单独进行排放研究不能提供全面的图景,因为还需要考虑一些重要的社会影响和因素,包括: 职业流动:在某些行业中,使用AI来完成人类过去处理的工作可能导致就业流动。必须妥善处理这种流动的潜在经济和社会影响。 合法性:确保按照道德和法律原则开发和使用AI系统至关重要。必须解决AI生成内容的合法性及其潜在滥用问题,以避免任何损害。 反弹效应:当AI引入不同行业时,可能会出现意想不到的反弹效应。这些结果可能表现为更高的使用或生产。 必须理解并非所有人类功能都可以被AI取代。AI无法完成一些需要人类创造力、同理心和决策能力的任务和职位。然而,目前的研究表明,与人类相比,AI在各种任务中极大地减少了排放的潜力。尽管从环境角度来看,这些结果是令人鼓舞的,但也需要将其纳入更广泛的伦理、经济和社会因素的背景中,以确保AI整合与共享目标和价值观一致。利用AI在完成某些任务时排放显著较少的前景是解决当前环境问题的一种可行方法。

Leave a Comment

巴德推出增强功能:与Gmail、Drive和其他Google应用集成

为了通过生成式AI革新协作,Bard推出了目前最先进的模型。这一创新承诺将成为一场游戏改变者,使用户能够无缝地根据自己的特定需求定制回复。无论是起草旅行计划文件、创建在线市场列表,还是向孩子们解释复杂的科学主题,Bard现在比以往任何时候都更擅长将想法变为现实。 最新的升级包括与Google应用和服务的创新整合,标志着Bard发展的重要里程碑。这个功能名为Bard扩展,使Bard能够从广泛使用的Google工具(如Gmail、Docs、Drive、Google Maps、YouTube以及Google Flights和酒店)中获取和显示相关信息。即使所需信息涉及多个应用和服务,Bard也可以在单一对话中简化过程。 例如,设想计划前往大峡谷的旅行——这往往涉及许多打开的标签页。有了Bard扩展,用户可以让Bard从Gmail中提取适当的日期,检索实时的航班和酒店数据,提供Google Maps导航到机场的路线,甚至策划展示目的地活动的YouTube视频。这种无缝整合承诺革新任务执行方式,将众多功能整合到一个简化的对话中。 在职业发展领域,Bard的能力更加出色。对于正在寻找工作的个人,Bard可以轻松地从Drive中找到特定的简历,将其总结为简明的个人陈述,并协作撰写一个引人注目的求职信。这种新的功能简化了求职过程,展示了Bard作为不可或缺的专业伙伴的潜力。 Bard对保护用户隐私的承诺始终如一。Workspace扩展确保Gmail、Docs和Drive的内容保持机密,无法被人工审核员访问。此外,这些数据不用于定向广告或模型训练。用户完全控制其隐私设置,并可以自行禁用扩展。 一个新的“谷歌一下”功能被引入,以增强对Bard回答的信心。该功能适用于英文,允许用户通过点击指定的“G”图标,让Bard分析其回答并在网上检查相应的内容。这种额外的验证层增强了Bard的贡献的可靠性和准确性。 此外,Bard通过使用户能够在共享对话中进一步开展讨论,促进了无缝协作。当通过公共链接共享Bard聊天时,接收者可以提出后续问题或将其作为自己想法的起点进行延伸。这个功能为用户交流思想和有效协作提供了一个动态和交互的环境。 最后,Bard对包括图像上传与Lens、搜索响应中的图像以及响应修改在内的40多种语言的扩展访问,彰显了该平台对包容性和可访问性的承诺。通过这些更新,Bard巩固了其作为全球用户不可或缺的多功能工具的地位。 总之,Bard的最新增强功能代表了生成式AI的重大进展。通过与Google应用的无缝整合、改进响应验证和扩展语言功能,Bard有望革新用户与AI交互和协作的方式。这些创新标志着Bard在重新定义创造性表达和问题解决方面的重要时刻。要体验最新功能,请今天访问bard.google.com。

Leave a Comment

中国的研究人员推出了一个名为“FreeMan”的大规模真实世界多视角数据集

从现实场景中估计人体的三维结构是一项具有重要影响的挑战性任务,对人工智能、图形学和人机交互等领域具有重要意义。现有的用于三维人体姿势估计的数据集通常在受控条件下采集,并且具有静态背景,这不能代表现实世界场景的变异性。这种限制阻碍了为现实世界应用开发精确模型的进展。 现有的数据集,如Human3.6M和HuMMan,广泛用于三维人体姿势估计,但它们是在受控实验室环境中采集的,不能很好地捕捉到现实世界环境的复杂性。这些数据集在场景多样性、人体动作和可扩展性方面存在限制。研究人员提出了各种用于三维人体姿势估计的模型,但由于现有数据集的限制,它们在应用于现实世界场景时往往效果不佳。 中国的一支研究团队引入了“FreeMan”,这是一个新颖的大规模多视角数据集,旨在解决现实世界场景中现有数据集在三维人体姿势估计方面的局限性。FreeMan是一个重要的贡献,旨在促进更精确和更强大的模型在这一关键任务中的发展。  FreeMan是一个全面的数据集,包括来自8000个序列的1100万帧,使用8个同步智能手机在不同场景下捕捉。它涵盖了40个主体和10个不同的场景,包括室内和室外环境,具有不同的光照条件。值得注意的是,FreeMan引入了相机参数和人体尺度的变异性,使其更具代表性。研究小组开发了一个自动化注释流程,从收集的数据中高效生成准确的三维注释。该流程涉及人体检测、2D关键点检测、3D姿势估计和网格注释。由此产生的数据集对于多个任务非常有价值,包括单眼三维估计、2D到3D抬升、多视角三维估计和人体主体的神经渲染。 研究人员使用FreeMan提供了各种任务的全面评估基线。他们将在FreeMan上训练的模型与在Human3.6M和HuMMan等现有数据集上训练的模型进行了比较。值得注意的是,在3DPW数据集上进行测试时,针对FreeMan训练的模型表现出明显更好的性能,突显了FreeMan在现实世界场景中的优越性。 在多视角三维人体姿势估计实验中,与在Human3.6M上训练的模型相比,针对FreeMan训练的模型表现出更好的泛化能力,当在跨领域数据集上进行测试时,结果一致显示了FreeMan多样性和规模的优势。 在2D到3D姿势抬升实验中,FreeMan的挑战是显而易见的,因为在该数据集上训练的模型面临比其他数据集上训练的模型更大的困难等级。然而,当模型在整个FreeMan训练集上进行训练时,它们的性能得到了改善,展示了该数据集通过更大规模的训练来提升模型性能的潜力。 总之,研究团队引入了FreeMan,这是一个在现实世界场景中进行三维人体姿势估计的具有突破性的数据集。他们通过提供场景多样性、人体动作、相机参数和人体尺度的多样性,解决了现有数据集的几个限制。FreeMan的自动化注释流程和大规模数据收集过程使其成为开发更精确和更强大的三维人体姿势估计算法的宝贵资源。研究论文突出了FreeMan相对于现有数据集的优越泛化能力,展示了它在现实世界应用中提高模型性能的潜力。FreeMan的可用性预计将推动人体建模、计算机视觉和人机交互的进步,弥合受控实验室条件和现实世界场景之间的差距。

Leave a Comment

首尔国立大学的研究人员介绍了一种名为Locomotion-Action-Manipulation (LAMA)的突破性人工智能方法,用于高效和适应性机器人控制

首尔国立大学的研究人员在机器人领域面临了一个根本性挑战——在动态环境下高效和适应性地控制机器人。传统的机器人控制方法通常需要大量的特定场景训练,使得计算成本昂贵且在面临输入条件变化时不灵活。这个问题在机器人必须与多样化和不断变化的环境进行交互的实际应用中尤为重要。 为了解决这个挑战,研究团队提出了一种开创性的方法,称为运动-动作-操纵(Locomotion-Action-Manipulation):LAMA。他们开发了一个针对特定输入条件进行优化的单一策略,可以处理各种输入变化。与传统方法不同,这种策略不需要针对每个独特场景进行单独训练,而是通过适应和概括其行为来显著减少计算时间,成为机器人控制的宝贵工具。 所提出的方法涉及训练一个针对特定输入条件进行优化的策略。这个策略在包括初始位置和目标动作在内的输入变化下经过严格测试。这些实验的结果证明了其鲁棒性和泛化能力。 在传统的机器人控制中,通常需要针对不同场景进行单独训练,需要大量的数据收集和训练时间。与这种方法相比,当处理不断变化的真实世界条件时,这种方法可能更加高效和适应。 研究团队的创新策略通过其高度适应性来解决这个问题。它可以处理多样化的输入条件,减少了针对每个特定场景进行大量训练的需求。这种适应性的改变不仅简化了训练过程,而且极大地提高了机器人控制器的效率。 此外,研究团队还对从该策略产生的合成运动的物理合理性进行了全面评估。结果表明,尽管该策略可以有效地处理输入变化,但合成运动的质量是保持的。这确保了机器人的运动在不同场景下保持逼真和物理上合理。 这种方法的最显著优势之一是大幅减少计算时间。在传统的机器人控制中,为不同场景训练单独的策略可能耗时且资源密集。然而,使用针对特定输入条件进行优化的预先训练策略时,无需为每个变化重新训练策略。研究团队进行了比较分析,结果显示使用预先优化的策略进行推理时计算时间显著减少,每个输入对的运动合成平均仅需要0.15秒。相反,为每个输入对从头开始训练策略平均需要6.32分钟,相当于379秒。这种计算时间上的巨大差异突出了这种方法的效率和节省时间的潜力。 这种创新的意义是巨大的。这意味着在机器人必须快速适应不同条件的真实世界应用中,这种策略可以改变游戏规则。它为更具响应性和适应性的机器人系统打开了大门,使它们在时间至关重要的情况下更加实用和高效。 总之,研究提出了一种对机器人在动态环境中进行高效和适应性控制的创新解决方案。所提出的方法,即针对特定输入条件进行优化的单一策略,为机器人控制提供了一种新的范式。 这种策略能够处理各种输入变化而无需进行大量重新训练,是一个重要的进步。它不仅简化了训练过程,而且极大地增强了计算效率。当使用预先优化的策略进行推理时,计算时间的显著减少进一步凸显了其高效性。 合成动作的评估表明,在不同的场景中,机器人运动的质量始终保持较高水平,确保它们保持物理上可行和逼真。 这项研究的影响广泛,潜在应用涵盖了从制造业到医疗保健再到自动驾驶车辆等多个行业。在这些领域中,机器人能够快速、高效地适应变化环境是一个关键特性。 总体而言,这项研究代表了机器人技术的重大进步,为其中最紧迫的挑战提供了有希望的解决方案。它为更加适应、高效、响应灵敏的机器人系统铺平了道路,使我们离一个未来更加无缝融入日常生活的机器人世界更近了一步。

Leave a Comment