Press "Enter" to skip to content

32 search results for "主成分分析"

谷歌AI与中佛罗里达大学的研究人员发布了开源的虚拟化身图库,旨在促进包容和多样性(VALID)

来自Google AR & VR与佛罗里达中央大学的研究团队合作开展了一项全面研究,验证了一个名为VALID的虚拟化身库,其中包含了210个完全装配的化身,代表了七种多样化的种族。七种种族的选择是在美国人口普查局的指导下进行的。他们利用了数据驱动的面部平均值,并与每个种族的志愿代表合作,创建了42个基本化身(7种种族 X 2种性别 X 3个个体)。该研究涉及全球参与者,以获取每个化身被感知的种族和性别的经过验证的标签和元数据。 验证过程采用了主成分分析(PCA)和K均值聚类,以了解参与者如何感知化身的种族。为了确保参与者在种族和性别上的多样性,总共选择了来自全球33个不同国家的132名参与者进行研究。 结果显示,亚洲人、黑人和白人化身在各种族的参与者中被一致认可。然而,代表美洲印第安和阿拉斯加原住民(AIAN)、西班牙裔、中东和北非(MENA)以及夏威夷和太平洋岛民(NHPI)种族的化身显示出更多的模糊性,其感知差异基于参与者的种族。如果某个化身被相应的同类种族参与者认定为其预期种族,则该化身以该种族命名。 在讨论中,研究人员强调了亚洲人、黑人和白人化身的成功识别率超过了95%,挑战了识别与自己不同种族人脸准确度约为65-80%的观念。他们将这归因于知觉专业知识或对多样化种族群体的熟悉程度,可能受全球媒体表现的影响。 观察到自我种族偏见效应,一些化身主要由同类种族的参与者正确识别。例如,西班牙裔化身在参与者中获得了不同的评级,但在仅有西班牙裔参与者中更准确地被感知。该研究强调了在虚拟化身研究中考虑参与者种族的重要性,以确保准确的表现。 由于识别不清晰,某些化身被标记为模糊,像发型这样的因素会影响感知。夏威夷和太平洋岛民化身的验证面临着局限性,突显了表现的挑战和更广泛的招募工作的需求。 研究团队讨论了虚拟化身应用的影响,强调了同组内和异组间的分类和刻板印象及社会判断的潜力。他们建议引入规定,以改善虚拟现实中的跨种族互动。 作为对研究界的贡献,该团队提供了开放访问的VALID化身库,为各种场景提供了多样化的适用化身。该库包括65个面部变形形状的化身,用于动态表情,并与Unity和Unreal等流行游戏引擎兼容。研究人员承认了局限性,例如关注年轻和体格健壮的成年人。他们概述了未来更新中通过引入不同地区分类、身体类型、年龄和性别来扩大多样性的计划。 总结而言,研究团队成功创建和验证了一个多样化的虚拟化身库,挑战了刻板印象并促进了包容。该研究强调了自我种族偏见对化身感知的影响,并为开发和应用虚拟化身在各个领域提供了宝贵的见解。该开放访问的VALID库被定位为研究人员和开发者寻找多样化和包容性化身的宝贵资源。

Leave a Comment

微软和佐治亚理工学院的研究人员推出TongueTap:使用头戴式设备进行多模式舌头手势识别

在迅速发展的可穿戴技术领域,追求平滑、无需手动操作的交互方式产生了突破性的发现。TongueTap是一种通过同步多个数据流实现舌头手势识别来控制佩戴式设备的技术,它是一项有前景的发展。这种方法使用户能够静默地进行交互,无需使用手或眼睛,也无需需要通常放置在口内或接近口腔的特殊接口。 在与美国华盛顿州雷德蒙德的微软研究院合作下,乔治亚理工学院的研究人员将两个商业头戴式设备中的传感器(Muse 2和Reverb G2 OE设备)进行了整合,创建了一种舌头手势接口(TongueTap)。这两个头戴式设备都包含IMU和光电测量(PPG)传感器。其中一个头戴设备还包括脑电图(EEG)、眼动追踪和头部追踪传感器。两个头戴设备的数据使用“实验室流式层(LSL)”进行了同步,该系统是用于多模式脑-计算机界面常用的时间同步系统。 团队在其流程中使用了SciPy对EEG信号进行了128Hz低通滤波和独立分量分析(ICA)处理,同时对其他传感器分别应用了主成分分析(PCA)。为了进行手势识别,他们使用Scikit-Learn中的支持向量机(SVM)方法,使用径向基函数(RBF)核函数和超参数C=100、gamma=1进行二元分类,判断一个移动窗口的数据是否包含手势或非手势。 他们通过与16名参与者合作,收集了用于评估舌头手势识别的大型数据集。研究中最有趣的结果是哪些传感器在分类舌头手势时最有效。Muse上的IMU传感器是最有效的传感器,单独使用可以达到80%的准确率。多模态组合,包括Muse IMU传感器,效率更高,多种PPG传感器的准确率达到94%。 基于表现最佳的传感器,研究人员观察到,耳后的IMU是一种低成本的舌头手势检测方法,其位置可以与以往的口腔感应方法相结合。使舌头手势成为产品的关键步骤之一是建立可靠的、用户无关的分类模型。为了使手势在更现实的环境中适应,需要进行更生态有效的研究设计,包括多次实验和在不同环境之间进行移动。 TongueTap是朝着平滑、直观的可穿戴设备交互方向迈出的一大步。它利用商业可购买的技术来识别和分类舌头手势,为实现离散、准确和用户友好的佩戴式设备控制打下了基础。舌头交互的最有前景的应用是控制增强现实界面。研究人员计划通过将其用于增强现实头盔,并与其他注视交互方式进行比较,进一步研究这种多器官交互。

Leave a Comment

认识LQ-LoRA:一种LoRA的变种,允许低秩量化矩阵分解,以实现高效的语言模型微调

在人工智能迅猛发展的时代,大型语言模型(LLMs)的引入改变了机器与人类相互交互的方式。最近几个月,LLMs的数量呈指数增长,具备令人难以置信的能力和超先进的算法。像GPT 3.5、GPT 4、LLaMa、PaLM等模型在自然语言理解(NLU)、处理、翻译、摘要甚至内容生成方面展示了一些卓越的人类仿真能力。 这些LLMs是通过大量数据进行训练的。然而,当这些模型需要适应新数据集时,就会遇到挑战。研究人员通常在将这些庞大的LLMs适应新数据集时面临问题,因为全面微调的开销和内存需求很高。为解决LLM微调中的内存效率问题,最近一个研究团队提出了参数高效微调的方法。 通过学习原先预训练模型的较小、微调扩展,这些技术可以降低微调所需的内存量。低秩适应(LoRA)是一种受欢迎的有效LLM调整策略,它涉及重新参数化预训练模型的权重矩阵,仅微调其两个组成部分,即L1和L2,其余组成部分保持不变。 研究人员通过将LoRA应用于量化的预训练模型来增强其内存效率。为了节省内存,量化降低了模型的参数精度,如果量化显著,则零初始化可能不是最优选择。为了克服量化误差,团队提出了一种称为LQ-LoRA的LoRA变种。 LQ-LoRA通过一种受主成分分析(PCA)影响的迭代技术,将权重矩阵分解为量化组件Q和低秩组件L1L2。在LQ-LoRa中,L1和L2在适应过程中得到改进,并捕获了初始权重矩阵的高方差子空间。 团队表示,该方法使用整数线性规划来找到混合量化方法,以解决将同一量化配置应用于所有层的问题。通过给定总体期望比特率,该技术允许为每个矩阵分配不同的配置,包括比特数和块大小。 团队使用LQ-LoRA修改了不同大小的RoBERTa和LLaMA-2模型,分别是7B和70B。结果表明,LQ-LoRA比GPTQ-LoRA和强QLOrA基线表现更好。通过将2.5比特的LLaMA-2模型训练在OpenAssistant基准上,与使用4比特QLoRA微调的模型具有竞争力,表明建议的方法允许更激进的量化。 此外,通过调整数据校准语言模型,LQ-LoRA在模型压缩方面也表现出良好的性能。尽管比特率降低,但团队能够生成与完全精度下的原始模型具有竞争力的2.75比特LLaMA-2-70B模型。这表明该建议的方法可以大幅减少大型语言模型的内存需求,而不会牺牲特定活动的功能。 总而言之,LQ-LoRA是语言模型发展的一个重要转折点。其内存高效适应和数据感知考虑,以及动态量化参数调整,肯定会在人工智能领域引起范式转变。

Leave a Comment

使用预选算法在Amazon SageMaker自动模型调整中实现定制的AutoML作业

AutoML可以让您在机器学习(ML)项目的生命周期初期就能从数据中快速得出一般性见解提前了解哪些预处理技术和算法类型能够提供最佳结果,能够减少开发、训练和部署正确模型所需的时间它在每个模型的开发过程中起着至关重要的作用[…]

Leave a Comment

如何在线学习机器学习?

介绍 机器学习是当前高度发展的技术领域。这项技术使得计算机系统能够在没有技术编程的情况下学习和做出决策。它具有各种应用,包括识别模式、数据分析和随着时间的推移改善性能。本指南将介绍如何在线学习机器学习,为您介绍可用的最佳机器学习课程,并帮助您选择合适的课程。 什么是机器学习? 机器学习是人工智能领域利用数据和算法解决问题和做出决策的方式,随着时间的推移提高其效率。机器学习的类型包括: 监督学习:这种类型的机器学习依赖于数据,并提供算法来帮助系统学习。用户提供给机器的结果最终是标记的数据集,其余数据作为输入特征。例如,您想了解软件失败的统计数据和原因。在这种情况下,您将向机器提供10个未能成功的软件的数据和解释,并提供10个成功的软件和原因的数据。标记数据监督系统理解您可能正在寻找的数据。 无监督学习:无监督学习不依赖于标记的数据集和数据。这种类型的机器学习帮助创建预测模型。无监督学习中最常用的模型包括: 隐马尔可夫模型 聚类 层次聚类 高斯混合模型 强化学习:强化学习类似于人类的知识。该模型与环境进行交互,并依赖于获得正反馈。它使用一种试错的方法。 为什么要在线学习机器学习? 通过最佳的机器学习课程在线学习机器学习,可以获得灵活的学习机会。在线学习专业技能带来众多好处,例如: 可访问性:任何时候、任何地点都可以访问课程提供的大量信息和丰富的数据。 灵活性:学习者可以调整学习时间和学习进度。最佳的机器学习课程不会限制用户必须在特定时间范围内学习。 成本效益:在线学习机器学习课程相对于线下课程来说,包括基础设施、维护和服务等相关成本是相对较低的。 与行业相关的内容:在线学习提供与行业相关的内容,强调提供与行业趋势相关的培训。这种类型的学习使学习者与技术领域的趋势相结合。 个性化关注:最佳的在线机器学习课程提供个性化辅导和关注,提高学习者的技能发展质量。 机器学习课程大纲是什么样的? 在线机器学习课程提供精良的课程,总结了整个学科的范围。一般的课程大纲包括: 机器学习简介 监督学习和线性回归 分类和逻辑回归 决策树和随机森林 朴素贝叶斯和支持向量机…

Leave a Comment

使用AWS SageMaker Data Wrangler中的新功能优化数据准备

“数据准备是任何数据驱动项目中至关重要的一步,拥有合适的工具可以极大地提高运营效率亚马逊SageMaker Data Wrangler可以将聚合和准备表格和图像数据用于机器学习(ML)的时间从几周缩短到几分钟通过SageMaker Data Wrangler,您可以简化[…]”

Leave a Comment

MLOps覆盖整个机器学习生命周期:论文摘要

这篇AI论文对MLOps领域进行了广泛的研究。 MLOps是一门新兴的学科,专注于自动化整个机器学习生命周期。调查涵盖了广泛的主题,包括MLOps流水线、挑战和最佳实践。它深入探讨了机器学习过程的各个阶段,从模型需求分析、数据收集、数据准备、特征工程、模型训练、评估、系统部署和模型监控等开始。此外,它还讨论了整个生命周期中的业务价值、质量、人类价值和伦理等重要考虑因素。 该论文旨在全面调查MLOps,并强调其在自动化机器学习生命周期中的重要性。调查涵盖了多个主题,包括MLOps流水线、挑战、最佳实践以及机器学习过程的各个阶段。 本文在下图中提供了一个概览: https://arxiv.org/abs/2304.07296:机器学习流程 模型需求分析 为了启动一个机器学习项目,利益相关者必须分析和确定模型需求。本节概述了四个考虑因素:业务价值、模型质量、人类价值(隐私、公平性、安全性和问责制)以及伦理。鼓励利益相关者定义目标,评估用于识别价值和问题的工具,优先考虑需求,涉及相关利益相关者,并确定必要的功能。 数据收集和准备 数据准备阶段在确保机器学习任务的高质量数据方面起着至关重要的作用。本节介绍了数据收集、数据发现、数据增强、数据生成和ETL(提取、转换、加载)过程。强调了数据质量检查、数据清洗、数据合并、数据匹配以及进行探索性数据分析(EDA)以获得数据集洞察的重要性。 特征工程 特征工程对于提高预测建模性能至关重要。本节重点介绍了特征选择和提取、特征构建、特征缩放、数据标记和特征填充等技术。提到了与每种技术相关的具体算法和方法,包括主成分分析(PCA)、独立成分分析(ICA)以及标准化和归一化。 模型训练 模型训练阶段涵盖了不同类型的机器学习模型,包括有监督学习、无监督学习、半监督学习和强化学习。本节讨论了模型选择,包括为特定问题选择适当模型的过程。还探讨了模型选择的方法,如交叉验证、自助法和随机拆分。还讨论了超参数调优,即优化模型参数的过程。 模型评估 模型评估侧重于使用各种指标评估模型的性能。本节介绍了常见的评估指标,如准确率、精确率、召回率、F值和ROC曲线下的面积(AUC)。强调同时考虑模型性能和业务价值的重要性。 系统部署 系统部署涉及选择适当的ML模型操作平台,集成系统,进行系统集成测试,并将系统发布给最终用户。解释了部署策略,包括金丝雀部署和蓝绿部署。还讨论了部署ML系统所面临的挑战,以及实现顺畅部署过程的提示。 模型监控 本文强调在ML系统中进行模型监控的重要性。强调开发人员在ML模型监控和维护方面缺乏知识和经验。本节探讨了模型监控的各个方面,包括漂移检测、模型监控质量、合规性、系统日志记录和模型解释(XAI)。提供了监控数据分布变化、确保模型性能、符合行业特定标准和法规、用于ML流水线的系统日志记录以及实现模型透明度的洞察。 结论 本文通过讨论MLOps的未来以及需要解决的可扩展性和可靠性挑战来总结。它强调了对机器学习模型进行持续监控和维护的重要性,以实现长期成功。 总之,这份综合调研涵盖了MLOps领域内整个机器学习生命周期。它为MLOps管道、挑战、最佳实践、模型需求分析、数据准备、特征工程、模型训练、评估、系统部署和模型监控提供了宝贵的见解。通过详细研究这些主题,本调研旨在帮助研究人员和从业者全面了解MLOps及其实际意义。

Leave a Comment

博弈论作为大规模数据分析的引擎

现代人工智能系统处理识别图像中的物体和预测蛋白质的三维结构等任务,就像一个勤奋的学生为考试做准备一样通过在许多示例问题上进行训练,它们随着时间的推移减少错误,直到取得成功但这是一项孤独的努力,只是已知学习形式之一学习也可以通过与他人互动和游戏来进行一个人很少能够独自解决极其复杂的问题通过使问题解决具有类似游戏的特性,之前DeepMind的努力已经训练出能够玩捉旗战并在星际争霸中达到大师级别的AI代理这让我们想知道,基于博弈论的这种视角是否能够帮助解决其他基本的机器学习问题

Leave a Comment

使用Amazon SageMaker Data Wrangler与Snowflake的直接连接,加速商业洞见的产生

Amazon SageMaker数据整理器是一个单一的可视界面,可以将数据准备和特征工程所需的时间从数周缩短到几分钟,并能够选择和清理数据、创建特征以及自动化机器学习(ML)工作流中的数据准备,而无需编写任何代码SageMaker数据整理器支持Snowflake,这是一个流行的[…]

Leave a Comment

Can't find what you're looking for? Try refining your search: