Press "Enter" to skip to content

四海吧 Posts

亚马逊推出 HealthScribe,一款新的生成式人工智能工具,用于总结医生访问并管理档案

本周,亚马逊网络服务(Amazon Web Services)推出了一款名为HealthScribe的新型生成式人工智能工具,该工具将使医生能够利用语音识别机器学习和人工智能为他们的诊所赋能其目标是帮助这些诊所总结就诊情况并管理内部文件在亚马逊网络服务上…

Leave a Comment

准备好并开始游戏:Gearbox的’Remnant II’正在GeForce NOW上直播

准备好迎接Gunfire Games和Gearbox Publishing备受期待的《Remnant II》,会员在GeForce NOW上推出时可以进行流媒体播放。它是云游戏平台上的八款新游戏之一。 终极和优先会员,请确保在8月31日星期四之前获取《公会战争2》的奖励。访问GeForce NOW奖励门户网站并选择奖励。 奇异的新世界 云中探索新世界。 在云中体验最热门的新游戏之一,来自Gunfire Games和Gearbox Publishing的《Remnant II》,这是热门游戏《Remnant: From the Ashes》的续作,现在会员可以进行流媒体播放。 面对新的致命生物和神一般的首领,探索恐怖的新世界,其中有不同类型的生物、武器和物品。每次游戏都有不同的故事情节,每个游戏体验都是独特的,无限重玩性。 发现秘密并解锁不同的原型,每个原型都有特殊的能力。会员可以独自勇往直前,也可以与伙伴们组队探索未知的深处,阻止邪恶摧毁现实本身。请记住,友军伤害是开启的,所以要明智地选择你的小队。 升级到终极会员,以RTX 4080品质玩《Remnant II》和超过1600款游戏,支持4K 120帧每秒的游戏和超宽分辨率。终极和优先会员还可以体验使用DLSS技术获得更高帧率的RTX云游戏设备的人工智能图形。 奖励自己 使用此奖励在《公会战争2》中提升自己。 终极和优先会员现在可以免费获取他们的《公会战争2》专属奖励,包括“始终准备好”的套装和“助推器”套装,有效期至8月底。…

Leave a Comment

斯坦福大学的研究人员引入了Gisting:一种用于语言模型中高效提示压缩的新技术

模型专业化涉及将预训练的机器学习模型适应特定的任务或领域。在语言模型(LMs)中,模型专业化对于改进其在摘要、问答、翻译和语言生成等各种任务中的性能至关重要。将语言模型专门用于特定任务的两个主要过程是指令微调(将预训练模型适应新任务或任务集)和模型蒸馏(从预训练的“教师”模型转移知识到更小、专门的“学生”模型)。提示是LM专业化领域的一个关键概念,因为它提供了引导模型朝特定行为的方式,允许更有效地使用有限的训练数据,并且对于实现最先进的性能至关重要。压缩提示是一种研究中的技术,希望能够在计算、内存和存储方面节省大量开销,同时不会对输出的总体性能或质量产生显著降低。 本文由斯坦福大学的研究人员提出,提出了一种名为gisting的提示压缩新技术,该技术训练了一个LM将提示压缩为更小的“要点”标记集。为了降低提示的成本,可以使用微调或蒸馏等技术训练一个模型,该模型的行为类似于没有提示的原始模型,但在这种情况下,模型必须针对每个新提示进行重新训练,这远非理想。然而,gisting的思想是使用元学习方法从提示中预测要点标记,这不需要为每个任务重新训练模型,并且可以在没有额外训练的情况下实现对未见指令的泛化。这将降低计算成本,并允许压缩、缓存和重用提示以提高计算效率。它还允许用户在有限的上下文窗口中容纳更多内容。 作者们尝试了一种实现这种模型的简单方法-他们使用LM本身(利用其现有的知识)在指令微调过程中预测要点标记,同时修改Transformer注意力掩码。给定一个(任务、输入)对,他们在任务和输入之间添加要点标记,并将注意力掩码设置如下:要点标记之后的输入标记不能与要点标记之前的任何提示标记关联(但它们可以与要点标记关联)。由于输入和输出不能参考提示,这迫使模型将提示中的信息压缩到要点标记之间。为了训练要点模型,他们需要一个包含各种任务的数据集,因此他们创建了一个称为Alpaca+的数据集,该数据集结合了两个现有的指令微调数据集(斯坦福Alpaca和Self-Instruct),总共超过130k个示例。然后,他们保留了3个验证拆分,以便在训练后验证模型,其中包括已见、未见和手工制作的人类提示。通过这种方式,他们能够测试对未见指令的泛化性能,其中人类拆分提出了更强的泛化挑战。他们还使用了多种LM架构(即LLaMA-7Bm、仅解码器的GPT风格模型和FLAN-T5-XXL),并使用不同数量的要点标记(1、2、5或10)训练要点模型。然而,结果显示,模型对于要点标记的数量通常不敏感,有些情况下甚至显示出更多标记实际上对性能有害。因此,他们在后续实验中使用了单个要点模型。 为了评估提示压缩的质量,他们将性能与正面控制进行了校准,正面控制实际上是标准指令微调,它提供了性能的上限,并且负面控制中模型完全无法访问指令,导致生成随机要点标记,这提供了性能的下限。为了将模型的输出与正面控制进行比较并测量胜率,他们要求ChatGPT选择哪个响应更好,并解释其推理过程。他们还使用了一个称为ROUGE-L的简单词汇重叠统计指标(用于衡量生成文本与人类编写的指令之间的相似性)。50%的胜率表示模型的质量与不进行提示压缩的模型相当。 研究结果显示,在已见指令上,概要模型的胜率非常接近正向对照模型,LLaMA为48.6%,FLAN-T5为50.8%。更重要的是,他们能够表明概要模型在未见提示上具有竞争力的泛化能力,LLaMA为49.7%,FLAN-T5为46.2%。只有在最具挑战的人类分割上,他们的胜率略微下降(但仍具竞争力),LLaMA为45.8%,FLAN-T5为42.5%。FLAN-T5的表现稍差以及特定的失败案例为未来的研究提供了更多的假设。 研究人员还调查了通过概要提取可能实现的效率提升。结果非常令人鼓舞,概要缓存导致FLOPs减少40%,墙上时钟时间比未优化的模型降低4-7%。尽管这些改进在仅有解码器的语言模型中较小,研究人员还证明了概要模型使未见提示的压缩率提高了26倍,为输入上下文窗口提供了相当大的额外空间。 总的来说,这些发现说明了概要提取对于增强专用语言模型的有效性和效率的巨大潜力。作者还提出了几个有前途的概要提取后续工作方向。例如,他们指出,从概要提取中获得的最大计算和效率收益将来自于对更长提示的压缩,并且“概要预训练”可以通过首先学习压缩任意自然语言段落来改善压缩性能。

Leave a Comment

使用亚马逊转录有害语言检测标记口语对话中的有害语言

网络社交活动的增加,如社交网络或在线游戏,往往存在敌对或侵略性行为,可能导致令人讨厌的仇恨言论、网络欺凌或骚扰的行为例如,许多在线游戏社区提供语音聊天功能,以促进用户之间的交流尽管语音聊天通常支持友好的交流,但有时也会出现不当的言辞和攻击性行为,使某些用户感到不安或受到伤害

Leave a Comment

Meta AI和剑桥大学的研究人员研究了如何利用大型语言模型(LLMs)加强语音识别能力

大型语言模型是新的趋势,得益于著名的ChatGPT的引入。这个聊天机器人由OpenAI开发,能够回答问题、对长段落的文本数据进行摘要、完成代码片段、将文本翻译成不同的语言等等。大型语言模型具有模仿人类的能力,基于人工智能的子领域,包括自然语言处理、自然语言理解、自然语言生成、计算机视觉等等。 在没有明确监督的情况下,大型语言模型通过预测大量文本数据中的下一个单词进行训练,从而在其神经网络的限制内开发了对外部世界的大量知识编码能力,使其在各种下游任务中非常有用。尽管大型语言模型在不同领域展现出了出色的性能,但最近的研究将一个小型音频编码器纳入模型中,通过启用语音识别进一步扩展了大型语言模型的能力。 该过程直接将一系列音频嵌入,如音频数据表示,融入已有的文本标记嵌入中。这使得大型语言模型能够像文本等价物一样自动执行语音识别(ASR)任务,因为它具有集成的表示。它还可以将口头交流翻译成打印文本。团队表示,仅具有解码器的大型语言模型可以执行多语种语音识别,并在训练时超过监督式单语训练基线。音频编码器模型的大小和帧速率、LLM参数的低秩适应、文本标记掩蔽以及所使用的大型语言模型类型是研究考察以提高识别准确性的几个变量之一。 通过分析音频编码器的输出,团队证明了音频嵌入与相应的文本标记准确匹配,展示了音频和文本信息的有效融合。为了评估这种策略的有效性,团队使用了Multilingual LibriSpeech(MLS)数据集来衡量其效果。开源的LLaMA-7B大型语言模型采用了一种专门用于音频处理的神经网络——conformer编码器。结果表明,这种调整使LLM在语音识别任务上的表现比单语基线提高了18%。主要以英文文本进行训练的LLaMA-7B在多语种语音识别方面表现出色。 除了主要实验外,该研究还对增强型LLM的性能的其他方面进行了调查。为了确定在LLM被冻结训练时是否能够保留其初始能力,研究人员进行了剔除试验。这意味着在ASR系统进行训练时不改变LLM的参数,并且结果表明,即使在LLM被冻结的情况下,它仍然能够很好地执行多语种ASR。 团队还研究了增加音频编码器规模、提高音频编码器步幅(与音频如何划分相关的参数)和生成更少的音频嵌入的效果。通过这些测试,旨在提高ASR系统的有效性和效率。总之,研究结果表明,即使使用更大的音频编码器或更长的步幅,多语种ASR的可行性仍然存在,并且LLM能够处理长格式音频输入。

Leave a Comment

在机器学习系统中探索设计模式,以提高性能和可用性

机器学习无处不在,得益于其最近的发展和新发布。随着人工智能和机器学习日益普及和对生产级机器学习模型的需求增加,发现机器学习问题并为其构建解决方案非常重要。设计模式是缩小机器学习相关问题解决方案范围的最佳方法。模式的概念有助于定义问题并找到深入的解决方案,这些解决方案可以在类似问题上重复使用任意次数。 设计模式将知识编码为全球从业者可遵循的指令。在机器学习生命周期的不同阶段使用不同的机器学习设计模式。其中一些模式用于问题框架、评估可行性或解决机器学习模型的开发或部署阶段。最近,一位名为Eugene Yan的Twitter用户在其推文中讨论了机器学习系统中的设计模式。他在推文中列出了其中的一些。 级联:级联将复杂问题分解为较简单的问题,然后使用后续模型来解决更困难或更具体的问题。所分享的例子是关于Stack Exchange,这是一个在线社区平台,他们使用级联防御来对抗垃圾邮件。它由多个层次的保护组成,用于检测和防止垃圾邮件被发布到他们的平台上,其中每个层次都专注于垃圾邮件检测的不同方面。第一道防线是当有人发布速度过快以致于不可能是人类操作时(HTTP 429错误),第二道是如果有人通过正则表达式和规则被捕获(启发式算法),第三道则是基于阴影测试的极其准确(机器学习)。级联以系统化和分层的方式工作,因此是一种有效的方法。在此处查看资源。 重构 – 重构涉及重新定义原始问题,以使其更容易解决。推文中给出的例子是关于阿里巴巴,一个大型电子商务平台,他们重新定义了连续推荐的范式,帮助预测用户可能与之互动的下一个物品。在此处查看资源。 人在回路中 – 这涉及从用户、注释服务或领域专家那里收集标签或注释,以提高机器学习模型的性能。推文中提到的示例是Stack Exchange和LinkedIn,用户可以标记垃圾邮件。这允许用户对垃圾内容提供反馈,这些反馈可以用于训练机器学习模型以更好地检测垃圾邮件并过滤出冒犯性消息。在此处查看资源。 数据增强 – 它涉及创建训练数据的合成变化,以增加大小和多样性,以提高机器学习模型的泛化能力并减少过拟合的风险。其中提到了DoorDash这个食品配送平台的例子,数据增强被用于解决准确分类和标记新菜单项的挑战,这些菜单项的训练数据有限或没有可用的数据。在此处查看资源。 数据飞轮 – 这是一个正反馈循环,通过收集更多数据来改善机器学习模型,从而吸引更多用户和数据。其中分享了特斯拉的例子,它从其汽车中收集数据,例如传感器数据、性能指标和使用模式。这些数据用于识别和标记有助于改善用于自动驾驶等任务的模型的错误。在此处查看资源。 业务规则:这涉及根据领域知识或业务需求添加一些额外的逻辑或约束,以增强或调整机器学习模型的输出。Twitter使用机器学习模型来预测用户参与度,从而调节推文在时间轴中的可见性。它还使用手动调整的权重或规则作为机器学习模型输出的约束,以将知识纳入决策过程中。在此处查看资源。 因此,机器学习系统中的设计模式可以提高模型的性能、可靠性和解释性,并帮助解决该领域的挑战。

Leave a Comment

Spotify拥抱人工智能:从个性化播放列表到音频广告

流行音乐流媒体平台 Spotify 一直处于技术的前沿,不断探索提升用户体验的方式。最近,该公司进军生成式人工智能领域,已经成功推出了 DJ 功能。这一由人工智能驱动的工具根据用户的听歌习惯为其提供个性化的播放列表,带来了无与伦比的个性化体验。但 Spotify 的人工智能之路并不止于此。在一次创新的举措中,该公司现在利用生成式人工智能改革音频广告。让我们深入了解 Spotify 的人工智能探索以及对用户和广告商的潜在影响。 还可阅读:AI 生成的歌曲走红 见面 DJ – Spotify 的 AI 助推个人 DJ Spotify 最新的突破,DJ,是一项利用人工智能提供个性化体验的功能。与 ChatGPT 和 DALL-E 的开发者…

Leave a Comment

见面Co-BioNet:莫纳什大学的对抗性人工智能系统,革新医学图像分析,提高准确性,无需大量人工标注

深度学习在医疗人工智能方面取得了显著进展。然而,它面临着需要大量带注释的数据进行训练的挑战,这可能是费力且容易受到人类偏见的问题,尤其是在图像分割任务中。莫纳什大学的研究人员意识到人类注释的医学图像的有限性,并提出了一种创新的对抗学习方法来解决这个问题。他们旨在推进医学图像分析,使放射科医生和医疗专家受益。目前依赖于人工手动注释是耗时、主观和容易出错的,强调了需要替代解决方案的需求。 传统上,放射科医生和其他医学专家通过手工注释医学扫描,突出显示感兴趣的特定区域,如肿瘤或其他病变。然而,这种方法依赖于个人的主观解释,耗时且容易出错,特别是在涉及到3D医学模态(例如MRI CT)时,导致患者等待治疗的时间延长。此外,医学图像中的解剖结构(器官或组织)的轮廓需要耗时的手动输入,因为医学图像通常具有低对比度的切片和模糊的区域。 莫纳什大学的研究团队开发了一种“双视图”人工智能系统,以克服传统医学图像注释技术的局限性。这种创新方法涉及两个相互竞争的组件-一个部分模拟放射科医生的专业知识,标记医学图像;而另一个通过将其与人类放射科医生提供的有限注释扫描进行比较,评估AI生成的标签的质量。通过利用带有标签和未标记的数据,提出的AI算法提高了准确性,并在半监督学习中取得了突破性的成果。即使只有有限的注释,AI模型也可以做出明智的决策,验证初步评估,并产生更准确的诊断和治疗决策。这一进展为医学图像分析中广泛的人工注释提供了一个有前景的替代方案。 在他们的新颖的AI算法中,研究人员使用评论网络使AI系统的每个视图能够从其他理论的高置信度预测中学习。通过引入不确定性,AI系统可以有效地衡量其生成标签的质量,提高医学图像分割的准确性。为了共同学习双视图和评论家,研究人员将学习问题制定为最小最大优化,从而实现更健壮和准确的分割。 在实验中,研究人员将他们提出的方法与最先进的基线方法进行了性能比较。评估是定性和定量的,涉及到四个公共数据集,包括多种模态,如计算机断层扫描(CT)和磁共振成像(MRI)。结果表明,所提出的半监督方法在性能上超过了竞争基线,并在与全监督方法相同条件下实现了竞争性能。在三个公开可访问的医学数据集中,仅利用10%的标记数据与最近的最先进方法相比,平均改进了3%。这一结果突显了基于不确定性引导的协同训练框架在生成合理的分割掩膜、促进半自动分割过程以及推进放射科医生和医疗专家的医学图像分析方面的效率。 提出的架构 https://www.nature.com/articles/s42256-023-00682-w 莫纳什大学的研究团队开发的AI系统代表了医学图像分析方面的重大突破。通过使AI模型能够做出明智的决策和验证其评估,它有望揭示更准确的诊断和治疗决策。该团队致力于进一步研究和开发,包括将应用扩展到不同的医学图像并为放射科医生创建专用的端到端产品,展示了他们通过AI技术推进医疗保健的承诺。

Leave a Comment

CMU研究人员提出了TIDEE:一种具有体现能力的代理,可以在从未见过的房间中整理,而无需任何明确的指令

有效的机器人操作不仅仅需要盲目遵守预设命令。当明显偏离正常情况时,机器人应该作出反应,并且能够从不完整的指令中推断出重要的上下文信息。部分或自生成的指令需要一种推理能力,这种推理能力需要对环境中的事物(物体、物理、其他代理等)的行为有扎实的理解。这种思考和行动方式是具有身临其境的常识推理的关键组成部分,对于机器人在现实世界中自然工作和交互是至关重要的。 与能够遵循具体的逐步指令的具体化代理相比,身临其境的常识思考领域滞后,因为后者必须学会在没有明确指令的情况下观察和行动。通过整理物品等任务可以研究身临其境的常识思考,其中代理必须识别错误放置的物品,并采取纠正措施将其放回更合适的位置。代理必须在搜索可能的物体位移位置时智能地导航和操作,识别当前场景中物体是否在其自然位置之外,并确定将物体重新定位到正确位置。物体放置的常识推理和智能存在的可取技能在这个挑战中相结合。 TIDEE是由研究团队开发的一个提议的身临其境的代理,它可以在没有指导的情况下清理它以前从未见过的空间。TIDEE是第一种类型,因为它可以扫描场景以查找不在正确位置的物品,找出在场景中放置它们的位置,然后精确地将它们移动到那里。 TIDEE调查了一个家庭周围的环境,找到错放的物品,推断出它们的可能物体上下文,将这些上下文定位在当前场景中,并将物体移回其正确位置。常识先验知识被编码在视觉搜索网络中,该网络指导代理在当前场景中寻找感兴趣的容器,以重新定位物体;ii) 视觉语义检测器可以检测到放错位置的物体;iii) 关联神经图记忆记录了事物和空间关系,为物体重新定位提出了合理的语义容器和表面。研究人员使用AI2THOR模拟环境让TIDEE清理混乱的环境。TIDEE仅通过像素和原始深度输入完成任务,而没有事先见过同一个房间,仅仅使用从不同训练家庭的收集中学到的先验知识。根据对房间布局变化的人工评估,TIDEE的性能优于除去一个或多个常识先验的模型的变体。 TIDEE可以在没有任何指导或先前接触相关地点或物体的情况下整理它从未见过的空间。TIDEE通过环顾四周的区域,识别物品并将它们标记为正常或异常来实现这一点。TIDEE利用其场景图和外部图形存储进行图推理,以推断物体不在原位时的可能容器类别。然后,它使用场景的空间语义地图来引导基于图像的搜索网络,以可能的容器类别的可能位置。 它是如何工作的? TIDEE通过三个不同的步骤来清理房间。TIDEE首先扫描区域,并在每个时间步骤运行异常检测器,直到发现可疑物体。然后,TIDEE移动到物品所在的位置并抓取它。第二步涉及TIDEE根据场景图和联合外部图形存储推断物品的可能容器。如果TIDEE尚未识别容器,它将使用视觉搜索网络引导其对区域的探索,并建议容器可能被发现的位置。TIDEE在内存中保留先前识别物体的估计3D质心,并使用此信息进行导航和物体跟踪。 使用商用可用的物体检测器收集每个物品的视觉属性。同时,通过为物体之间的3D关系(如“旁边”,“支持”,“上方”等)提供预训练的语言模型预测,生成关系语言特征。 TIDEE包含一个神经图模块,用于在拾起物体后预测可能的物品放置点子。物品放置、从训练场景中学到的可能的上下文连接的内存图以及编码了当前场景中的物体关系配置的场景图相互作用,使模块能够正常工作。 TIDEE采用光学搜索网络,在障碍物地图中预测每个空间点上物体存在的可能性,给定语义障碍物地图和搜索类别。然后,代理程序查看它认为最有可能包含目标的那些区域。 TIDEE有两个缺点,这两个缺点都是未来研究的明显方向:它没有考虑物品的打开和关闭状态,也没有将它们的3D姿势包括在混乱和重组过程的一部分。 有可能随意散落在房间中的东西所导致的混乱可能不代表真实生活中的混乱。 TIDEE直接从像素和原始深度输入完成任务,而无需事先看到相同的房间,仅使用从不同的训练房屋集合中学习到的先验知识。根据对结果房间布局变化的人类评估,TIDEE的性能优于排除一个或多个常识先验的模型的削弱变体。简化的模型版本在可比较的房间重新布局基准测试中远远优于表现最佳的解决方案,使代理程序能够在重新布局之前观察客观状态。

Leave a Comment

OpenAI CEO Sam Altman:随着人工智能证明其强大之处,工作岗位面临风险

OpenAI首席执行官Sam Altman对AI的潜在危险问题一直持有不同寻常的关注,尤其是他的创作ChatGPT。在最近的一次采访中,Altman深入探讨了AI对工作和整个人类的影响。虽然有人认为AI只会补充人类的努力,但Altman持有不同的观点,坚称由于技术进步,工作必将消失。让我们一起探讨Altman的观点和AI与人类共存的有趣未来。 也可阅读:人工智能的迅速崛起导致失业:科技行业受到数千人影响 围绕AI工作置换的担忧 像ChatGPT这样的AI工具的崛起在公众和技术专家中引发了一波担忧。担心的是,AI可能会取代各行各业的人工劳动力,导致大规模的工作置换。Altman对他的AI聊天机器人潜在危险的担忧进一步加剧了这些焦虑。 也可阅读:AI激增:Stability AI首席执行官预测印度开发人员将在2年内失业 Shopify的例子:对未来的一瞥 对于AI工作置换的担忧并非仅仅是理论上的。现实世界中已经出现了一些实例,比如Shopify使用AI取代部分员工。一名Shopify员工违反了保密协议,披露了公司的争议行为和战略方向。这一令人震惊的揭示增加了人们对AI对就业市场影响的担忧。 了解更多:Shopify员工曝光AI驱动的裁员和客户服务危机 Sam Altman的大胆断言:工作将消失 在最近的一次采访中,Sam Altman对AI的未来及其与人类工作的关系表达了大胆立场。他驳斥了AI只会补充人类努力的观点,坚称由于技术的进步,工作必将被淘汰。AI对就业的影响是一个“什么时候”的问题,而不是“是否”的问题。 虽然Altman预测由于AI的进展,工作必将不可避免地丧失,但他也承认未来的不可预测性。可能性是巨大的,AI和人类的共存可能会导致意想不到的结果,既有积极的,也有具有挑战性的。 也可阅读:OpenAI员工涌向Google DeepMind寻求新机会 平衡进步和准备 Altman透露,OpenAI本可以创建一个比ChatGPT更强大的AI工具,但他们选择不发布。这个决定背后的原因是对公众准备的关注。Altman强调了给予社会足够时间来适应强大的新智能与人类共存的重要性。在某种程度上,ChatGPT是一个温和的“警告信号”,向公众介绍了AI进步的潜在影响。 也可阅读:AI无法替代的工作 我们的观点 Sam Altman对AI对工作和人类的影响的洞察力揭示了技术进步的复杂性。虽然AI有可能为行业和人类生活带来革命性变革,但它也带来了重大风险,包括工作置换。在我们航行这个变革时代时,关键是平衡进步和准备,确保社会准备好负责任地拥抱AI的力量。未来仍然不确定,但我们可以通过解决问题和共同努力来引导AI朝着与人类更加美好的共存方向发展。

Leave a Comment

“可能是补丁的原因吗?这种AI方法分析了视觉Transformer成功的关键因素”

卷积神经网络(CNN)一直是计算机视觉任务系统的基础。它们一直是各种问题的首选架构,从目标检测到图像超分辨率。事实上,深度学习领域的著名突破(例如AlexNet)之所以能够实现,得益于卷积神经网络。 然而,当基于Transformer模型的新架构——Vision Transformer(ViT)展示出有希望的结果并在大型数据集上优于经典的卷积架构时,情况发生了变化。从那时起,该领域一直在寻求为多年来使用CNN解决的问题提供基于ViT的解决方案。 ViT使用自注意力层来处理图像,但如果在像素级别上天真地应用,这些层的计算成本将随图像每个像素的数量呈二次倍增。因此,ViT首先将图像分成多个补丁,对其进行线性嵌入,然后直接将Transformer应用于这个补丁集合。 在原始ViT的成功之后,许多工作修改了ViT架构以提高其性能。替换自注意力层、进行其他小的改变等。虽然进行了所有这些改变,几乎所有的ViT架构都遵循一个共同且简单的模板。它们在整个网络中保持相等的大小和分辨率,并表现出各向同性的行为,通过在交替步骤中实现空间和通道混合来实现。此外,所有网络都使用补丁嵌入,这允许在网络开始时进行下采样,并促进了直接和统一的混合设计。 这种基于补丁的方法是所有ViT架构的常见设计选择,简化了整体设计过程。因此,问题就出现了。视觉变换器的成功主要是由于基于补丁的表示吗?还是由于使用了自注意力和MLP等先进且富有表现力的技术?视觉变换器的出色性能主要取决于哪个因素? 有一种方法可以找到答案,它被称为ConvMixer。 ConvMixer概述。来源:https://openreview.net/forum?id=rAnB7JSMXL ConvMixer是一种卷积架构,用于分析ViT的性能。它在许多方面与ViT非常相似:它直接处理图像补丁,在整个网络中保持一致的分辨率,并将通道混合与图像不同部分的空间混合分离开。 然而,关键的区别在于ConvMixer使用标准卷积层来实现这些操作,而不是Vision Transformer和MLP-Mixer模型中使用的自注意力机制。最终,由此得到的模型在计算能力方面更便宜,因为深度卷积和逐点卷积操作比自注意力和MLP层更便宜。 尽管极其简单,ConvMixer在某些参数数量相似的“标准”计算机视觉模型(例如ResNet)以及一些对应的ViT和MLP-Mixer变体之上表现出色。这表明基于补丁的各向同性混合架构是一种功能强大的基本原理,几乎适用于任何良好的混合操作选择。 ConvMixer是一类极其简单的模型,它独立地使用标准卷积来混合补丁嵌入的空间和通道位置。通过使用受ViT和MLP-Mixer大感受野启发的大内核大小,可以实现显著的性能提升。最后,ConvMixer可以作为未来基于补丁的架构的基准。

Leave a Comment

南方科技大学VIP实验室提出了一种名为“轨迹任意模型”(Track Anything Model, TAM)的方法,在视频中实现了高性能的交互式跟踪和分割

视频目标跟踪(VOT)是计算机视觉研究的基石,因为在无约束的环境中追踪未知目标的意义重大。视频对象分割(VOS)是一种类似于VOT的技术,旨在识别视频中感兴趣的区域,并将其与帧的其他部分隔离开来。目前最好的视频跟踪器/分割器是通过分割掩模或边界框启动,并在大规模手动注释的数据集上进行训练的。大量的标记数据一方面隐藏了庞大的人力,另一方面,半监督的VOS在现有的初始化参数下需要一个唯一的对象掩模基本事实。 “任意分割”方法(SAM)是最近开发的用于图像分割的综合基准。得益于其可适应的提示和实时掩模计算,它可以进行交互使用。当以点、框或语言的形式提供用户友好的建议时,SAM可以返回指定图像区域的满意的分割掩模。然而,由于其缺乏时间一致性,研究人员在SAM立即应用于视频时并不看到令人瞩目的性能。 南方科技大学VIP实验室的研究人员介绍了“Track Anything”项目,为视频目标跟踪和分割创造了强大的工具。 Track Anything模型(TAM)具有直观的界面,可以在一次推理中跟踪和分割视频中的任何对象。 TAM是SAM的扩展,是一个大规模分割模型,集成了最先进的VOS模型XMem。用户可以通过交互初始化SAM(即点击对象)定义目标对象;接下来,XMem根据时间和空间对应关系对下一帧中的对象进行掩模预测。最后,SAM提供了更精确的掩模描述;用户可以在跟踪过程中暂停和纠正,一旦注意到跟踪失败。 TAM在TAM的分析中使用了DAVIS-2016验证集和DAVIS-2017测试开发集。最值得注意的是,研究结果表明TAM在具有挑战性和复杂环境中表现出色。TAM可以处理多对象分离、目标变形、尺寸变化和相机运动等问题,展示了在仅点击初始化和一轮推理下的出色跟踪和分割能力。 提出的Track Anything模型(TAM)为自适应视频跟踪和分割提供了多种选择,包括但不限于以下内容: 快速简便的视频转录: TAM可以将电影中的感兴趣区域分离出来,并允许用户选择他们想要跟踪的项目。这意味着它可以用于视频注释,如跟踪和分割视频对象。 长时间观察一个对象:由于长期跟踪在许多现实世界应用中具有重要意义,研究人员对此越来越关注。TAM的现实世界应用更加先进,因为它们可以适应长视频中频繁的镜头变换。 易于使用的视频编辑器: Track Anything模型允许我们将事物分成不同的类别。TAM的对象分割掩模使我们能够选择性地剪切或重新定位电影中的任何对象。 用于可视化和开发视频相关活动的工具箱:团队还为各种视频操作提供了可视化用户界面,包括VOS、VOT、视频修复等,以便于它们的使用。用户可以在真实场景的素材上测试他们的模型,并通过工具箱实时查看结果。

Leave a Comment

厌倦了调整学习率吗?来见识一下DoG:一个简单、无需参数的优化器,具备可靠的理论保证

以色列特拉维夫大学的研究人员提出了一种调整自由动态 SGD 步长的公式,称为梯度距离(Distance over Gradients,DoG),它仅依赖于经验数量,而不需要学习率参数。他们在理论上证明,对 DoG 公式进行轻微变化将导致局部有界的随机梯度收敛。 随机过程需要优化参数,而学习率仍然困难。先前成功的方法包括从先前的工作中选择合适的学习率。像自适应梯度方法这样的方法需要调整学习率参数。无参数优化不需要调整,因为算法被设计为在没有问题先验知识的情况下实现接近最优的收敛速度。 特拉维夫大学的研究人员采用了 Carmon 和 Hinder 的关键见解,并开发了一种无参数步长表。他们表明,在迭代 DoG 时,有很高的概率 DoG 实现了对数收敛速度。然而,DoG 不总是稳定的。它的迭代可能会远离优化。因此,他们使用 DoG 的变体,称为 T-DoG,其中步长比对数因子小。他们获得了一个高概率,确保了收敛性。 与 SGD 相比,他们的结果表明,在余弦步长表和基于调整的学习中,DoG 很少实现相对误差改进超过…

Leave a Comment

这篇人工智能论文提议将3D世界注入大型语言模型,并引入全新的3D-LLM家族

在过去几年中,我们见证了大规模语言模型(LLM)(如GPT4)的崛起,这些模型在包括沟通和常识推理在内的各种任务上表现出色。最近的研究关注如何将图片和视频与LLM对齐,以创建一种新型的多模态LLM(如Flamingo和BLIP-2),能够理解和理解二维视觉。然而,尽管这些模型在沟通和决策方面非常有效,但它们并不基于真实的三维物理世界中的更深层次概念,包括空间连接、可行性、物理和交互等。因此,与科幻电影中展示的能够理解三维情境并基于这些理解进行推理和规划的机器人助手相比,这种LLM是微不足道的。为了做到这一点,他们建议将三维世界纳入大规模语言模型,并引入一类全新的三维LLM,可以使用三维表示(即带有相关属性的三维点云)作为输入来处理各种三维相关任务。 图 1 当LLM使用三维情景表示作为输入时,它们从两个方面获益:(1) 它们可以将完整场景的长期记忆存储在整体的三维表示中,而不是片段性的部分观察。(2) 从三维表示中推理可以推断出三维特征,如可行性和空间链接,远远超出基于语言或二维图像的LLM的能力。数据收集是训练提出的三维LLM的一个重要障碍。缺乏三维数据使得基于三维数据创建基础模型变得困难,而互联网上的二维图像和文本数据却非常丰富。更难获取的是与口头描述相结合的三维数据。 他们提出了一系列独特的数据生成过程,以提供大量与语言相关的三维数据来解决这个问题。他们为三维数据和语言之间的交流提供了三个有效的提示过程,特别是使用ChatGPT。如图1所示,他们可以通过这种方式获取30万条三维语言数据,其中包括各种任务的信息,例如三维字幕、密集字幕、三维问题回答、三维任务分解、三维基础、三维辅助对话、导航等。下一个困难是找到与语言特征相匹配的有用的三维属性,用于三维LLM。一种方法是使用类似于CLIP的对比学习范式从头开始训练三维编码器,对齐语言和二维图片。然而,这种方法使用了大量的数据、时间和GPU资源。从不同的角度来看,最近的一些努力(如想法融合和3D-CLR)从二维多视图照片构建三维特征。他们还使用了一个三维特征提取器,根据这个提取器使用二维预训练特征的渲染多视图图片创建三维特征。 近期许多视觉语言模型(如BLIP-2和Flamingo)开始使用二维预训练的CLIP特征来训练它们的VLMs。由于它们映射到与二维预训练特征相同的特征空间,它们可以轻松地将二维VLMs作为骨干,并输入提取的三维特征以有效地训练三维LLM。三维LLM被预期具有潜在的三维空间信息感,这使它们在几个重要方面与传统的LLM和二维VLM不同。因此,来自加州大学洛杉矶分校、上海交通大学、华南理工大学、伊利诺伊大学厄巴纳-香槟分校、麻省理工学院、马萨诸塞大学阿默斯特分校和麻省理工-IBM沃森人工智能实验室的研究人员创建了一个将语言与地理位置连接起来的三维定位系统。他们将三维位置嵌入到检索到的三维特征中,更有效地编码空间信息。此外,他们向三维LLM添加了几个位置标记。然后,可以根据景物的语言描述生成位置标记来训练定位。这将使三维LLM能够更有效地记录三维空间数据。 总之,他们的论文提出了以下贡献: • 他们提出了一种新的基于3D的大型语言模型(3D-LLMs),可以使用来自带有特征和语言提示的3D点的输入来处理一系列与3D相关的任务。他们集中研究传统的或2D-LLMs无法涵盖的活动,例如对整个场景的认知、3D空间连接、适应性和3D规划等。 • 他们创建了创新的数据收集管道,可以生成大量的3D语言数据。基于这些管道,他们收集了一个包含超过30万个3D语言数据点的数据集,涵盖了广泛的3D相关活动,例如3D grounding、密集字幕、3D问题回答、任务分解、3D辅助对话、导航等。 • 他们使用3D特征提取器,该提取器可以接收渲染的多视角图片并提取有用的3D特征。他们使用2D预训练的VLMs构建了他们的训练系统。为了让3D-LLMs更好地收集3D空间信息,他们添加了一种3D定位方法。 • 在实验中,ScanQA(一种保留评估数据集)的表现优于先进的基准模型。在ScanQA上,特别是3D LLMs在基准模型(例如BLEU-1时提高了9%)的基础上表现更好。他们的方法在使用保留数据集进行3D字幕、任务创建和3D辅助对话的测试中击败了2D VLMs。定性调查显示,他们的方法可以更详细地处理各种工作。 • 他们希望将他们的3D-LLMs、3D语言数据集以及数据集的语言对齐的3D特征提供给即将进行的研究。

Leave a Comment

这篇来自韩国的人工智能(AI)论文提出了FFNeRV:一种使用帧间流图和多分辨率时间网格的新型逐帧视频表示方法

最近,对于通过神经网络将坐标映射到其数量(如标量或向量)来表示信号的神经场的研究已经迅速增长。这引发了对利用这项技术处理各种信号(包括音频、图像、3D形状和视频)的兴趣增加。通用逼近定理和坐标编码技术为大脑场的准确信号表示提供了理论基础。最近的研究表明,它在数据压缩、生成模型、信号操作和基本信号表示方面具有适应性。 图1显示了(a)所提出的流引导的逐帧表示的一般结构,(b)逐帧视频表示,(c)像素级视频表示(FFNeRV) 最近,对于通过神经网络将坐标映射到其数量(如标量或向量)来表示信号的神经场的研究已经迅速增长。这引发了对利用这项技术处理各种信号(包括音频、图像、3D形状和视频)的兴趣增加。通用逼近定理和坐标编码技术为大脑场的准确信号表示提供了理论基础。最近的研究表明,它在数据压缩、生成模型、信号操作和基本信号表示方面具有适应性。 每个时间坐标由由多层感知机(MLP)和卷积层堆叠创建的视频帧来表示。与基本神经场设计相比,我们的方法大大减少了编码时间,并且在视频压缩技术方面表现出色。这种范式遵循了最近提出的E-NeRV,同时也提升了视频质量。如图1所示,它们提供了用于电影的流引导的逐帧神经表示(FFNeRV)。它们将光流嵌入到逐帧表示中,利用时间冗余,借鉴了常见的视频编解码器。通过组合由光流引导的附近帧,FFNeRV创建了一个视频帧,强制重用先前帧的像素。鼓励网络避免在帧之间再次记住相同的像素值,极大地提高了参数效率。 根据对UVG数据集的实验结果,FFNeRV在视频压缩和帧插值方面击败了其他逐帧算法。他们建议使用多分辨率时间网格,以固定空间分辨率代替MLP,将连续的时间坐标映射到相应的潜在特征,以进一步提高压缩性能。这受到基于网格的神经表示的启发。此外,他们建议使用更简洁的卷积结构。他们在推荐的逐帧流表示中使用群组和逐点卷积,由生成模型驱动,生成高质量的图片和轻量级神经网络。通过量化感知训练和熵编码,FFNeRV击败了流行的视频编解码器(H.264和HEVC),并与最先进的视频压缩算法表现相当。代码实现基于NeRV,可在GitHub上获得。

Leave a Comment

“认识罗丹:一种新颖的人工智能(AI)框架,可以从各种输入源生成3D数字化身”

生成模型正在成为计算机科学中许多具有挑战性任务的事实解决方案。它们代表了分析和合成视觉数据最有前景的方法之一。稳定扩散是目前最知名的生成模型,可以从复杂的输入提示生成美丽而逼真的图像。该架构基于扩散模型(DMs),已经展现出图像和视频的惊人生成能力。扩散和生成模型的快速发展正在推动二维内容创作的革命。这个口号非常简单:“如果你能描述它,你就能可视化它。”或者更好的说,“如果你能描述它,模型就能为你绘制出来。”确实令人难以置信,生成模型的能力。 虽然二维内容已被证明是对DMs的一种压力测试,但三维内容由于包括但不限于额外的维度而带来了几个挑战。生成与2D内容相同质量的三维内容,例如头像,是一项艰巨的任务,由于内存和处理成本可能会限制为高质量头像生成所需的丰富细节。 随着技术推动数字头像在电影、游戏、元宇宙和3D行业中的使用,允许任何人创建数字头像可能是有益的。这是推动该工作开发的动力。 作者提出了Roll-out扩散网络(Rodin)来解决创建数字头像的问题。下图给出了该模型的概述。 模型的输入可以是图像、随机噪声或所需头像的文本描述。然后从给定的输入中派生潜在向量z,并在扩散过程中使用它。扩散过程包括多个噪声去噪步骤。首先,随机噪声被添加到起始状态或图像中,并进行去噪以获得更清晰的图像。 这里的不同之处在于所需内容的三维性质。扩散过程与通常运行一样,但扩散模型生成头像的粗略几何形状,随后使用扩散上采样器进行细节合成。 计算和内存效率是该工作的目标之一。为了实现这一目标,作者利用了神经辐射场的三平面(三个轴)表示,与体素网格相比,它具有更小的内存占用,而不会损失表达能力。 然后,训练另一个扩散模型,将产生的三平面表示上采样以匹配所需分辨率。最后,利用由4个全连接层组成的轻量级MLP解码器生成RGB体积图像。 下面报告了一些结果。 与提到的最先进方法相比,Rodin提供了最清晰的数字头像。对于该模型,在共享样本中没有可见的伪影,与其他技术相反。 这是Rodin的摘要,一个能够轻松从各种输入源生成3D数字化身的新颖框架。如果您有兴趣,可以在下面的链接中找到更多信息。

Leave a Comment

“赋能设备端人工智能:高通和Meta与Llama 2技术合作”

Meta发布了新的开源Llama 2,引发了关于大型语言模型(LLMs)用例的讨论。然而,对于许多人来说,在本地硬件上访问和运行Llama 2仍然是一个重要的障碍。为了解决这个问题并使Llama 2的能力普及化,Meta与高通合作,优化该模型以在设备上使用,利用高通的AI能力骁龙芯片。 Meta和高通的合作旨在在设备上实现Llama 2,并利用新的AI能力骁龙芯片的功能。通过在设备上运行模型,开发人员可以减少云计算成本,并为用户提供增强的隐私,因为没有数据传输到外部服务器。设备上的AI处理还可以实现生成式AI而无需互联网连接,并且可以根据用户的偏好对模型进行个性化。 高通的Hexagon处理器为其骁龙芯片配备了各种AI功能,包括微瓦推断、张量核心以及SegNet、标量和矢量工作负载的专用处理。将Llama 2整合到高通AI堆栈中,进一步优化了在设备上运行AI模型。 Meta从第一款LLaMA模型的泄露中吸取了教训,该模型最初仅向研究人员和学术机构开放。然而,互联网上的泄露导致了开源LLM创新的爆发,产生了各种改进版的LLaMA。开源社区做出了重大贡献,创建了可以在设备上运行的版本,使LLM更加易于访问更广泛的受众。 为了应对泄露事件,Meta在Llama 2的发布中采取了不同的方式,积极接受开放和合作。与高通的合作使芯片制造商了解了模型的内部工作原理,使他们能够优化骁龙芯片上的性能。这种合作预计将与高通的骁龙8 Gen 3芯片在2024年发布同时进行。 开源社区也预计在Llama 2的开发中发挥关键作用。将行业对设备上AI的势头与开放的LLM生态系统结合起来,这一举措被视为朝着培育活跃的设备上AI生态系统的众多步骤中的第一步。 专家预测,开源LLM可能会引领一代新的以AI为动力的内容生成、智能助手、生产力应用等。在设备上本地运行LLM的能力为设备上的AI处理开启了众多可能性,并支持AI能力在边缘的不断增长趋势,例如苹果在M1芯片中加入神经引擎和微软的混合AI Loop工具包。 总的来说,Meta和高通之间的合作标志着向AI模型普及化迈出了重要的一步,为开发人员创造AI应用程序开辟了令人兴奋的机会,并引领着类似于iPhone应用商店繁荣的设备上AI生态系统的新时代。

Leave a Comment

CatBoost 一个用于构建具有分类数据的模型的解决方案

介绍 如果热衷于学习数据科学和机器学习的学习者,他们应该学习增强系列算法。增强系列中有许多算法,例如AdaBoost、梯度提升、XGBoost等等。增强系列中的一个算法是CatBoost算法。CatBoost是一种机器学习算法,它代表分类提升。它是由Yandex开发的。它是一个开源库。它可以在Python和R语言中使用。CatBoost在数据集中的分类变量方面表现非常好。与其他提升算法类似,CatBoost也在后台创建多个决策树,即树的集合,来预测分类标签。它基于梯度提升。 另请阅读:CatBoost:一种自动处理分类(CAT)数据的机器学习库 学习目标 了解增强算法的概念及其在数据科学和机器学习中的重要性。 探索CatBoost算法作为增强系列成员之一,其起源及其在处理分类变量方面的作用。 理解CatBoost的关键特性,包括其处理分类变量、梯度提升、有序提升和正则化技术。 深入了解CatBoost的优点,如其对分类变量的强大处理能力和出色的预测性能。 学习在Python中实现CatBoost用于回归和分类任务,探索模型参数并对测试数据进行预测。 本文作为数据科学博客马拉松的一部分发表。 CatBoost的重要特性 处理分类变量: CatBoost在处理包含分类特征的数据集方面表现出色。通过使用各种方法,我们通过将它们转换为数值表示来自动处理分类变量。这包括目标统计、独热编码或两者的混合。这种能力通过省去手动分类特征预处理的要求,节省了时间和精力。 梯度提升: CatBoost使用梯度提升,一种集成技术,将多个弱学习器(决策树)组合起来创建有效的预测模型。通过添加训练和指导以纠正之前树引起的错误的树,迭代地创建树,同时最小化可微损失函数。这种迭代的方法逐步提高了模型的预测能力。 有序提升: CatBoost提出了一种称为“有序提升”的新技术,以有效处理分类特征。在构建树时,它使用一种称为基于排列的预排序分类变量的技术来识别最佳分割点。这种方法使得CatBoost能够考虑所有潜在的分割配置,提高预测并降低过拟合。 正则化: CatBoost使用正则化技术来减少过拟合并提高泛化能力。它在叶节点值上进行L2正则化,通过添加惩罚项修改损失函数以防止过大的叶节点值。此外,它使用一种先进的方法称为“有序目标编码”来避免在编码分类数据时过拟合。 CatBoost的优点 对分类变量的强大处理能力: CatBoost的自动处理使得预处理更加方便和有效。它不需要手动编码方法,并降低了与传统过程相关的信息丢失的机会。 出色的预测性能: 使用CatBoost的梯度提升框架和有序提升进行预测的结果通常是准确的。它可以生成强大的模型,在许多其他算法中表现优秀,并有效地捕捉数据中的复杂关系。 应用案例…

Leave a Comment

这项脑AI研究通过稳定扩散从读取脑电波中重建图像

构建与人类视觉系统类似的人工系统,是计算机视觉的一个重要目标。最近在人口脑活动测量方面的进展,以及深度神经网络模型的实现和设计的改进,使得可以直接比较人工网络的结构特征与生物大脑潜在表示的架构特征,揭示了这些系统的工作方式的关键细节。从脑活动中重建视觉图像,比如通过功能磁共振成像(fMRI)检测到的脑活动,就是其中的一个应用之一。这是一个有趣但困难的问题,因为潜在的脑表示大部分是未知的,而且用于脑数据的样本量通常很小。 近年来,学者们使用深度学习模型和技术,如生成对抗网络(GAN)和自监督学习,来应对这一挑战。然而,这些研究要求对fMRI实验中使用的特定刺激进行微调,或者从头开始训练新的生成模型。这些尝试在像素级和语义保真度方面表现出很大但受限的性能,部分原因是神经科学数据量较小,部分原因是构建复杂生成模型的多个困难。 扩散模型,尤其是计算资源消耗较少的潜在扩散模型,是最近的一个GAN替代方案。然而,由于LDMs仍然相对较新,很难完全理解它们的内部工作原理。 大阪大学和CiNet的研究团队使用一种名为稳定扩散的LDM来从fMRI信号重建视觉图像,试图解决上述问题。他们提出了一个简单的框架,可以在不需要训练或微调复杂深度学习模型的情况下,重建具有高语义保真度的高分辨率图像。 作者在这项研究中使用的数据集是自然场景数据集(NSD),该数据集收集了来自fMRI扫描仪的数据,每个受试者在30-40个会话期间观看了10,000张图片的三次重复。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 首先,他们使用潜在扩散模型从文本中创建图像。在上图(顶部)中,z被定义为由模型通过c进行修改的生成的潜在表示,c被定义为文本的潜在表示(描述图像),zc被定义为由自编码器压缩的原始图像的潜在表示。 为了分析解码模型,作者按照以下三个步骤进行操作(上图,中部)。首先,他们从早期视觉皮层(蓝色)的fMRI信号中预测出呈现图像X的潜在表示z。然后,将z经过解码器处理,产生粗糙的解码图像Xz,然后将其编码并通过扩散过程。最后,将噪声图像添加到从高级视觉皮层(黄色)的fMRI信号中得到的解码潜在文本表示c中,并进行去噪处理,得到zc。从zc出发,解码模块产生最终重建的图像Xzc。需要强调的是,这个过程所需的唯一训练是线性映射fMRI信号到LDM组件zc、z和c。 从zc、z和c出发,作者进行了编码分析,通过将它们映射到脑活动来解释LDM的内部操作(上图,底部)。从表示中重建图像的结果如下所示。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 使用简单的 z 重新创建的图像具有与原始图像的视觉一致性,但其语义价值丧失了。另一方面,仅使用 c 部分重建的图像产生了具有很强语义保真度但视觉不一致的图像。通过使用 zc 恢复的图像能够产生具有很高语义保真度的高分辨率图像,从而证明了该方法的有效性。 对大脑的最终分析揭示了关于 DM 模型的新信息。在大脑的后部,即视觉皮层中,所有三个组件都取得了很高的预测性能。特别是,z 在早期视觉皮层(位于视觉皮层后部)中提供了强大的预测性能。同时,它在上部视觉皮层(即视觉皮层的前部)中表现出很强的预测值,但在其他区域的值较小。另一方面,在上部视觉皮层中,c 提供了最佳的预测性能。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 查看论文和项目页面。所有关于这项研究的荣誉归功于该项目的研究人员。还请不要忘记加入我们的26k+ ML…

Leave a Comment

加拿大UBC研究人员引入了一种新的人工智能算法,为城市驾驶员绘制最安全的路线

导航应用是提供实时导航指引的应用程序。大多数可用的导航应用可以显示到指定位置的最快旅行路线,但这些应用不能告诉我们到目的地的最安全路线。 需要注意的是,最快的路线并不总是能够保证最高的安全水平。鉴于安全的至关重要性,全球范围内正在进行广泛的研究,以改进导航系统并实现对最安全和最高效路线的识别。 UBC的研究人员开发了一种能够导航和建议最安全路线的算法。研究团队开发了一种方法,可以使用实时碰撞风险数据在城市网络中识别最安全的可能路线。此外,这个算法还可以集成到导航应用程序中,如Google地图,使得它可以被每个人使用。 为了促进这项研究,研究团队使用了10架在希腊雅典市操作的无人机,连续多天收集了这些无人机生成的数据。他们收集的数据包括车辆位置、速度和加速度。这些信息对于识别车辆之间的近距离接触以及预测实时车辆碰撞风险非常关键。这项研究旨在开发一种实时路由算法,考虑特定路线上不同点的碰撞风险程度以及暴露在这些条件下的时间。然后将最安全的路线与最快的路线进行比较,并研究安全性和流动性之间的权衡。 这项研究的结果非常有趣。研究表明,最安全的路线相对于最快的路线更安全,安全性提高了22%,但最快的路线只比最安全的路线快11%。在许多情况下,最安全路线算法往往沿着与最快路线相同的路线行驶,在特定点处绕道以避开被识别为危险位置的地方。事实上,最安全的路线在54%的时间里也是最快的路线。研究人员表示,道路使用者在选择方向时应考虑安全性和效率的综合。 这个实验表明最快路线和最安全路线之间存在权衡。此外,这项研究为该领域的各种其他研究领域铺平了道路。未来,可以相对于其他路线来量化一个路线的安全性。 该模型的局限性在于数据仅针对一个城市在有限的时间内进行收集,可能无法准确描述交通环境变化的位置变化。因此,对于更大范围和更长时间的更多可用路线进行测试,并确定和概括安全性和流动性之间的权衡将是有益的。因此,研究人员目前正在将他们的研究范围扩展到其他城市。

Leave a Comment

谷歌在ICML 2023

由谷歌的程序经理Cat Armato发布 谷歌的各个团队在机器学习(ML)领域积极开展研究,涉及理论和应用等方面。我们构建ML系统来解决语言、音乐、视觉处理、算法开发等领域的深度科学和工程挑战。我们通过开源工具和数据集、发表论文以及积极参与会议,致力于与更广泛的ML研究社区建立更协作的生态系统。 谷歌很自豪成为第40届国际机器学习大会(ICML 2023)的钻石赞助商,这是一场世界一流的年度会议,本周在夏威夷檀香山举行。作为ML研究的领导者,谷歌在今年的会议上有超过120篇被接受的论文,并积极参与多个研讨会和教程。谷歌还自豪地成为拉丁裔AI和机器学习女性研讨会的白金赞助商。我们期待与更广泛的ML研究社区分享我们广泛的ML研究,并扩大我们的合作伙伴关系。 已注册ICML 2023吗?我们希望您能访问谷歌展位,了解解决该领域最有趣挑战的激动人心的工作、创造力和乐趣。请访问@GoogleAI的Twitter账号,了解谷歌展位的活动(例如演示和问答环节)。请查看Google DeepMind的博客,了解他们在ICML 2023的技术参与。 请继续阅读以下内容,了解谷歌在ICML 2023的研究成果(谷歌相关机构以粗体显示)。 委员会和组织委员会 委员会成员包括:Corinna Cortes,Hugo Larochelle。教程主席包括:Hanie Sedghi 谷歌研究展位活动 演讲者:Bryan Perozzi,Anton Tsitsulin,Brandon Mayer。题目:谷歌的无监督图嵌入(论文,EXPO研讨会)。时间:7月25日星期二上午10:30 HST 演讲者:Zheng Xu。题目:使用差分隐私的Gboard语言模型的联邦学习(论文1,论文2,博客文章)。时间:7月25日星期二下午3:30 HST…

Leave a Comment