Press "Enter" to skip to content

Tag: Technology

医疗景观人工智能模型列表(2023年)

鉴于人工智能(AI)在今年取得的许多进展,AI已成为2023年的一个重要讨论点并不足为奇。现在,几乎在每个领域中都可以找到AI的应用案例,其中之一就是在医疗保健和医学领域的令人兴奋和有用的应用。从药物发现到转录医学文件,甚至协助手术,它正在改变医疗专业人员的生活,还有助于减少错误并提高其效率。本文讨论了2023年几个有可能改变医学界的AI模型。 Med-PaLM 2 Med-PaLM由Google Research设计用于医学领域,能够对医学问题提供高质量的答案。该模型利用了Google的LLM的强大性能,并是其中一个在回答USMLE样式问题时达到人类专家水平的首个模型。在评估时,该模型展示了理解症状、进行复杂推理并选择适当治疗的能力。此外,它在研究中基于MedQA医学考试基准测试中取得了86.5%的准确率。尽管显示出了有前途的能力,研究人员希望进行更严格的评估,以确保该模型可以在关键安全领域部署。 Bioformer Bioformer是BERT的一个紧凑版本,可用于生物医学文本挖掘。虽然BERT在NLP应用中取得了最先进的性能,但通过减少参数可以提高计算效率,对性能的影响很小。Bioformer研究人员采用这种方法开发了一个模型,其模型尺寸比BERT大大减小(减少60%)。该模型是在PubMed摘要和PubMed Central全文文章上训练的,并使用了生物医学词汇表。研究人员发布了两个版本的模型-Bioformer8L和Bioformer16L,在命名实体识别、关系抽取、问题回答和文档分类等参数评估中表现良好,即使参数更少。 MedLM MedLM是由Google开发的一套针对医疗保健用例进行调优的基础模型。MedLM中的两个模型旨在处理复杂任务并扩展到各种任务中。这些模型的主要目的是自动化任务,以节省时间,提高效率并改善患者整体健康状况,Google的研究人员与德勤合作以试行MedLM的能力。MedLM还与其他AI系统集成,如BenchSci的ASCEND,以提高临床研究和开发的质量和速度。 RoseTTAFold RoseTTAFold是一款通过有限信息预测蛋白质结构的深度学习软件。它能够研究蛋白质序列的模式、蛋白质氨基酸的相互作用以及它们的三维结构。该模型使研究人员能够模拟蛋白质和小分子药物彼此之间的相互作用,促进药物发现研究。该模型的研究人员还公开了其代码,以造福整个社区。 AlphaFold AlphaFold是由DeepMind开发的功能强大的AI模型,可以根据蛋白质的氨基酸序列预测其三维结构。DeepMind与EMBL的欧洲生物信息研究所(EMBL-EBI)合作共同发布了一个包含超过2亿个AI生成的蛋白质结构预测结果的数据库,以促进科学研究。在CASP14中,AlphaFold在高准确性的情况下超过了其他模型,产生了令人满意的结果。此外,它具有更好地帮助研究人员理解蛋白质结构和推进生物研究的潜力。 ChatGLM-6B ChatGLM是一个双语模型(中英文),它在中文医疗对话数据库上进行了精细调整。该模型在相对较短的时间内(13小时)进行了精细调整,使其成为非常实惠且适用于医疗目的的LLM。该模型还具有更长的序列长度,因此支持更长的对话和应用程序。该模型使用了监督式精细调整、RLHF等技术进行训练,从而使其能够更好地理解人类指令。因此,该模型具有出色的对话和问答能力。 本文最初发表在MarkTechPost上,文章标题为:医疗领域人工智能模型清单(2023年)。

Leave a Comment

Spotify的秘密武器:AI生成的播放列表

揭開AI播放清單功能的面紗 今秋,敏銳的用戶發現了Spotify流媒體應用程序上的一個新功能,允許通過提示創建AI驅動的播放清單。雖然Spotify向TechCrunch確認了此測試,但有關該技術及其運作方式的詳細信息仍未公開,讓用戶感到好奇。這一功能是通過用戶@robdad_在TikTok視頻中展示出來的,他意外發現了他稱之為“Spotify的ChatGPT”的東西。 導航AI播放清單界面 從Spotify應用程序的“您的音樂庫”選項卡中可以輕鬆訪問AI播放清單功能。用戶可以通過點擊屏幕右上角的加號(+)按鈕啟動播放清單創建過程。彈出菜單出現,除了現有的“播放清單”和“合併”選項外,還提供了AI播放清單選項。在選擇後,用戶將遇到一個屏幕,可以在AI聊天機器人風格的框中輸入提示,或從提供的提示列表中選擇,例如“用器樂電子音樂集中注意力工作”或“探索像女巫之屋這樣的小眾音樂類型”。 AI播放清單生成的幕後 @robdad_分享的屏幕截圖展示了提示選擇過程,顯示選項包括“用背景咖啡館音樂填充沉默”或“用有趣、快樂和積極的歌曲來提振士氣”。AI聊天機器人然後回答“正在處理您的請求…”並呈現一個範例播放清單。用戶可以通過向左滑動進一步完善播放列表,刪除不想包含的任何歌曲。 Spotify的AI探索繼續 這不是Spotify首次嘗試AI驅動的功能。今年早些時候,這家流媒體巨頭推出了一個AI驅動的DJ,以推薦歌曲和俏皮的評論顛覆了音樂聆聽體驗。產品設計師Chris Messina最近發現的代碼暗示AI在播放清單創建方面具有更廣泛的應用,可能還涉及Spotify Blend。然而,Spotify對具體細節保持緘默,稱“在Spotify,我們不斷改進和構思我們的產品,為用戶提供價值。” 我們的說法 Spotify對AI生成的播放清單的實驗反映出該公司致力於在音樂流媒體領域的技術創新前沿。儘管詳細信息有限,但通過AI提示的用戶自主創建個性化播放清單的前景為Spotify體驗增添了激動人心的維度。隨著Spotify在AI方面不斷突破界限,這一功能如何發展和融入該平台的更廣泛生態系統將是一個有趣的觀察。 由於AI播放清單功能的持續測試,Spotify用戶可以預期在播放清單創建方面出現一個可能改變遊戲規則的功能。隨著技術的不斷發展,我們與喜愛的音樂互動的方式也在不斷變化,而Spotify似乎決心引領這個以AI為驅動的未來。

Leave a Comment

‘长尾巴摇晃着狗尾巴:人工智能个性化艺术的意想不到后果’

“`html Meta最近在生成影片领域展现了Emu,这标志着一个转折点,技术和文化以前所未有的方式相互交汇。 Emu不仅是人工智能在创造能力上的进步,更是生成人工智能领域新时代的灯塔,它标志着我们获得信息和娱乐的潜在革命。 我们正处在生成人工智能革命的临界点上,即将改变出版和娱乐领域的基本结构。语言模型以其非凡的综合和表达信息的能力,承诺打造一座全球无与伦比的图书馆,覆盖多种语言下的各种主题。然而,这些生成信息的准确性至关重要,需要保持警惕的事实核查和审查。 将注意力转向娱乐领域,其影响是深远的。Emu所开辟的道路,生成人工智能能够从根本上改变Netflix和Amazon Prime等平台,实现以前无法想象的电影体验个性化。设想一下未来,通过一系列要点来构成电影的叙事,而算法会据此调整剧情。你的英雄命运,无论是胜利还是失败,由你决定。这不仅仅是关于偏好,而是个性化达到了高峰。我们将很快看到我们决定英雄在结局时是否死去。幸福快乐…只有我意愿为之!然而,这种个性化带来了一个重要的警示。将艺术体验根据个人口味调整的能力,有可能限制我们接触多样化的观点,导致一个过于简化和以回声室为特点的世界。 这种倾向于简化,通常被代表为“用5岁儿童的方式解释”,可能有助于初步理解,但有可能侵蚀我们对复杂问题的充分理解的丰富性和深度。爱因斯坦关于使事情尽可能简单但不过分简单的指导在这里特别适用。它强调了在保持清晰度的同时保留复杂主题的细微差别的重要性。 尽管存在潜在的陷阱,这项技术的魅力是无可否认的。它触动了我们对独特性和认可的深刻渴望,这与可定制产品如NikeId的吸引力相似。然而,危险在于让人工智能加强我们的偏见,并使我们远离具有挑战性和多样性的思想。这与创造力的本质相背离,而创造力在于与广泛的知识接触。 在人工智能领域,特别是在强化学习中,我们训练代理人在探索和利用之间取得平衡,这是我们自己的知识之旅的一种策略。然而,在与信息的互动中,我们经常限制自己只接触与我们现有信念相一致的内容。这种悖论强调了我们在应用人工智能时关键性的疏忽。 当我们站在人工智能重塑我们的世界的潜力的边缘时,我们必须考虑如何利用这个强大的工具。真正的危险不在于人工智能本身,而在于我们与之互动的方式。我们必须将人工智能视为一种促进探索和理解的催化剂,营造一个欢迎复杂性、培养智力好奇心的环境。通过这样做,人工智能能够真正成为一种力量,拓宽我们的视野,丰富集体的人类经验。 本文来源:长尾狗摇头摆尾:人工智能个性化艺术的意外后果 – MarkTechPost “`

Leave a Comment

争议环绕:Grok使用OpenAI代码进行训练

埃隆·马斯克(Elon Musk)最新的创业项目是基于生成式人工智能的聊天机器人Grok。然而,该机器人卷入了争议,有指控称它在训练过程中使用了OpenAI的代码。这起争议给埃隆·马斯克、OpenAI和OpenAI的现任首席执行官Sam Altman之间复杂的历史增添了新的层面。 划定的指控 最近的声明暗示Grok可能无意间在OpenAI的代码库上进行了训练。当用户Jax Winterbourne遇到与OpenAI的ChatGPT类似的Grok的不寻常回复时,引发了这种猜测。该用户对xAI可能在Grok的训练中使用了OpenAI的代码表示担忧。 xAI的解释 作为对指控的回应,与xAI有关的Igor Babuschkin澄清了这个问题是由于训练Grok时使用了大量Web数据引起的。Babuschkin解释说,训练过程无意间捕获到了ChatGPT的输出结果。虽然承认这个问题并不常见,但他向用户保证,未来的Grok版本将不会遇到这个问题,并强调他们在Grok的开发过程中未使用任何OpenAI的代码。 埃隆·马斯克的反驳 埃隆·马斯克对Twitter上的指控作出了迅速的回应。马斯克否认了这些指控,表示Grok的回复来自于训练中的广泛数据抓取。以马斯克的特色回应,他反驳道:“嗯,儿子,既然你从这个平台上抓取了所有数据进行训练,那你应该知道。” 对Grok与ChatGPT的近距离观察 对Grok和ChatGPT的比较揭示了它们的独特特性。Grok以其通过X平台实时获取信息的能力脱颖而出,这使其相对于最初缺乏这种功能的ChatGPT具有明显优势。然而,这场争议也引发了关于Grok训练数据来源的质疑。 xAI的合作与未来展望 xAI不仅是埃隆·马斯克的心血结晶,同时也得到了拥有来自Google的DeepMind和微软的经验的团队的支持,它已经扩大了与特斯拉和其他各种公司的合作范围。最近与Oracle达成合同以利用其云技术的揭示更加突显了xAI对推进人工智能能力的承诺。 我们的观点 在这些指控和反驳的背景下,用户必须了解人工智能发展的复杂性。尽管围绕Grok训练数据的争议令人担忧,但它也凸显了在广阔的互联网领域确保数据纯净性所面临的挑战。随着技术的发展,人工智能开发者需要及时解决和纠正这类问题变得至关重要。

Leave a Comment

提升数据安全性与协作能力:AWS Clean Rooms引入机器学习和差分隐私功能

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.49.22-AM-1024×573.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.49.22-AM-150×150.png” /><p>亚马逊网络服务(AWS)推出了安全数据共享服务Clean Rooms的新更新,通过创新的机器学习(ML)和差分隐私功能增强了其功能。这些进步使企业能够安全地协作,利用机器学习模型的能力,并在进行准确的数据分析的同时保护敏感数据隐私。</p><p>Clean Rooms的最新版本引入了一套强大的功能,旨在加强数据隐私和促进安全协作。机器学习支持的添加使用户能够利用ML模型而不暴露原始数据。这一创新功能使得协作数据分析成为可能,而不会危及数据隐私,对于希望获取洞察力而不泄露敏感信息的企业来说,这是一个福音。</p><p>一个重要的新增功能是将差分隐私功能集成到Clean Rooms中。这个新颖的功能将精心校准的错误或“噪音”引入到查询结果中,确保分析准确性同时使个人数据贡献难以理解。通过将隐私视为有限资源,并通过隐私预算组件对其进行处理,这个功能防止了数据泄露,避免了隐私资源的耗尽和潜在违规行为。</p><p>差分隐私是一种在数据共享期间增强隐私保护的技术,它可以揭示统计模式而不泄露具体个人细节的能力。AWS Clean Rooms简化了这项技术的应用,使其易于实施。通过启用差分隐私功能并在协作环境中配置隐私策略,用户可以轻松地使用这种增强隐私保护技术。</p><p>在此更新中的一个开创性功能是Clean Rooms ML,它允许用户在保护敏感数据的同时使用机器学习模型进行预测分析。它的应用涵盖了各个行业,促进了有针对性的营销工作,确定潜在客户,并加速了临床研究,同时不暴露关键信息。</p><p>Clean Rooms ML的实施涉及在组织数据共享协作中训练AWS管理的模型,从而消除了用户构建和部署自己的模型的需求。这种无缝整合的ML功能使用户具备灵活的控制能力,可以调整模型的预测结果,确保分析的适应性和精确性。</p><p>此外,Clean Rooms还引入了一系列隐私控制功能,授权用户管理具有适当权限的Clean Rooms成员执行的查询和输出。这个额外的控制层进一步加强了协作生态系统中的数据安全和隐私保护措施。</p><p>在本质上,改进后的AWS Clean Rooms标志着安全数据协作的范式转变,是在保护敏感信息的同时释放全面数据分析潜力的重要步伐。AWS通过融合最先进的机器学习和差分隐私功能,优先考虑了数据安全,而不会牺牲分析效率,为更安全、更有洞察力的协作未来铺平了道路。</p><p>本文首发于<a href=”https://guoyuhan.love/5g-robots-clean-singapores-rivers.html”>Enhancing Data Security and Collaboration:…

Leave a Comment

NVIDIA将AI处理器的供应优先考虑日本

在反映人工智能(AI)技术全球主导地位竞争的关键举措中,NVIDIA首席执行官Jensen Huang确认了公司致力于优先满足日本对AI处理器的高需求的承诺。这一承诺与日本雄心勃勃的努力相一致,旨在振兴其半导体基础设施,并在AI技术发展方面取得重大进展。 日本需求飙升 在最近的一份声明中,黄仁勋承认了日本对NVIDIA AI处理器的巨大市场需求。在东京首相菅义伟的官邸举行的新闻发布会上,黄仁勋强调了紧迫性,表示:“需求非常旺盛,但我向首相保证我们将尽最大努力优先满足日本对GPU的需求。” 日本的半导体复兴 曾经是全球半导体技术领导者的日本正在重建其在该行业的地位。该国正在大力投资半导体基础设施,以赶上人工智能技术的快速发展。NVIDIA的图形处理单位(GPU)已成为AI市场的主导者,对于日本的复兴至关重要。 为芯片投资提供财务支持 不到两周前,日本通过了一份额外预算,拨款约2万亿日元(1360亿美元)用于芯片投资。这笔财政注资预计将支持半导体行业中的重要参与者,包括台湾积体电路制造股份有限公司(TSMC)以及半导体制造合资企业Rapidus。值得注意的是,Rapidus计划在日本北部的北海道岛上生产尖端芯片。 建设日本的半导体独立 Jensen Huang对日本的半导体行业表示乐观。他表示:“日本正在发展的行业将会生产GPU。”这反映了一个更广泛的趋势,包括日本在内的许多国家认识到拥有自己的数据的重要性。他们旨在建立AI工厂并培育国内的AI智能能力。 另请阅读:NVIDIA朝着首个万亿美元AI芯片公司迈进 我们的观点 在快速发展的技术领域中,NVIDIA优先满足日本对AI处理器需求的承诺突显了合作在推动AI能力方面的战略重要性。随着日本努力恢复其半导体实力,与像NVIDIA这样的行业领导者合作成为实现技术自给自足的关键。NVIDIA的尖端AI技术与日本半导体创新的复兴交汇点,标志着全球技术竞争的重要时刻。随着各国越来越意识到在AI领域确保自身地位的重要性,这样的合作成为构建技术强大未来的关键组成部分。

Leave a Comment

15+ AI 开发工具(2023年12月)

GitHub Copilot GitHub Copilot是一种市场领先的人工智能辅助编码助手。作为一个能使开发人员以更高效的方式生成优质代码的工具,Copilot基于OpenAI的Codex语言模型开发。该模型既训练有自然语言理解能力,又有广泛的公共代码数据库,使其能够提供有见地的建议。从完成整行代码和函数到撰写注释,以及辅助调试和安全检查,Copilot为开发人员提供了宝贵的工具。 Amazon CodeWhisperer Amazon的CodeWhisperer是一个基于机器学习的代码生成器,可在Visual Studio和AWS Cloud9等各种IDE中提供实时编码建议。它基于大规模开源代码数据集进行训练,可以提供代码片段到完整功能的建议,自动化重复任务并提升代码质量,是寻求效率和安全性的开发人员的福音。 Notion AI 在Notion工作区中,AI助手Notion可以帮助完成各种与写作相关的任务,包括创造性、修订和概要。它提高了写电子邮件、工作描述和博客文章等任务的速度和质量。Notion AI是一个能够自动化各种写作任务的AI系统,从博客和列表到头脑风暴和创作写作都可以轻松地重新组织和转换AI生成的内容,使用拖放文本编辑器工具。 Stepsize AI Stepsize AI是一个旨在优化团队生产力的协作工具。作为一个项目历史记录和任务管理者,它与Slack、Jira和GitHub等平台集成,以简化更新并消除沟通不畅。其主要特点包括对活动的统一摘要、即时回答问题和强大的数据隐私控制。 Mintlify Mintlify是一个节省时间的工具,可直接在您喜爱的代码编辑器中自动生成代码文档。只需单击一次,Mintlify Writer就可以为您的函数创建结构良好、上下文感知的描述。非常适合开发人员和团队,在生成复杂函数的精确文档方面表现出色,因其高效和准确性而备受赞誉。 Pieces for Developers Pieces for…

Leave a Comment

可以不使用GPU加速实时绘制大规模场景吗?这篇AI论文介绍了基于先进LiDAR定位和网格生成的‘ImMesh’

提供与实际世界相匹配的虚拟环境,包括元宇宙、VR/AR、视频游戏和物理模拟器等3D应用程序的广泛兴起改善了人类的生活方式并提高了生产效率。这些程序基于三角形网格,代替了实际环境的复杂几何。目前大多数的3D应用程序都依赖于三角形网格,这些网格是由顶点和三角形面组成的,作为对象建模的基本工具。由于它能够简化和加速渲染和光线追踪,三角化网格在传感器模拟、密集映射和测量、刚体动力学、碰撞检测等方面也非常有用。然而,目前的网格主要是由天才的3D建模师使用CAD软件制作的,这限制了大规模制作大场景网格的能力。因此,在3D重建领域,一个显著的问题是开发一种能够进行实时场景重建的高效网格方法,特别是对于大场景。 计算机、机器人和3D视觉中最困难的挑战之一是从传感器测量中实时重建大场景的网格。这涉及在附近的三角形面之间重新创建场景表面,并通过边缘连接。精确构建几何框架对于这个困难的挑战至关重要,重建真实世界表面上的三角形面也是如此。 为了实现实时网格重建和同时定位的目标,香港大学和南方科技大学最近进行的一项研究提出了一种名为ImMesh的SLAM框架。ImMesh是一个精心开发的系统,它依赖于四个相互依赖的模块共同提供精确和高效的结果。ImMesh使用LiDAR传感器同时实现网格重建和定位。ImMesh包含一个建立在他们早期工作VoxelMap之上的创新网格重建算法。具体而言,所提出的网格化模块使用体素将三维空间分割,快速识别包含新扫描数据点的体素。高效网格化的下一步是降维,将体素级的三维网格问题转化为二维问题。最后一阶段使用体素级的网格推拉和推送程序来逐步重建三角形面。该团队声称,这是使用传统CPU在线重新创建大规模场景三角网格的初次发表的努力。 研究人员通过使用合成和真实数据对ImMesh的运行性能和网格化精确性进行了全面测试,并将结果与已知基准进行了比较。他们首先展示了在数据收集过程中网格正在快速重建的实时视频演示,以确保整体性能。之后,他们利用四个不同情景下由四个单独的LiDAR传感器获取的公共数据集对ImMesh进行了全面测试,验证了系统的实时能力。最后,他们将ImMesh在实验3中的网格化性能与现有的网格化基准进行了比较,以建立一个基准。根据结果,ImMesh在维持最佳运行时性能的同时实现了高度的网格化精确性。 他们还演示了如何将ImMesh用于LiDAR点云增强;这种方法在规则模式下产生了密集的、具有更大视野(FoV)的强化点,比原始LiDAR扫描结果更细密。在应用2中,他们通过将他们的工作与R3LIVE++和ImMesh相结合,实现了场景纹理重建无损。 该团队强调他们的工作在空间分辨率方面并不容易扩展,这是一个重要的缺点。由于固定的顶点密度,ImMesh在处理大而平坦的表面时倾向于以许多小的面元来低效地重建网格。所提出的系统还没有循环校正机制,这是第二个局限性。这意味着由于在重访区域中的累计定位错误,可能会出现逐渐偏离的问题。如果出现重访问题,重建结果可能不一致。利用最近使用LiDAR点云进行循环识别的工作将有助于研究人员在这项工作中克服这个问题。通过利用这种循环检测方法,就有可能实时识别循环并进行循环校正,以减少偏移的影响并提高重建结果的可靠性。

Leave a Comment

前苹果员工们如何将生成式人工智能带到台式机上

在不断进化的科技领域中,三位前苹果员工康拉德·克雷默(Conrad Kramer),金·贝弗特(Kim Beverett)和阿里·温斯坦(Ari Weinstein)共同开始了一项重新定义桌面生产力的任务。通过他们的初创公司软件应用有限公司(Software Applications Inc.),他们正在利用生成 AI 的力量,创造工作流快捷方式,为全球用户提供更高效的流程。 一家具有远见的初创公司的诞生 软件应用有限公司不仅仅是又一家技术初创公司。这是一群前苹果科技先锋的创意,他们已经看到了桌面计算的未来,并决定让它变成现实。他们的目标简单而雄心勃勃:将生成 AI 整合到日常桌面应用程序中,使复杂任务对最终用户变得轻而易举。这三人已经从 OpenAI 的阿尔特曼(Altman)、Figma CEO 迪伦·菲尔德(Dylan Field)和硅谷其他知名人士那里筹集到了650万美元的资金。 新的前沿 生成 AI 是这家初创公司创新的基石。与传统的按照特定指令进行编程的 AI 不同,生成 AI 可以从数据中学习并创建从未明确编程的内容。这意味着这种技术的潜在应用是广泛的,从自动化琐碎任务到通过简单的指令生成复杂报告。…

Leave a Comment

用Voicemod AI创造你自己的AI声音

想象一个可以与自己说话的世界。事实上,你的声音可以是任何你想要的 – 这一切现在都可以通过Voicemod AI实现。这个创新的平台正在改变我们对数字通信的看法,为用户提供了从头开始创建定制AI声音的能力。无论是为了游戏、内容创作还是虚拟互动,Voicemod正在为个性化音频体验设立新的标准。 声音革命 借助人工智能的力量,用户现在可以轻松打造属于自己独特的声音,无需专业设备或专业知识。这种声音创作的民主化是一个改变游戏规则的创举,为定制和创造力带来了无尽的可能性。 以社区为中心的方法 Voicemod创新的核心是强调社区合作。该平台鼓励用户分享他们的创作成果,营造一种协作环境,让每个人都可以贡献和受益。这种以社区为驱动的模式不仅增强了用户体验,还通过集体的参与和反馈推进了技术的进步。 适用于各种场合的声音 无论你是一个希望脱颖而出的直播者,还是一个希望完全沉浸其中的游戏玩家,亦或是一个喜欢尝试声音实验的人,Voicemod的AI都适合你。这项技术满足了各种需求和偏好,确保每个用户都能找到他们完美的声音匹配。 安全与伦理 伟大的力量伴随着伟大的责任,Voicemod也不例外。该公司致力于对其技术进行道德使用,采取措施防止滥用和保护用户隐私。这种负责任的态度对于保持信任并确保该平台成为一个安全的创意表达空间至关重要。 另请阅读:2023年最佳语音克隆软件前十名 我们的观点 Voicemod的AI声音创作工具证明了技术的令人难以置信的进步以及其增强我们数字生活的潜力。通过让用户掌握自己的声音身份,Voicemod不仅仅是改变游戏规则;它正在重新定义我们在虚拟世界中的连接和交流方式。展望未来,很明显Voicemod的AI声音将继续在声音技术的演进中扮演关键角色。

Leave a Comment

探索单细胞生物学中的人工智能前沿:对Geneformer和scGPT等零射基础模型的批判性评价

Translate from English to Chinese: 基于基因形态模型在单细胞生物学中的应用近来一直是研究人员讨论的热点话题。像scGPT、GeneCompass和Geneformer这样的模型是该领域的一些有希望的工具。然而,它们的有效性一直是一个令人担忧的问题,特别是在零-shot环境中,尤其是当这个领域涉及到探索性实验和缺乏明确的标签进行微调时。本论文基于此问题,对这些模型的零-shot性能进行了严格评估。 以前,有研究依赖于对特定任务进行微调,但由于该领域的特性以及高计算要求,当应用于单细胞生物学领域时,其局限性变得非常明显。因此,为了应对这一挑战,微软研究人员评估了Geneformer和scGPT基因形态模型在涉及多样数据集和多个任务的多个方面上的零-shot性能,如细胞类型聚类的嵌入表示效用、批效应校正和基于预训练目标的模型输入重构的效果。 选择这两个模型的原因是它们的预训练权重(在评估时的时间点上)是可用的。研究人员使用了五个不同的人类组织数据集进行评估,每个数据集都对单细胞分析提出了独特且相关的挑战。为了比较,研究人员还使用了一个名为scVI的生成模型,该模型在每个数据集上进行了训练。他们使用了以下指标来评估每个任务: 对于评估细胞嵌入,他们使用平均轮廓宽度(ASW)和平均Bio(AvgBIO)评分来计算细胞类型在嵌入空间内的唯一度。 对于批次整合,他们采用一种在0到1之间的变体AWS评分,0表示完全分离批次,1表示完美混合批次。 对于评估scGPT和Geneformer在预训练目标上的性能,分别使用均方差(MSE)和皮尔逊相关性。 在这两个度量标准上,scGPT和Geneformer的表现均不如基准策略。Geneformer在不同数据集上具有很大的方差,尽管scGPT在其中一个数据集上的表现优于基准模型scVI,但在另外两个数据集上表现较差。随后,研究人员评估了预训练数据集对模型性能的影响,主要集中在scGPT(四个变体)上,并发现所有模型变体的中位数得分有所改善。 在评估批次效应时,两个模型均表现不佳,常常落后于scVI等模型,这表明它们对零-shot环境中的批次效应并不完全稳健。在最后一组评估中,研究人员发现scGPT无法重构基因表达,而Geneformer的表现更好。与基准模型相比,他们观察到基准预测胜过所有scGPT变体,而Geneformer在其中一个数据集上的表现优于平均排名。 总之,研究人员对将scGPT和Geneformer应用于单细胞生物学的零-shot能力进行了全面分析,他们的分析突显了这些模型的不佳性能。他们的研究发现,scGPT在所有评估中优于Geneformer模型。最后,研究人员还提供了一些关于未来工作需要关注的见解,尤其是关于预训练任务、预训练数据集与下游分析任务性能之间的关系。

Leave a Comment

鸭子AI推出DuckTrack:一款多模态计算机交互数据收集器

准确追踪用户交互行为是促进计算机智能能力提升的基石。这项任务在开发和训练智能系统中起着至关重要的作用。这些系统的有效性取决于对用户交互行为的仔细检查和系统记录。 Duck AI的研究人员开发了DuckTrack,以准确记录各种输入,以便能够将这些数据用于正确训练计算机智能代理。DuckTrack通过与主要操作系统兼容的用户友好型桌面应用程序提供了一种同步收集鼠标、键盘、屏幕视频和音频数据的方法。 此外,DuckTrack启动了社区数据收集倡议。这一开源努力邀请贡献者参与收集多样化的计算机交互数据。DuckTrack在所有主要操作系统上运行流畅,并且使用Python创建。DuckTrack的特色概述展示了其对鼠标和键盘动作的精确记录和回放能力。研究人员表示,将屏幕录制与OBS集成可以进一步提升其多功能性。 对于DeepTrack,在绘图任务中结构相似性指数(SSIM)始终超过0.9。每个事件都以0.03ms ± 0.4ms的较低误差范围进行记录,超过了市场上现有跟踪器的准确性。DuckTrack在性能指标方面具有卓越的表现,这使其成为追求顶级跟踪和回放解决方案的可靠选择。 但DuckTrack也存在某些限制。在回放过程中模拟双击或三击实际上是一个挑战,影响了这些动作的准确性。此外,DuckTrack无法记录触控板手势,并且在涉及原始信息(如游戏)的情况下存在一些限制。开发人员正在积极努力解决这些限制,并通过持续与社区互动来提高DuckTrack的功能。 研究人员在不同系统上进行了DuckTrack的测试,包括运行macOS Sonoma 14.0的M2 Pro MBP 14以及运行PopOS! 22.10(基于Ubuntu)和Windows 10 22H2的Intel i7-10510U System76 Lemur Pro 9。他们在ReCAPTCHA任务上测试了DuckTrack,这是人类运动的代理,结论是它在十次尝试中表现出100%的成功率。虽然硬件差异可能会略微影响性能,但跨操作系统的准确性一致性强调了DuckTrack的可靠性。 研究人员将很快宣布有关贡献和设置数据收集的详细指南,鼓励集体努力来改进和完善DuckTrack的功能。 DuckTrack在收集计算机交互数据方面被证明是一项革命性的工具。凭借对精度的执着、不断的社区参与和对改进的重视,DuckTrack成为寻求卓越回放和跟踪功能的个人和企业的首要选择。DuckTrack正在为更精密和无缝的多模式计算机交互体验铺平道路。 在此处下载适用于您的系统的预构建应用程序。

Leave a Comment

Pika 1.0:一种新的视频创作AI模型

在一个被生成AI所迷住的世界中,专门从事以AI为动力的视频创作的初创公司Pika,在由风投公司Lightspeed Venture Partners主导的最新一轮融资中获得了5500万美元的惊人资金。这笔资金的涌入与Pika 1.0的推出相一致,Pika 1.0是一套赋能于视频拍摄的创新工具,旨在改变视频创作的格局。Pika的旅程仅仅开始了六个月,已经吸引了50万用户,每周生成数百万个视频。 Pika 1.0发布 Pika的雄心目标是简化视频制作,从而开发出了Pika 1.0,配备有生成AI模型,能够编辑各种风格的视频,例如“3D动画”、“动漫”和“电影”。这个创新平台从隐秘模式中出现,引入了一种工具,可以扩展视频长度、转换风格,甚至使用AI编辑内容,比如改变衣着或添加人物。现在的问题是,Pika 1.0是否真的能够彻底改变通常复杂且资源密集的视频创作过程? Pika的竞争优势 在充斥着像Runway和Stability AI这样的竞争对手的领域,Pika通过承诺提升视频编辑体验的功能使其与众不同。值得注意的是,Pika 1.0提供了扩展视频画布或宽高比的能力,为用户提供了前所未有的创作自由。随着这个平台为广泛的可用性做好准备,Google和Meta等行业巨头也在暗示他们将进入生成AI视频工具领域。 Lightspeed对Pika的信心 尽管竞争激烈,但风投公司Lightspeed Venture Partners在Pika和Stability AI两家公司的投资者中表达了对Pika的转型潜力的信心。代表Lightspeed的Michael Mignano认为,Pika的技术基础和对创造力的早期热情使其在民主化高质量视频创作方面成为领导者。这一认可表明,Pika可能确实在重塑人们如何将自己的故事进行视觉分享方面发挥关键作用。 生成AI的兴起潮流 Pika的快速增长反映了对于各类应用中生成AI的需求飙升。根据IDC的数据,生成AI的投资从今年的160亿美元预计将在2027年飙升至1,430亿美元。尽管在2023年,生成AI仅占整体AI支出的9%,但该公司预计在未来五年内将显著增至28%。这一趋势不仅限于专业人士,最近的一项调查显示,Z世代越来越喜欢使用生成AI工具。 还可阅读:Google的BARD现在可以“观看并回答关于YouTube视频的问题” 挑战与未来展望 随着生成AI的发展,未来面临着一些挑战。2023年O’Reilly的报告指出,26%的企业AI采用者正在初步试点生成AI,并面临着从意外结果和安全问题到公平、偏见和隐私问题的种种担忧。该行业还受制于难以确定商业用例和有关AI生成内容的法律复杂性。…

Leave a Comment

深度学习模型如何模仿大脑中的人类语音识别:解读听觉处理

研究表明,将听觉数据转化为语言表示涉及到声音感知。当有人听到语音时,包括主要和非主要听觉皮层区域、听觉神经以及皮层下结构的听觉通路会被激活。由于环境条件和语言知觉单元的听觉信号会发生变化,自然语音知觉是一项艰巨的任务。尽管经典的认知模型能够解释许多语音知觉的心理特征,但在解释大脑编码和自然语音识别方面,这些模型还不够完善。深度学习模型在自动语音识别方面正接近人类的表现。 为了提高人工智能模型的可解释性,并提供新的数据驱动的感知计算模型,加州大学旧金山分校的研究人员旨在将深度学习模型的计算和表示与人类听觉系统的神经反应相关联。它旨在识别人类听觉回路和最先进的语音神经网络模型之间的共同表示和计算。分析重点是与上行听觉通路中真实语音的神经反应相关联的深度神经网络(DNN)语音嵌入,并使用神经编码框架。 详细比较了听觉回路和深度神经网络(DNN)模型的各种计算架构(卷积、循环和自注意)和训练过程(有监督和无监督目标)。此外,检查DNN的计算能提供有关神经编码预测的基本过程的信息。与之前针对单一语言(主要是英语)的建模尝试不同,他们在研究中使用了跨语言范式来揭示语音知觉的语言特定和语言不变特征。 令人着迷的是,研究人员展示了最新的DNN如何紧密模拟人类听觉系统中的关键信息处理要素。当预测整个听觉通路中对真实语音的神经反应时,DNN的特征表示比基于理论驱动的声学-语音学特征集表现得更好。此外,他们还检查了深度神经网络(DNN)中基本的上下文计算。他们发现,完全无监督的自然语音训练是这些网络获取与语言相关的关键时间结构(如音素和音节上下文)的方式。这种获取特定于语言的语言信息的能力预测了非主要听觉皮层中DNN-神经编码的相关性。线性STRF模型无法揭示在跨语言知觉期间STG中的特定于语言的编码,而基于深度学习的神经编码模型可以。 总之 使用比较方法,研究人员展示了语音学习的深度神经网络(DNN)与人类听觉系统之间的重要的表征和计算相似性。从神经科学的角度来看,基于经典特征的编码模型在从统计结构中提取中间语音特征方面被数据驱动的计算模型所超越。通过与神经反应和选择性进行对比,他们为理解AI方面DNN的“黑箱”表示提供了一种方法。他们展示了如何使现代DNN可能选择类似于人类听觉系统信息处理方式的表示。根据研究人员的说法,未来的研究可以使用更广范围的AI模型和更大更多样的人群来调查和验证这些结果。 本文发表在《解读听觉处理:深度学习模型如何在大脑中模拟人类语音识别》一文中,首发于MarkTechPost。

Leave a Comment

印度Ola公司首席执行官Bhavish Aggarwal进军人工智能开发领域

在充满活力的科技领域中,印度正在通过人工智能领域的一位有雄心的新参与者开辟自己的领域。Ola首席执行官Bhavish Aggarwal领导着这一最新创新,命名为“Krutrim”,旨在在本地和国际上引起轰动。这个本土解决方案旨在展示印度技术在全球舞台上的强大实力。 Krutrim的起源 Ola的成功背后的远见者Bhavish Aggarwal并不满足于现已颠覆了交通部门。Aggarwal现在把目光集中在AI驱动的通信领域上。Krutrim不仅仅是又一个聊天应用程序;它是一种意向的表达,是印度不断增长的技术能力的证明。 带有特色的聊天应用程序 Krutrim不仅仅是一个消息传递工具。它是一个AI平台,承诺提供独特的用户体验。Krutrim致力于理解和处理自然语言,旨在直观且用户友好,满足各种用户需求。 印度科技复兴 印度的科技领域一直在上升轨道上发展,而Krutrim则是这一复兴的一个光辉例证。通过开发与全球巨头不相上下的AI聊天应用程序,印度传递出一个明确的信息:它准备领导,而不仅仅是跟随。Krutrim不仅仅是一个应用程序,而是印度创新和工程的展示。 我们的观点 Krutrim代表了印度科技迈出的大胆一步。它是创新的标志,反映出印度企业家如Bhavish Aggarwal的雄心和技能。当全世界关注时,Krutrim很可能成为推动印度走向全球AI话题前沿的催化剂。

Leave a Comment

这篇AI论文介绍了子句编码器:一种对文本进行细粒度语义表示的对比学习上下文嵌入AI模型

来自宾夕法尼亚大学、华盛顿大学和腾讯AI实验室的研究人员提出了一种子句编码器,这是一种对比学习的上下文嵌入模型,它为文本序列中的原子命题生成不同的嵌入。与传统的句子嵌入不同,它通过学习不同含义单元的上下文嵌入,专注于细粒度的语义表示。该模型在检索支持事实和识别条件语义相似性等任务中具有很好的效果。子句编码器与句子编码器具有相似的推理成本和空间复杂度,展示了其实用性。 子句编码器通过为文本序列中的原子命题生成不同的嵌入,专注于细粒度的语义表示。应用包括检索支持事实和识别条件语义相似性。精细级别的有效编码有望影响文本评估、归属和事实估计。受到文本归属需求的影响,子句编码器设计具有潜在的跨文档信息链接应用。 该研究挑战了将整个文本序列编码为定长向量的常见做法,引入了子句编码器。子句编码器架构在跨文档信息链接方面具有潜在应用,为具有不同信息粒度的任务提供了灵活性。该研究旨在评估子句编码器在检索支持事实和识别条件语义相似性等任务中的实用性。 该模型为文本序列中的不同原子命题生成不同的上下文嵌入。使用二进制标记掩码作为输入,基于Transformer架构将子句编码器应用于检索支持事实和识别条件语义相似性。尽管研究承认英文文本的实验局限性,但提出了更广泛的语言适用性潜力,并引入了创建子句编码器训练数据的自动过程。 子句编码器在识别相同上下文中命题之间的微妙语义差异方面优于句子编码器,提高了精确性和召回率。子句编码器在原子事实检索方面表现与文档级和句子级模型相当,展示了增强的记忆能力。研究强调了子句编码器在不同粒度的多向量检索中的潜力,表明其在各种检索任务中的灵活性。 该架构在跨文档信息链接和具有不同粒度的各种任务方面具有潜力。原子事实检索评估显示了子句编码器在检索支持命题方面的实用性。子句编码器提高了多向量检索的召回率,突出了其在各种检索任务中的潜在优势。该研究强调了子句编码器在文本归属中解决粒度挑战的重要性。 研究表明,所展示的发现可能为进一步的长篇文本评估、归属和事实估计研究铺平道路。研究承认在英文文本方面实验规模有限,提出了对多语种子句编码器的未来研究,并指出了对其他语言的潜在扩展。研究强调了对持续探索的需求,希望该工作将激发子句编码器应用的进展,进一步推动该领域的研究。

Leave a Comment

遇见谷歌的Open Se Cura项目:一个开源框架,加速开发安全、可扩展、透明和高效的人工智能系统

随着人工智能的发展,它已经被应用于生活的各个方面。其应用正在各个领域中显现。人工智能的应用已经扩展到医疗保健、教育、交通、制造业、零售业、金融等各个领域。 然而,随着人工智能(AI)越来越多地融入我们的日常生活,建立强大和有效的计算系统对于可靠和安全的人工智能体验是必要的。但是问题是:硬件突破必须跟上机器学习(ML)模型和软件开发的进展。这种不平衡使得构建完整和安全的全栈系统变得困难。此外,尽管电池技术在发展,但小型设备市场正在超过这些发展,这限制了人工智能系统的潜在强度和使用。 因此,谷歌推出了开源框架Project Open Se Cura,旨在加速安全、可扩展、透明和高效的人工智能系统的开发。这个项目在谷歌内部以Project Sparrow的名字存在。Project Open Se Cura凸显了谷歌对开源开发的承诺。该倡议涉及创建开源设计工具和知识产权(IP)库,以加速全栈系统处理机器学习工作负载的增长。协作共同设计和开发流程旨在增强系统设计,侧重于安全、效率和可扩展性,并助力下一代人工智能体验。 这个项目与VeriSilicon、Antmicro和lowRISC等重要合作伙伴密切合作开发。研究人员强调每个合作伙伴都提供了对开发过程至关重要的知识和资源。例如,lowRISC为项目提供了清晰的信任根、开发和集成工具,确保了安全的基础。Antmicro在开源系统级软件和使用Renode的系统仿真工具方面提供了专业知识。VeriSilicon在商业化、BSP(板支持包)开发、IP设计和硅设计方面提供了专业知识。这些工具使得通过在IP库中添加安全的机器学习功能,能够开发出低功耗的人工智能系统概念验证。 研究人员表示,他们期待进一步开放地增强和发展Open Se Cura。他们正在积极寻求与剑桥大学(用于CHERI创新)和密歇根大学(用于低功耗和生成型人工智能)等机构的合作伙伴关系。 谷歌对通过这些新工具探索可能性感到兴奋,并鼓励广大开源社区加入并做出贡献。这个协作努力旨在推动创新,创建安全、可扩展和高效的新型人工智能体验。研究人员预计与开源社区的合作引领人工智能进步的新时代。 本文翻译自:Meet Google’s Project Open Se Cura: An Open-Source Framework to…

Leave a Comment

Shutterstock 推出TRUST:道德人工智能和客户保护的指导框架

“`html 在快节奏的创意资源行业中,先进系统能够自动创建图像和媒体,开启了令人兴奋的可能性,并引发了版权、表达和虚假信息等问题。在这个行业中的重要参与者之一,Shutterstock通过引入TRUST框架来解决这些问题。 在TRUST框架推出之前,创意资源行业面临使用无版权数据训练AI系统所带来的潜在问题。这引发了版权侵权和对为开发这些强大算法做出贡献的创作者是否得到公平补偿等问题。针对这些挑战,Shutterstock推出了TRUST框架,该框架明确了公司将遵循的五项关键道德AI原则。 为了解决无版权数据的问题,TRUST框架的“训练”原则确保只使用正确许可的数据来训练AI系统。这有助于避免版权相关问题,为负责任的AI开发奠定了基础。此外,“版税”原则强调对创作者的公平补偿,Shutterstock承诺通过版税基金向创作者支付使用其作品在训练AI模型中的费用。 表达和多样性是任何AI系统的重要方面。“提升”原则在TRUST框架中促进AI系统的多样性和包容性。这确保生成的内容反映了广泛的观点,并避免在训练数据中加强偏见。 保护客户和控制AI内容风险是TRUST框架所解决的另两个优先事项。“保障”原则旨在通过采取措施防止问题AI内容,保护客户的利益。其中包括对系统输出进行人工审查,以识别和解决潜在问题。 开放性在建立对AI生成内容的信任方面起着重要作用。TRUST框架中的“透明度”原则要求清晰标注AI生成作品,并支持溯源跟踪。这确保用户在遇到由AI创建的内容时得到告知,促进对这些技术使用的透明度。 为了展示其对负责任的AI采用的承诺,Shutterstock还推出了其他措施,包括对版权、商标和其他与AI生成内容相关的潜在风险提供的赔偿。此赔偿为向审核提交其AI生成图像的客户提供了法律保护,确保他们获得与传统授权库照片相同的支持和保障。 总之,Shutterstock的TRUST框架是解决创造性AI技术在创意资源行业中带来的道德挑战的重要进展。通过实施优先考虑负责任训练、公平补偿、多样性、客户保护和透明度的原则,Shutterstock致力于引领该领域中道德AI发展的道路。随着行业的发展,TRUST框架为希望采用道德AI实践的其他公司提供了一个模型。它确保AI技术的承诺能以负责任的方式造福创作者和客户。 文章来源:Shutterstock Introduces TRUST: A Guiding Framework for Ethical AI and Customer Protection(来源:MarkTechPost)。 “`

Leave a Comment

麻省理工学院和NVIDIA的研究人员开发出了两种互补技术,可以显著提高对机器学习任务的速度和性能

来自MIT和NVIDIA的研究人员提出了两种加速稀疏张量处理的技术(张量是机器学习模型中的基本数据结构,是组织和存储数据的多维数组)。这两种新技术的目标都是有效利用张量中的零值。可以对这些张量进行处理而不处理零值,从而节省内存和计算资源。例如,任何与零相乘的操作都会得到零,因此可以跳过该操作。此外,它还可以压缩张量,因为不需要保留零值,这样可以在芯片内存中存储更多数据。 当通过将一些值替换为零来删除不必要的元素时,张量中的稀疏性就会出现,这个过程称为修剪。非零值的位置和稀疏度的程度在不同的模型中可能不同。为了方便在大型模型中定位非零值,研究人员经常限制非零值的位置。硬件加速器的适应性受到限制,因为它们通常针对特定的稀疏模式设计。 研究团队开发了一种名为HighLight的硬件加速器,它能够高效处理各种稀疏模式。研究人员利用分层结构的稀疏性来有效表示由简单模式组成的不同类型的稀疏模式。在这种方法中,将一组数分解为较小的组,每个组都遵循一个简单的模式。然后将这些较小的组合并成较大的组,形成一个层次结构。每个组合集也遵循一个简单的模式(例如,在具有四个组的一级中,一个组有零值,而其他三个组没有)。这个过程在较大的层次中继续进行,但在每个步骤中模式都保持简单。 这种简单性使得HighLight能够更高效地查找和跳过零值,从而充分利用切除多余计算的机会。与其他方法相比,他们的加速器设计的能耗时延乘积(与能源效率相关的度量)提高了大约6倍。 研究人员还可以利用稀疏性更高效地移动和处理计算机芯片上的数据。由于张量通常比芯片上的内存缓冲区能够存储的要大,芯片每次只能抓取和处理张量的一个块,这些块称为tiles。为了最大化缓冲区的容量并最小化芯片访问外部内存的频率。 为了最大化缓冲区的容量并减少芯片需要访问外部内存的次数(这可能会耗费大量能源并使处理速度变慢),研究人员旨在使用适合缓冲区的最大可能tile尺寸。 由于许多数据值是零,相较于其原始容量可能暗示的,较大的tile可以适应缓冲区,因为不需要存储零值。然而,零值的数量在数据的不同部分可能不同,因此对于每个tile也可能不同。 为了处理这个问题,研究小组建议使用过高预订(overbooking)技术来允许tile尺寸的增加。在稀疏数据集中,可以选择一个tile尺寸,使得大部分tile具有足够的零值以适应缓冲区。偶尔,某个tile的非零值可能超过缓冲区的容量。在这种情况下,这些多余的数据将被推出缓冲区。 研究小组使硬件能够只检索被移出缓冲区的数据,而不需要重新获取和处理整个tile。他们通过修改缓冲区的“尾端”来实现这一点,因此这种技术被称为Tailors。 此外,他们还开发了一种名为Swiftiles的方法,可以高效确定tile尺寸,并充分利用过高预订的优势。Swiftiles减少了硬件必须检查张量以寻找最佳tile尺寸的频率,从而节省了计算资源。 Tailors和Swiftiles的结合提供了性能提升,将速度提高了一倍,同时仅需现有不能处理过高预订的硬件加速器的一半能耗。 根据研究人员的说法,Swiftiles可以在不需要多次迭代来优化估计值的情况下估计出最佳的tile尺寸。这个过程可以实现是因为它支持过高预订。即使存在较大的估计误差,也可以因为非零值的特定分布而实现显著的加速。

Leave a Comment

未来无忧:在AI的企业进军中培养下一代实习生

在我在新加坡充满活力的亚太ESSEC管理硕士的授课过程中,我们深入讨论了AI和可持续性的交叉点。在这个论坛上,我们揭示了将技术解密以真正了解AI能力的必要性-只是这些,没有其他。 考虑一下哈佛商学院的Karim Lakhani的见解:“人类般的回应是一种统计幻觉。”拉卡尼揭开了外表,揭示了表面上的有知觉互动实际上只是“一种统计或计算幻觉”,一种通过消化我们的人文文本和视频而产生的模仿[1]。这与我的长期观点相吻合:当AI与技巧结合时,它不是取代角色,而是人类能力的有力盟友[2]。 然而,我们必须小心谨慎。让我们未经检查地承诺提升的进步可能对未来一代的蓬勃发展产生重大影响。我们现在要做的不是回避这些潜力巨大的工具,而是要智能地与它们接触,确保我们将AI的舵向人类潜力的提升,而不是削弱它。 随着数字时代的加速发展,AI在业务中的日益重要的角色揭示出对实习生和初级培训的彻底重新设想的迫切需求。大型语言模型(LLMs)的出现给我们敲响了警钟-让我们不要让我们的实习生过时了。想想这个:这些LLMs,虚拟世界中的年轻实习生,已经接管了曾经是新手的人类任务。它们起草备忘录,打扮演示文稿,丝毫不休息,又只消耗计算资源的“代币费用”。它们在效率上令人眼花缭乱,但必须明确一点:它们无法取代人类智慧-逻辑、推理和创造力,只有人类才能提供。 在企业增长的繁忙生态系统中,培养新手就像在一片高耸的橡树森林中培育娇嫩的树苗一样重要。实习生的角色是至关重要的。他们是海绵,吸收的不仅仅是技术知识,还有企业文化微妙的舞蹈。正是在这些早期职业生涯中,他们的专业之旅的基础被奠定,塑造了他们的成长轨迹。 然而,这种不可或缺的入门面临来自AI的威胁,它可以轻松自动化曾经为初学者所保留的差事甚至分析工作。如果能模仿简・奥斯汀(Jane Austen)小说主人公般自如地进行人机对话的LLMs能够承担曾经是实习生证明自己的地方,我们该怎么办?谷歌及其同类已经开创了试图弥合差距的培训计划,但真正的转变在于将最初的职业年改造为一个实战练习班——一个“执行教室”,在这里,学习是通过实践来完成,实践带来学习。 这里的关键是:技术作为工作崩溃的先兆的叙述并不完全准确。担心AI将取代人类角色的恐惧就像认为LLMs拥有无尽的智慧一样。虽然它们确实可以生成与人类闲聊惊人相似的回答,但事实是它们擅长将词语拼凑在一起,仅此而已。它们不是硅谷的圣贤,它们是算法幻术师,能够让数据跳舞,但仍然无法达到人类智慧的水平。 这使我们陷入了期望的两难境地。我们把在机器上施加了阿西莫夫第一条机器人定律的高标准-不造成伤害-同时却原谅了LLMs的错误,对它们的对话技巧感到迷醉。我们嘲笑了自主车辆的少有的失误,但对于聊天机器人的有缺陷的诗句则会哈哈大笑。 那么,行动的号召是什么?在将AI融入我们的业务中时,我们必须重新审视实习生的手册。我们必须注入人性化的培训,培养耐心,并提供一系列的经验,任何算法都无法复制。我们的目标是给我们的实习生武装技能,使他们能够与AI一起取得成功,确保随着公司阶梯的变革,它仍然是通往启示的攀登,而不是陷入无关紧要的滑坡。 总的来说,在我的讲座中,我揭穿了关于人工智能的神话,明确表示LLMs虽然复杂,但并不完美,人工智能是一种增强工具,而不是替代品。我强调一个更深层次的信息。我们必须发展我们的企业教育,不是对技术的一种反射动作,而是将其战略性地融入其中,确保我们的年轻人成为未来企业的有韧性的建筑师,而不是它的牺牲品。机器人可以负责拿咖啡,但是董事会的席位呢?让我们留给那些学会与机器共舞的人类。 参考资料 [1] Lakhani, Karim. “AI Won’t Replace Humans — But Humans With AI…

Leave a Comment

“Phind的新人工智能模型在编码方面表现优于GPT-4,在速度上类似于GPT-3.5,并具备16k的上下文”

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-08-at-8.11.55-PM-1024×520.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/11/Screenshot-2023-11-08-at-8.11.55-PM-150×150.png”/><p>在编码和技术问题解决中,速度和准确性之间的权衡一直是一个挑战,当寻找复杂问题的答案时,开发人员经常需要快速可靠的帮助。</p><p>GPT-4经常面临较慢的响应时间问题。获得答案的延迟可能会影响生产力。</p><p>Phind的v7模型超过了GPT-4的编码能力,而且速度非常快。Phind模型的响应时间提高了5倍,只需10秒钟即可提供高质量的技术问题答案,相比其前身需要50秒的等待时间,有了显著的改进。</p><p>Phind模型现在已经进入第7代,该模型是基于CodeLlama-34B优化而建立的,是第一个在HumanEval得分中超过GPT-4的模型。这个新模型经过了700亿个高质量代码和推理问题的令人印象深刻的优化。虽然它获得了显著的HumanEval分数达到了74.7%,但值得注意的是,真实世界中的有用性往往超越这些指标。通过全面的反馈收集和用户体验,Phind模型已经证明了在实际编码场景中,能够始终达到或超过GPT-4的效用。</p><p>Phind模型的一大亮点是其速度。通过利用NVIDIA的H100s和TensorRT-LLM库的强大功能,它可以在单个流中每秒处理100个标记,为需要帮助的用户提供快速的协助。</p><p>此外,Phind模型在响应中提供了广泛的上下文支持,支持高达16,000个标记。目前,该模型允许在网站上输入最多12,000个标记,其余4,000个用于基于网络的结果。</p><p>尽管Phind模型提供了实质性的好处,在某些方面仍需要改进。一个值得注意的挑战是一致性,特别是处理复杂问题时。在这些情况下,Phind模型可能需要更多的迭代才能得出正确答案,而GPT-4则不同。</p><p>总之,Phind模型是解决高效可靠编码辅助的持续问题的一种有希望的解决方案。它集合了卓越的编码能力,显著的速度和广泛的上下文支持,为用户提供了真实世界的帮助。随着这个模型的不断发展和解决剩余的挑战,它有潜力在回答技术问题的方式上实现革命性的改变,为开发人员和技术爱好者提供更高效和生产力的编码体验。</p><p>本文发表在<a href=”https://www.xiaozhuai.com/chinese-ai-researchers-have-proposed-4k4d-a-4d-point-cloud-representation-that-enables-hardware.html”>xiaozhuai.com</a>上,原文标题《Phind的新AI模型在编码方面超越了GPT-4,速度和16k上下文类似于GPT-3.5》。</p><p>本文首发于<a href=”/?s=MarkTechPost”>MarkTechPost</a>。</p>

Leave a Comment

亚马逊 vs 阿里巴巴:会话人工智能巨头之战

在技术不断发展的世界中,两个全球巨头将在对话人工智能领域展开激烈竞争。电商巨头亚马逊和中国科技巨头阿里巴巴正积极改变以人工智能驱动的互动方式。在这篇博客中,我们将深入探讨这些发展的关键点以及他们主导对话人工智能市场的努力所带来的影响。 亚马逊的奥林匹斯-挑战者 亚马逊对创新并非陌生,在对话人工智能领域的最新尝试就是这种追求卓越的明证。他们即将发布的大型语言模型奥林匹斯,将与OpenAI和微软等行业领导者展开竞争。这不仅仅是为了增强他们的在线零售平台,奥林匹斯还将为Alexa语音助手提供动力,丰富Echo等设备的功能,并支持亚马逊网络服务(AWS)。舞台已经搭好,亚马逊已经准备好迎接挑战。 巨人的挑战 在亚马逊推进奥林匹斯的同时,AWS此前的产品Titan因其表现不及OpenAI的ChatGPT等语言模型技术而面临延迟。奥林匹斯的完成和部署时间表尚不确定,但亚马逊决心将强大的对话人工智能解决方案带到市场上。随着企业客户寻求先进的人工智能技术,奥林匹斯与竞争对手之间的战斗势必会异常激烈。 阿里巴巴的同一千问2.0-中国竞争者 为不甘示弱,云计算和电商领域的重要参与者阿里巴巴在对话人工智能领域取得了进展。他们最近推出了最新的大型语言模型同一千问2.0。在人工智能的宏大框架中,大型语言模型是生成式人工智能应用的基础,类似于OpenAI开发的著名ChatGPT。阿里巴巴的同一千问2.0被描述为较其前身的重大进展,意味着其意图与包括亚马逊和微软在内的美国技术对手竞争。 全球对决 随着亚马逊和阿里巴巴都力图争取人工智能霸权,对话人工智能市场正走向全球对决。这些科技巨头拥有资源、专业知识和决心,可以重新定义我们与以人工智能驱动的系统互动的方式。随着企业客户越来越需求先进的对话人工智能解决方案,这些行业巨头之间的竞争将无疑塑造这个新兴领域的未来。 我们的观点 亚马逊的奥林匹斯和阿里巴巴的同一千问2.0展示了对话人工智能领域的激烈竞争。随着消费者和企业从日益复杂的人工智能应用中受益,我们预测技术的未来将充满活力和令人兴奋。在这些巨人之间的竞争不断升级的过程中,可以明显看到对话人工智能的创新和进步将继续以深刻的方式塑造我们的数字互动。我们期待着见证这些卓越人工智能的演变。

Leave a Comment

使用牛轧糖提升科学文件处理

简介 在不断发展的自然语言处理和人工智能领域中,从科学PDF等非结构化数据源中提取有价值的信息变得越来越重要。为了解决这个挑战,Meta AI推出了“Nougat”或称“学术文档的神经光学理解”,这是一种基于Transformer的先进模型,旨在将科学PDF转录成常见的Markdown格式。Nougat出现在Lukas Blecher、Guillem Cucurull、Thomas Scialom和Robert Stojnic的论文《Nougat:学术文档的神经光学理解》中。 这为光学字符识别(OCR)技术带来了开创性的转变,而Nougat是Meta AI强大的AI模型中的最新成员。在本文中,我们将探讨Nougat的能力,了解它的架构,并演示使用该模型转录科学文档的实际示例。 学习目标 了解Meta AI最新的科学文档Transformer模型Nougat。 了解Nougat如何借鉴其前身Donut,并引入先进的文档AI方法。 学习Nougat,包括其视觉编码器、文本解码器和端到端训练过程。 深入了解OCR技术的发展,从ConvNets的早期阶段到Swin架构和自回归解码器的革命性能量。 本文作为数据科学博文马拉松的一部分发表。 Nougat的诞生 Nougat并不是Meta AI家族中的第一个Transformer模型。它继承了它的前身“Donut”的理念,展示了以Transformer为基础的模型中视觉编码器和文本解码器的能力。这个概念很简单:将像素数据输入模型,获得文本输出。这种端到端方法消除了复杂的流水线,并证明了注意力就是所需的一切。 让我们简要讨论驱动Nougat等模型的“视觉编码器、文本解码器”范式的基本概念。作为Nougat的前身,Donut引入了在单个模型中结合视觉和文本处理的能力。与传统的文档处理流水线不同,这些模型在端到端操作,将原始像素数据转化为文本内容。这种方法利用了Transformer架构的注意力特性来产生结果。 Nougat接过火炬 在Donut取得成功的基础上,Meta AI推出了Nougat,将OCR技术推向了一个新的水平。与其前身一样,Nougat采用了基于Swin Transformer的视觉编码器和基于mBART的文本解码器。Nougat从科学PDF的原始像素中预测文本的Markdown形式。这代表了将科学知识转录成熟悉的Markdown格式的重大突破。 Meta…

Leave a Comment

解锁神经网络中的系统组合性:基于元学习的组合性突破(MLC)方法

人工智能和机器学习的领域越来越普遍。这些领域中的一个主要问题是机器是否能够复制人类认知和语言的复杂性。问题仍然存在,即机器是否真正有能力复制人类语言和认知的系统性组成特征。 系统性学习是人们获得新思想并有条理地将其与既有思想相结合的能力。系统性组成性是人类语言和智力的一项杰出能力。这个想法类似于解代数方程,因为它需要生成和理解熟知元素的新组合的能力。 尽管在这一领域取得了实质性进展,神经网络在系统性方面的问题尚未得到解决。这带来了Fodor和Pylyshyn提出的一个著名主张,即人工神经网络作为人类思维模型是不充分的,因为它们无法具备这种能力。作为对此的回应,一个研究团队最近展示了神经网络如何通过使用一种名为元学习组成性(MLC)的新技术来实现类似人类的系统性。 使用这种方法,研究团队训练了一系列动态编排问题的神经网络。该研究采用了指令学习范式来进行行为学研究,以比较人类和机器的表现。MLC在系统性组成性方面使人类和机器之间的差距缩小。该方法通过高级指导和人类示例指导神经网络的学习过程,而不是依赖人工构建的内部表示或归纳偏见。它能够帮助网络获得适当的学习能力。 研究团队表示,他们进行了一些人类行为实验来评估这种方法。他们使用指令学习范式评估了七种不同的模型,以了解哪种模型可以最好地平衡类似人类的泛化的两个关键组成部分:灵活性和系统性。结果非常令人印象深刻,因为MLC是唯一一个能够模仿系统性和灵活性的受试模型,这对于复制类似人类的泛化是必要的。它既不依赖过于灵活但非系统性的神经网络,也不强加不灵活但完全系统性而刻板的概率符号模型。 MLC技术之所以令人印象深刻,是因为它不需要复杂或专门的神经网络拓扑结构。相反,它优化了普通神经网络的组合技能。在这次面对面的比较中,基于MLC的网络在系统性泛化方面与人类的表现非常相符。 总之,MLC为人们证明机器可以在语言和推理方面实现类似人类的系统性打开了大量的用途。它展示了机器学习系统如何模拟人类认知的系统性,可能提高人类在一系列认知活动中的能力,如问题解决、创造性思维和自然语言处理。这一突破无疑有能力将人工智能领域带入新的革命,使人类能够更接近那些不仅可以模仿,而且真正理解和复制人类思维系统性特征的机器。

Leave a Comment

谷歌DeepMind提出了一个社会和伦理人工智能风险评估的人工智能框架

生成式人工智能系统在不同领域中越来越普遍,它们可以创建各种格式的内容。这些系统被应用于医学、新闻、政治和社交互动等多个领域,提供伴侣式的体验。通过使用自然语言输出,这些系统能够生成单一格式的信息,如文本或图形。为了使生成式人工智能系统更具适应性,目前有一个趋势是改进它们以支持额外的格式,如音频(包括语音和音乐)和视频。 生成式人工智能系统的广泛使用凸显了评估其部署所涉及潜在风险的重要性。随着这些技术变得越来越普遍并集成到各种应用中,人们对公共安全的担忧也日益增加。因此,评估生成式人工智能系统可能存在的潜在风险正在成为人工智能开发人员、决策者、监管机构和公民社会的优先事项。 这些系统的不断增长的使用凸显了评估实施生成式人工智能系统所涉及潜在危险的必要性。因此,评估生成式人工智能系统可能带来的潜在威胁对于人工智能开发人员、监管机构和公民社会而言变得越来越重要。具有可能传播虚假信息的人工智能的发展引发了关于这种技术会如何影响社会的道德问题。 因此,谷歌DeepMind的研究人员最近进行了一项研究,提供了一种全面评估人工智能系统在多个背景层面上的社会和道德风险的方法。DeepMind的框架系统地评估三个不同层次上的风险:系统的能力,人与技术的互动,以及它可能产生的更广泛的系统性影响。 研究人员强调,重要的是要认识到,即使是高度能力的系统,如果在特定背景下使用有问题,可能只会造成伤害。此外,该框架还考虑了人与人工智能系统的真实世界互动。这包括考虑诸如谁使用技术以及它是否按预期运行等因素。 最后,该框架检查了当广泛采用人工智能时可能出现的风险。这种评估考虑到技术对较大的社会系统和机构的影响。研究人员强调了确定人工智能的风险程度时上下文的重要性。该框架的每个层面都充满了上下文关注,强调了了解谁将使用人工智能以及为什么这一点的重要性。例如,即使一个人工智能系统能够产生事实准确的输出,用户对这些输出的解读和随后的传播可能在特定的上下文限制下产生意想不到的后果。 研究人员提供了一个以错误信息为重点的案例研究,以展示这种策略。评估包括评估人工智能系统的事实错误倾向,观察用户与系统的互动,并测量任何随后的后果,如错误信息的传播。模型行为与特定上下文中实际伤害的相互作用将产生可行的见解。 DeepMind的基于上下文的方法强调了超越孤立模型指标的重要性。它强调了在复杂的社会环境中评估人工智能系统如何运作的迫切需求。这种全面的评估对于发挥人工智能的好处并将相关风险降至最低至关重要。

Leave a Comment

我们能克服大型语言模型的迅速脆弱吗?谷歌AI引入批处理校准以提高性能

最近,大型语言模型作为各种自然语言理解和图像分类任务的强大工具而出现。然而,这些语言模型存在一些挑战,特别是在输入方面存在提示脆弱性和多个偏见。这些偏见可能来自格式选择、词汇选择以及用于上下文学习的示例。这些问题可能导致性能的意外下降,因此必须有效地解决。 为了解决这些挑战,现有的工作提出了校准方法以减轻偏见并恢复语言模型性能。这些方法致力于更统一地看待问题并解决其细微之处。需要这样的解决方案的原因在于语言模型对提示方式非常敏感,它们的预测可能受到模板和词汇选择、ICL示例的顺序和内容的影响。 一组谷歌研究人员提出了一种名为批次校准(BC)的新方法。BC是一种直观简便的方法,针对批处理输入中的明确上下文偏见。与其他校准方法不同,BC是一种零样本方法,仅在推断阶段应用,额外的计算成本最小。这种方法可以扩展为几次样本设置,使其能够从标记数据中适应和学习上下文偏见。 通过对十多个自然语言理解和图像分类任务进行广泛实验,证明了BC的有效性。在零样本和几次样本学习情况下,BC优于先前的校准基线。BC在设计上的简洁性以及从有限标记数据中学习的能力使其成为解决语言模型中的提示脆弱性和偏见的实用解决方案。 通过这些实验获得的度量指标显示,BC提供了最先进的性能,使其成为与语言模型合作的人士的有希望的解决方案。通过减轻偏见和提高鲁棒性,BC简化了提示工程的过程,并为这些强大语言模型的性能提供更高效、可靠的表现。 总之,批次校准(BC)等创新校准方法有效地解决了大型语言模型中提示脆弱性和偏见的挑战。这些方法提供了一种统一的方法来减轻上下文偏见并改善语言模型性能。随着自然语言理解和图像分类的不断发展,像BC这样的解决方案在发挥LLM的全部潜力的同时,最大限度地减少了偏见和脆弱性对其响应的影响。

Leave a Comment