Press "Enter" to skip to content

四海吧 Posts

聊天GPT对于文案撰写者的影响:AI融合未来的挑战与希望

人工智能的崛起无疑改变了各行各业,包括内容创作领域。然而,正如《纽约邮报》最近报道的,一些人因为像ChatGPT这样的人工智能工具的日益普及而面临着重大挑战。其中一个例子是来自加尔各答的22岁撰稿人Sharanya Bhattacharya的故事。她的经历揭示了人工智能对熟练专业人士的收入和生计造成的颠覆性影响,导致了惊恐发作和经济困难。 还阅读:谷歌发布新闻撰稿AI“Genesis” 从繁荣到困境 作为一名年轻有才华的撰稿人,Sharanya Bhattacharya曾经享受着从她在一家创意解决方案机构的工作中获得的稳定收入。她优化了SEO的文章和代笔服务每月收入约240美元(约合人民币2万元)。然而,转折点出现在2022年11月,当企业开始使用像ChatGPT这样的基于人工智能的工具来削减成本时。 人工智能采用的黑暗面 随着基于人工智能的内容生成的兴起,Bhattacharya的工作量显著下降。为了降低成本,公司越来越多地选择使用人工智能生成的内容,而不是依赖熟练的人类撰稿人。结果,她的委托减少,每月只有1-2篇文章可供她撰写。这些公司缺乏明确的信息增加了她的困境,加剧了经济压力。 还阅读:AI生成的内容可能对开发人员构成风险 对生计的影响 收入急剧减少对Bhattacharya产生了影响,并对她的家庭产生了连锁反应,特别是她45岁的母亲,一名纱丽销售商,依赖她的收入。他们的月收入跌至仅为以前价值的“10%左右,家庭不得不节衣缩食,优先考虑食物和账单等必需开支。如用餐等愉快的活动变得罕见。 还阅读:OpenAI首席执行官Sam Altman:AI证明了其力量,印度开发人员的工作面临风险 焦虑和不确定性的挣扎 人工智能革命的意外后果影响了Bhattacharya的心理健康。潜在失业和不确定的未来的恐惧导致了惊恐发作和焦虑。在自动化面前,技能人力劳动的未来不确定性是她所在行业许多其他人共同关注的问题。 还阅读:AI浪潮:稳定AI首席执行官预测印度开发人员将在2年内失去工作 对融合人工智能的未来的希望 尽管面临挑战,Bhattacharya对人工智能和人类融合的潜力保持乐观态度。她认为人工智能可以与人类技能相辅相成,在内容创作方面取得最佳结果。她不认为人工智能是一种威胁,而是设想了一个未来,在这个未来中,人工智能工具可以增强和支持人类撰稿人的创造力,确保两者之间的和谐共存。 还阅读:AI无法替代的工作 我们的观点 Sharanya Bhattacharya的故事突显了人工智能对撰稿和其他各行各业熟练专业人士的真实影响。虽然像ChatGPT这样的人工智能工具的快速采用可能会为企业带来效率提高和成本节约,但它也给个人工作者带来了挑战,面临就业机会减少和经济压力。在我们航行这个变革时代时,企业必须在拥抱人工智能的好处和认识到人类创造力和专业知识的价值之间取得平衡。融合人工智能的未来有潜力创造一个繁荣的环境,人工智能和人类技能和谐共同推动创新和进步。

Leave a Comment

创建DCGAN模型的逐步指南

Introduction 深度卷积生成对抗网络(DCGANs)通过结合生成对抗网络(GANs)和卷积神经网络(CNNs)的强大能力,彻底改变了图像生成领域。DCGAN模型可以创建出极其逼真的图像,使其成为各种创意应用的重要工具,例如艺术生成、图像编辑和数据增强。在本逐步指南中,我们将向您介绍使用Python和TensorFlow构建DCGAN模型的过程。 DCGAN在艺术和娱乐领域中被证明是非常有价值的,使艺术家能够创造出新颖的视觉体验。此外,在医学影像领域,DCGAN可以生成高分辨率的扫描图像,提高诊断准确性。它们在数据增强方面的作用可以增强机器学习模型,同时它们还通过模拟逼真的环境来为建筑和室内设计做出贡献。通过无缝地融合创造力和技术,DCGAN已经超越了单纯的算法,在不同领域推动了创新进展。通过本教程的最后,您将拥有一个结构良好的DCGAN实现,可以从随机噪声生成高质量的图像。 本文是Data Science Blogathon的一部分。 先决条件 在我们开始实现之前,请确保您已安装了以下库: TensorFlow:pip install tensorflow NumPy:pip install numpy Matplotlib:pip install matplotlib 确保您对GAN和卷积神经网络有基本的了解。熟悉Python和TensorFlow也将有所帮助。 数据集 为了演示DCGAN模型,我们将使用著名的MNIST数据集,其中包含从0到9的手写数字的灰度图像。每个图像是一个28×28像素的正方形,使其成为一个完美的数据集。MNIST数据集已经预加载在TensorFlow中,因此很容易访问和使用。 导入 让我们首先导入必要的库: import tensorflow as…

Leave a Comment

加州大学伯克利分校的研究人员推出Dynalang:一种人工智能代理,它学习多模态世界模型以预测未来的文本和图像表示,并从想象的模型展开中学习行动

长期以来,人工智能的目标之一是创建能够与人们在现实世界中进行有机交流的机器人。现今的具身代理人可以执行简单的低级命令,例如“拿起蓝色的积木”或“经过电梯然后向右转”。然而,交互式代理人需要能够理解人们在“此时此地”之外使用语言的全部方式,包括知识传递(例如,“左上角的按钮关闭电视”),情境信息(例如,“我们没有牛奶了”)和协调(例如,“我已经清理过客厅了”)。 大部分孩子在书籍中阅读或从他人那里听到的内容都传达了关于世界的信息,无论是它如何运作还是它目前的状态。他们如何使代理人能够说其他语言?强化学习(RL)是一种教授以语言为条件的代理人解决问题的技术。然而,目前大多数使用的语言条件的RL技术是通过从任务特定的指令中产生动作来训练的,例如,通过将像“拿起蓝色的积木”这样的目标描述作为输入并生成一系列运动命令。直接将语言映射到最佳行动方案在考虑到自然语言在实际世界中扮演的各种角色时,提供了一个困难的学习挑战。 如果正在进行的工作是清理,代理人应该通过进行下一个清理步骤来回答,但如果是用餐,代理人应该收拾碗。以“我把碗放好了”为例。当语言不讨论任务时,语言与代理人最佳行动方案之间只有弱相关性。因此,仅通过将语言映射到活动的任务奖励可能是学习信号更好,以便学会使用各种语言输入完成任务。相反,他们建议,语言对代理人的一个统一功能是帮助进行未来预测。短语“我把碗放好了”可以使代理人更准确地预测未来的观察结果(例如,如果它打开柜子,它会看到碗)。 从这个意义上说,孩子们接触到的大部分语言可能根植于视觉经验。代理人可以使用先前的信息来预测环境变化,例如“扳手可以用来拧紧螺母”。代理人可以通过说“包裹在外面”来预期观察结果。这种范式还将常见的按照指令实践与预测术语结合起来:指令帮助代理人期待奖励。他们认为,预测未来表示为代理人提供了丰富的学习信号,有助于他们理解语言以及它如何与外部世界交互,类似于下一个令牌预测使语言模型能够构建内部对世界知识的表示。 加州大学伯克利分校的研究人员引入了Dynalang,一种通过在线经验获取世界的语言和视觉模型,并利用该模型理解如何行为的代理。Dynalang将使用该模型的行为学习(具有任务激励的强化学习)与使用语言模型(具有预测目标的监督学习)的世界建模分开。世界模型接收视觉和文本输入作为观察模态,这些输入被压缩为潜在空间。随着代理人与周围环境的互动,使用在线收集的数据,它训练世界模型预测未来的潜在表示。使用世界模型的潜在表示作为输入,他们训练策略采取决策以最大化任务奖励。 由于世界建模与行动是不同的,Dynalang可以在没有活动或任务奖励的情况下预先训练单模态(仅文本或仅视频数据)。此外,语言生成的框架可以统一:代理人的感知可以影响其语言模型(即其关于未来令牌的预测),从而使其能够通过在动作空间中生成语言来与环境进行交流。他们在各种语言环境中测试了Dynalang的性能。Dynalang学会了利用关于未来观察结果、环境动态和修正的语言线索,在多任务清洁房屋的环境中更快地完成家务。在Messenger基准测试中,Dynalang通过阅读游戏手册来匹配游戏的最难关卡,优于任务特定的架构。他们展示了Dynalang可以在视觉和语言复杂的环境中掌握指令,在视觉语言导航中超越了最先进的强化学习算法和任务特定的架构。 以下是他们所做的贡献: • 他们提出了Dynalang,一种使用未来预测来连接语言与视觉体验的代理。 • 他们展示了Dynalang通过学习理解各种类型的语言来应对各种任务,优于最先进的RL算法和任务特定设计。 • 他们证明了Dynalang的构想打开了新的可能性,包括在单一模型中将语言创作与纯文本预训练相结合,而无需行动或任务激励。

Leave a Comment

10个能够生成代码来帮助程序员的AI工具

在一个无限可能的时代,生成式人工智能解决方案的广泛使用和革命性的可访问性为程序员带来了创新的绚丽交响曲。应用场景从创作艺术品到编写代码。它们的增长超过了过去十年每一项消费者技术趋势。我们的工作方式正迅速演变,软件开发领域也不例外。对许多开发者来说,使用AI编码工具已成为常见做法。探索使用人工智能生成优秀代码的理想AI代码生成器。 什么是AI代码生成器? AI代码生成器是一种融合了人工智能的计算机程序,帮助工程师更快、更准确地编写代码。当您实时输入代码时,它会根据提示生成代码或为自动完成建议代码。像这样的AI代码编写程序可以在不同的编程语言之间进行翻译并编写它们的程序。此外,它们还有助于自动生成文档和快速发现代码片段。 AI代码生成利用对公开使用的开源项目创建的源代码的工作示例进行训练,根据这些示例生成新的代码。大型语言模型可以处理和理解语言,生成文本,回答问题,并学习有助于预测文本的语言链接和模式。 它们应用AI算法选择特定程序的最佳代码,使开发者能够更快地创建程序。AI代码生成的三种方式: 当开发者开始输入代码时,AI将尝试自动完成句子。 当开发者以自然语言留下输入时,AI算法会提出以开发者目标为中心的建议。 开发者直接与AI进行交流,请求其开发特定代码或修复错误。 为什么使用AI代码生成器? 使用AI代码生成器有几个优点,它可以帮助开发者发挥他们的全部潜力。以下是这一划时代工具的一些主要优势和潜在用途: AI代码生成的主要优势在于能够在更短的时间内生成代码。AI负责常规的编码任务和测试编写,使开发者能够专注于需要创造性思维和解决问题的工作。 基于AI的代码生成器自动化了代码开发,通过快速创建符合规格的功能代码来减少开发过程,对于快速开发或对时间敏感的应用非常有用。 AI代码生成器经过训练,具备与行业标准兼容、整洁易维护的代码生成能力,促进团队合作。 它们可以作为警觉的防御措施,预先发现缺陷,节省了调试的麻烦。AI代码助手还通过提供有关如何构建实用、可行、安全代码的咨询服务来提高代码质量。 基于AI的代码生成器通过使其更易于广大人群使用,减少技能差距,让用户设计自己的应用程序,并在多个行业推动创新。 程序员的前十大AI代码生成器 AI助力的代码生成器的出现极大地简化和提高了开发者的编码流程的生产力。这些代码生成器使用机器学习和人工智能自动创建代码片段、元素,甚至完整的应用程序。 OpenAI Codex 目前最知名的AI编码工具是OpenAI Codex。它使用了OpenAI的LLMs(GPT-3和GPT-4)训练并构建,通过大量代码的训练,承诺可以在12种语言(包括Go、TypeScript、Perl、PHP、BASH、Ruby、JavaScript和Swift)中编写程序。该算法是在GitHub存储库等网站上公开可用的数万亿行代码的基础上开发的。 特点 它可以根据注释生成程序或为程序提供注释。 它可以将英语算法翻译成任何语言的程序。 在编码过程中进行注释和警报,创建安全可靠的代码。…

Leave a Comment

“认识Jupyter AI:一个新的开源项目,通过魔术命令和聊天界面将生成式人工智能引入Jupyter笔记本”

Jupyter AI,是Jupyter项目的一个官方子项目,为Jupyter笔记本带来了生成式人工智能。它允许用户解释和生成代码,修复错误,总结内容,甚至从自然语言提示生成整个笔记本。该工具将Jupyter与来自各个提供商的大型语言模型(LLM),包括AI21、Anthropic、AWS、Cohere和OpenAI,通过LangChain的支持连接起来。 设计时考虑了负责任的人工智能和数据隐私,Jupyter AI使用户能够选择他们喜爱的LLM、嵌入模型和向量数据库,以满足他们特定的需求。该软件的底层提示、链和组件是开源的,确保数据透明性。此外,它保存有关模型生成内容的元数据,方便跟踪工作流中生成的AI代码。重要的是,Jupyter AI尊重用户数据隐私,只在被请求时联系LLM,绝不会在没有明确同意的情况下读取或传输数据。 要开始使用Jupyter AI,用户可以使用pip为其JupyterLab(版本3或4)安装适当的版本。该软件提供了两个与LLM交互的界面:JupyterLab内的聊天界面和支持的笔记本环境的魔术命令界面。聊天界面内的AI助手Jupyter Naut通过文本进行通信,并提供广泛的功能。它可以回答一般问题,用简单的英语或其他语言解释代码,修改代码并识别错误。此外,用户可以使用“/generate”命令从文本提示生成整个笔记本。 聊天界面允许用户使用“/learn”命令教授Jupyternaut有关本地文件的知识。Jupyternaut使用嵌入模型将数据转换并存储在本地向量数据库中,使用户可以使用“/ask”命令对这些文件提出问题。然后,AI根据存储的信息进行回答。 在笔记本环境中,用户可以使用“%%ai”等魔术命令与LLM交互。该软件支持多个提供商,并且用户可以使用“–format”参数自定义输出格式。此外,变量插值使得与AI模型的动态交互成为可能。 Jupyter AI是在Jupyter笔记本中进行AI驱动的代码生成和辅助的有价值的工具,注重道德考虑、隐私和数据透明性。鼓励用户在执行之前审查AI生成的代码,遵循与人工编写代码相同的实践。总之,Jupyter AI是Project Jupyter的一个强大而道德的补充,提供了AI驱动的代码生成、辅助和解释,同时保护数据隐私和负责任的AI实践。

Leave a Comment

“遇见Rumi项目:面向大型语言模型的多模态语用提示”

在数字化时代兴起的技术中,大型语言模型(LLMs)已成为一种强大的工具,革新了人类社会和文化的许多方面,重塑了我们与计算机的互动方式。然而,存在一个需要解决的关键挑战。LLMs的限制显而易见,揭示了无法理解对话的上下文和细微差别以及依赖于提示的质量和特定性的差距。一个主要的限制是它们缺乏真实交流的深度,错过了所有的语际信息。 微软的Rumi项目旨在通过解决对非语言线索和上下文细微差别的理解的局限性,提升LLMs的能力。它将语际输入纳入基于提示的LLMs交互,以提高沟通质量。研究人员使用音频和视频模型从数据流中检测实时非语言线索。使用两个独立的模型从用户的音频中提取语际信息,一个是音频的韵律音调和抑扬顿挫,另一个是从语音的语义中提取的信息。他们使用视觉转换器对帧进行编码,并从视频中识别面部表情。下游服务将语际信息纳入基于文本的提示中。这种多模态方法旨在增强用户情感和意图的理解,从而将人工智能与人类的交互提升到一个新的水平。 在这项研究中,研究人员只是简要探讨了语际在传达用户意图方面提供关键信息的作用。未来,他们计划改进模型,使其更好、更高效。他们还希望添加更多细节,如从标准视频中获取的HRV(心率变异性)以及认知和环境感知。这都是为了在与人工智能的下一个交互浪潮中增加未明示的意义和意图的更大努力的一部分。

Leave a Comment

“Meta AI开源AudioCraft:一个用于音频生成的PyTorch库,用于深度学习研究”

<img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/362278500_245853288291883_2304974600919081225_n-1024×576.png”/><img src=”https://www.marktechpost.com/wp-content/uploads/2023/08/362278500_245853288291883_2304974600919081225_n-150×150.png”/><p>为了使研究人员和实践者能够训练他们的模型并推动技术的发展,Meta发布了其文本到音乐生成AI“AudioCraft”的源代码。MusicGen、AudioGen和EnCodec是构成AudioCraft开发框架的三个模型。</p><ul> <li>MusicGen可以根据文本用户输入生成音乐,因为它是使用Meta拥有并经过特殊许可的音乐进行训练的。</li> <li>AudioGen可以从文本输入中创建音频,并在公开的音效中进行训练。</li> <li>EnCodec是一个三合一的AI驱动的编码器、量化器和解码器。</li> </ul><p>AudioGen可以从文本输入中创建音频,并在公开的音效中进行训练。Meta将发布改进版的EnCodec解码器,使音乐生成具有更高的质量和更少的伪影,同时还提供预训练的AudioGen模型,可用于生成环境音和音效,比如狗叫声、汽车喇叭声或者木地板上的脚步声,以及AudioCraft模型的所有权重和代码。对该技术感兴趣的研究人员可以使用这些模型。Meta很高兴首次向研究人员和实践者开放其平台,让他们能够使用自己的数据集来训练模型并为技术的发展做出贡献。</p><p>经过训练后,它可以根据用户输入的文字产生逼真且高质量的音乐或音效。AudioCraft中包含了MusicGen、AudioGen和EnCodec这三个模型。MusicGen和AudioGen可以根据各自的训练集从文本生成音乐和音效。MusicGen使用Meta拥有的和经许可的音乐,而AudioGen使用公开的音频数据集。Meta在2017年的6月和10月分别发布了两个模型:MusicGen和AudioGen。</p><p>Meta声称,AudioCraft可以通过直观的界面产生专业级的声音。他们还声称,通过采用一种新的方法,它简化了当前音频生成技术的设计。他们详细介绍了AudioCraft如何使用EnCodec神经音频编解码器从原始音频数据中提取有意义的信息。在此之后,一个自回归语言模型通过利用音乐样本(音频令牌)的预先确定“词汇表”来训练一个新的音频语言模型。这个新模型生成基于文本描述的令牌,并发送回EnCodec解码器,从而实现音频和音乐的合成。</p><p>Meta演示了AudioGen与传统的AI音乐生成器的独特之处。长期以来,音乐的象征性表示,如MIDI或钢琴卷纸,一直被用于音乐训练以生成AI模型。然而,当记录音乐表达的细微差别和审美成分时,这些方法必须进行修订。更复杂的方法涉及将原始音乐输入系统,并使用自监督音频表示学习和多级(级联模型)模型来生成音乐,以捕捉信号的长距离结构。虽然效果可能需要一些改进,但是可以生成良好的声音。</p><p>根据负责任的AI原则,Meta的研究人员正在制作AudioGen和MusicGen模型卡片,记录他们开发模型的过程,并提供给研究界以不同规模的版本。音频研究框架和训练代码以MIT许可证的形式对公众开放,以供他人使用和扩展。Meta认为,如果开发出更复杂的控制方式,这样的模型对业余和专业音乐家可能非常有用。想象一下,通过强大的开源基础,可以实现带有音效和戏剧性音乐的增强睡前故事朗读等可能性。</p>

Leave a Comment

IBM、HuggingFace和NASA开源Watsonx․ai基金会模型:NASA的首个公开可用的AI基金会模型和HuggingFace上最大的地理空间模型

IBM和开源AI平台Hugging Face共同宣布发布了watsonx.ai地理空间基础模型。这个出色的AI模型使用了NASA的卫星数据,代表了气候科学和地球研究领域的重大进展。这个合作的主要目标是民主化AI的获取,并促进这些关键领域的创新加速。 在面对不断变化的环境条件下,气候科学领域面临着获得最新数据的紧迫挑战。尽管有大量的数据涌入(预计到2024年将达到250,000 TB),但分析这些广泛的数据集对科学家和研究人员来说仍然是一个难以逾越的任务。为了解决这个问题,IBM今年早些时候与NASA签署了一项太空行动法协议,开发了一个用于地理空间数据的AI基础模型。 通过在Hugging Face上提供地理空间基础模型,这个合作旨在促进AI社区内更大的合作和信息共享。这一举措有望加速开发有益于地球的重大解决方案。 地理空间基础模型是在美国大陆范围内的一年时间内,使用协调的Landsat Sentinel-2卫星数据(HLS)进行联合训练的。该模型在现有技术上表现出令人印象深刻的15%的提升,同时只需要一半的标记数据。该模型可以通过进一步的微调适用于各种任务,包括森林砍伐追踪、作物产量预测以及温室气体的检测与监测。IBM和NASA还与克拉克大学合作,探索时间序列分割和相似性研究等应用。 IBM的地理空间模型利用了其基础模型技术,这是该公司更广泛努力的一部分,旨在为各种任务创建和训练AI模型,并利用场景之间的知识转移。今年7月,IBM推出了Watsonx,这是一个AI和数据平台,使企业能够利用可靠的数据扩展和加速先进AI的影响。集成到IBM环境智能套件(EIS)的商业版本的地理空间模型预计将于今年晚些时候发布。 总之,IBM和Hugging Face之间的合作,加强了NASA的卫星数据的支持,代表了推动科学进步和加深我们对地球气候的理解的有希望的机会。这个模型的开源性有望赋予全球研究人员和科学家在应对紧迫环境挑战方面的能力。

Leave a Comment

一项新的人工智能研究推出了MONAI生成模型:一种开源平台,可以让研究人员和开发者轻松训练、评估和部署生成模型

近年来,由于生成式人工智能的最新进展,包括医学成像在内的多个领域取得了新的发展。这些生成式模型在异常检测、图像转换、去噪和磁共振成像(MRI)重建等各种用途上有着巨大的潜力。然而,这些模型因其复杂性而闻名,使得应用和复现变得困难。这种复杂性可能会降低进展速度,为用户设下障碍,并阻碍对新方法与已有方法进行比较评估。 为了使生成式模型的构建和部署更加简便和标准化,研究团队创建了一个名为MONAI Generative Models的开源平台。该团队包括来自伦敦国王学院、国家心理健康研究所、爱丁堡大学、巴塞尔大学、韩国科学技术高等研究院、NVIDIA、斯坦福大学、西奈山伊坎医学院和伦敦大学学院的研究人员。 为了证明该技术的有效性,讨论了五项涵盖医学成像相关主题的研究,从分布外检测到图像转换和超分辨率。该平台的适应性通过其在2D和3D场景中使用不同模态和解剖区域的能力得到展示,展示了它作为推动医学成像的新工具的潜力。五个实验如下: 提出的模型可以轻松调整以适应新环境,从而更全面地进行跨多种情况的比较,并扩大其初始范围。为了证明这一特性,研究人员评估了他们的软件包中最先进的模型之一——潜在扩散模型,以及它在包括具有不同体型和活动类型的受试者的各种数据集中生成新信息的能力。 潜在生成模型包括两个基本部分——压缩模型和生成模型,团队展示了这些模型的高度灵活性。 该系统使得在各种医学成像应用中使用生成式模型变得更加容易。研究团队证明了它们可以应用于检测超出正常范围的3D成像数据。 他们还使用稳定扩散2.0升频器方法研究了生成式模型在超分辨率方面的潜力。研究结果表明,生成式模型在超分辨率应用中非常有用,特别是在3D模型中。 团队还测试了他们的模型在超分辨率照片方面的性能。为此,他们将放大的测试集照片与相应的真实图像进行了比较。这些指标确认了该模型在提高图像清晰度方面的卓越超分辨率能力,证明了其效率。 未来,研究人员计划改进对其他应用(如MRI重建)的支持,并引入更多最新模型,以便更轻松地进行模型比较。由于这些发展,医学生成式模型及其应用领域将继续取得进展。

Leave a Comment

谷歌开拓者的激励之旅

介绍 在不断发展的科技巨头领域中,总是涌现出许多胜利和成就的故事,展示了那些敢于梦想并为之不懈努力的人们的非凡旅程。在这些故事的核心是谷歌的一位副校长,他的成功故事是对科技行业奉献、创新和无限机遇的见证。本文深入探讨了曼尼·加拉帕蒂先生的非凡旅程,他是一位在谷歌开辟道路的先锋,从平凡的开始走到了关键人物,他的贡献不仅提升了自己的职业生涯,还在技术领域和其他领域留下了深刻的印记。 AV:您能告诉我们一下您的教育背景以及它是如何使您达到在谷歌的副校长职位的吗? 曼尼先生:我在比尔德科技学院获得了技术金融的学士和硕士学位,这为我打下了坚实的技术和金融基础,这可能有助于我在科技行业的后续角色中取得成功。 我在JP摩根大通、Mu Sigma、TCS创新实验室和沃尔玛实验室的经历使我在包括银行业、物联网、车载导航、文本分析、社交媒体分析、网站分析、自然语言处理、定价、供应链、全球采购和人力资源分析等各个领域积累了专业知识。 这些多样化的经验可能磨砺了我的问题解决和分析能力,以及在团队中工作和适应不同环境的能力。 我在谷歌的现任副校长职位涉及在技术领域中监督和管理大规模滥用和欺诈检测项目。我在各个领域的先前经验使我具备处理这一职位复杂性并为团队的成功做出贡献所需的技能。 总的来说,我的教育背景和职业经验对我在谷歌的副校长职位的成功做出了贡献,并继续塑造着我在科技行业的职业道路。 成长概述 我决心在科技和金融领域取得成功。我在比尔德科技学院就读,并在五年内完成了技术金融的学士和硕士学位。 毕业后,我加入了JP摩根大通,并在银行领域的商业智能和自动化方面迅速获得了技能。一年后,我加入了Mu Sigma。我花了两年的时间开发物联网、车载导航和文本分析解决方案,从而推出了MuRx和MMx等多个算法产品。 接下来,我来到了TCS创新实验室,在电信领域深入研究了社交媒体分析、网站分析和自然语言处理。之后,我转到了沃尔玛实验室,在零售领域从事了四年的定价、供应链、全球采购和人力资源分析工作。 在积累了多年的经验后,我加入了谷歌,并开始从事技术领域的大规模滥用和欺诈检测工作。在过去的四年里,我已经证明自己是谷歌团队的重要成员,并帮助创建了一个更安全、更可靠的在线环境。 通过努力工作、奉献和对学习的热情,这个人在科技行业中开辟了一条成功的职业道路,并成为了备受尊敬和宝贵的技术行业成员。 AV:是什么激励您追求数据科学的职业,并且您是如何开始的? 曼尼先生:最初,我探索了不同的职业道路,包括iOS开发、网页设计和知识流程外包,但我发现它们并不能让我感到满足。然而,我偶然接触到了数据科学,并发现它是一个与我产生共鸣的领域。 我对数据科学的兴趣源于对探索和理解数据的好奇心,以及利用数据来指导决策和推动商业价值的愿望。我被使用统计和机器学习技术从大型和复杂数据集中提取洞察,并创建基于数据的解决方案解决现实问题的潜力所吸引。 当我加入Mu Sigma时,我有机会在不同领域的各种数据科学项目上工作,这使我能够获得实践经验并建立扎实的数据科学技能基础。我学习了数据预处理、统计建模、机器学习和数据可视化等各种技术,并接触到了Python、R、SQL和Tableau等工具和技术。 我在Mu Sigma的经历很可能帮助我对数据科学领域有了更深入的理解,并让我有机会与优秀的数据科学家合作并向他们学习。这段经历很可能改变了我的职业轨迹,给予我了我所追求的方向和目标。 总的来说,好奇心、对数据的兴趣、解决现实世界问题的能力以及通过在Mu Sigma的经历中接触到这个领域,这些因素是激发我追求数据科学职业的关键因素。…

Leave a Comment

Meta的AudioCraft:AI生成音频和音乐的革命

想象一下,当音乐家和内容创作者能够从简单的文本中生成音频和音乐时,创造力的可能性将是无限的Meta最新发布的AudioCraft为高质量音效不需要复杂设备或乐器铺平了道路,它是一款开创性的人工智能工具,由三个模型组成:MusicGen、AudioGen和EnCodec,每个模型都经过精心设计[…]

Leave a Comment

这项人工智能研究评估了指令跟踪模型执行问答任务的正确性和忠实度

最近引入的大型语言模型(LLMs)已经在人工智能(AI)社区中引起了轰动。这些模型通过使用超强的自然语言处理(NLP)、自然语言生成(NLG)和自然语言理解(NLU)成功地模仿了人类。LLMs因为能够模仿人类进行真实对话而变得著名,它们能够回答简单和复杂的问题,生成内容,代码补全,机器翻译和文本摘要。NLP的目标是使计算机系统能够理解和响应以自然语言给出的命令,使人们能够以更自然和灵活的方式与它们互动,最好的例子就是指令跟随模型。 这些模型是使用LLMs、有监督的例子或其他类型的监督进行训练,并暴露在成千上万个以自然语言指令编写的任务中。在最近的研究中,来自麦吉尔大学Mila Quebec AI研究所、麦吉尔大学和Facebook CIFAR AI Chair的团队研究了评估指令跟随模型在给定一组文本段落上执行问答(QA)任务的性能。这些模型可以在提供描述任务、问题和由检索器检索到的相关文本段落的提示时回答问题,这些模型产生的响应被认为是自然和信息丰富的,有助于建立用户的信任和参与度。 这些模型可以通过仅向其输入添加检索到的文档和指令来自然而流畅地回答用户的查询。然而,这种额外的冗长使得传统的QA评估指标如完全匹配(EM)和F1分数难以有效地量化模型的性能。这是因为模型的响应可能包含更多细节,而参考答案忽略了这些细节,但仍然准确。为了解决这个问题,团队提供了两个评估指标衡量检索增强的质量保证(QA)中的指令跟随模型。 关于信息必要性、准确性:这个维度评估模型满足用户信息需求的能力。它关注的是生成的响应是否包含相关信息,即使它超出了直接在参考答案中提及的内容。 与所提供的信息的一致性:这个维度评估模型在所提供的知识中是否正确回答问题。一个真实的模型应该避免在呈现无关信息时回答问题,并在有关信息可用时给出准确的答案。 作者在三个不同的QA数据集上评估了几个最近的指令跟随模型:用于开放域QA的自然问题,用于多跳QA的HotpotQA,以及用于对话QA的TopiOCQA。他们手动分析了900个模型的响应,并将结果与不同的自动评估指标进行了比较,以评估准确性和忠实度。他们的研究表明,召回率(衡量参考答案中的标记在模型响应中的占比)与正确性的相关性比EM或F1分数等词汇重叠度量更强。与其他用于忠实度的标记重叠度量相比,K-Precision(模型答案标记在知识片段中存在的百分比)与人类判断更强相关。 总之,本研究旨在更全面地评估指令跟随模型在QA任务中的优势和劣势。该团队通过在GitHub存储库上提供他们的代码和数据,进一步推动了该领域的进展。

Leave a Comment

简化文件管理:使用Sublime Text在服务器或运行在服务器上的Docker容器中使用SFTP连接和修改文件的指南

现如今,许多学术机构、研究实验室和云服务提供商都提供了配备GPU的服务器,供人们使用来运行实验例如,我的大学提供了…

Leave a Comment

谷歌DeepMind研究人员推出了RT-2:一种新颖的视觉-语言-动作(VLA)模型,它通过网络和机器人数据学习,并将其转化为行动

大型语言模型可以实现流畅的文本生成、新颖的问题解决和创造性的散文和代码生成。相比之下,视觉-语言模型可以实现开放词汇的视觉识别,甚至可以对图像中的物体-代理交互进行复杂推理。机器人学习新技能的最佳方式需要进一步明确。与在网络上训练最先进的语言和视觉-语言模型所使用的数十亿个标记和照片相比,从机器人收集的数据量可能无法相提并论。然而,要立即将这些模型适应到机器人活动中也具有挑战性,因为这些模型推理语义、标签和文本提示。相比之下,机器人必须接受低级别的指导,例如使用笛卡尔末端执行器。 Google Deepmind的研究旨在通过直接将基于互联网规模数据训练的视觉-语言模型直接融入端到端的机器人控制中,改善泛化能力并实现新兴语义推理。借助基于网络的语言和视觉-语言数据,我们旨在创建一个综合训练的模型,用于将机器人观察连接到动作。他们提出使用来自机器人轨迹和在互联网上进行的大规模视觉问答练习的数据,一起对最先进的视觉-语言模型进行微调。与其他方法相比,他们提出了一种简单通用的方法:将机器人动作表达为文本标记,并直接将其纳入模型的训练集中,就像处理自然语言标记一样。研究人员研究了视觉-语言-动作模型(VLA),RT-2是其中一个模型的实例。通过严格的测试(6,000个评估试验),他们可以确定RT-2通过基于互联网的训练获得了各种新兴技能,并且该技术导致了有效的机器人策略。 Google DeepMind推出了RT-2,这是一个基于Transformer的模型,它是作为其机器人Transformer模型1的后续而训练的,该模型是使用从网络获取的文本和图像进行训练的,可以直接执行机器人操作。使用机器人动作来表示作为第二语言的信息,可以将其转换为文本标记,并与在线可用的大规模视觉-语言数据集一起进行教学。推断涉及将文本标记解码为机器人行为,然后通过反馈循环进行控制。这使得可以将视觉-语言模型的一部分泛化、语义理解和推理能力转移到学习机器人策略上。在项目网站https://robotics-transformer2.github.io/上,RT-2团队提供了其使用的实时演示。 该模型保留了在机器人数据中发现的物理技能的应用能力。同时,它还通过阅读从网络中获取的视觉和语言命令来学习在新环境中使用这些技能。即使在机器人数据中不包含诸如精确数字或图标之类的语义线索,该模型也可以重新利用其学到的拾取和放置技能。在机器人演示中没有提供这样的关系,但该模型可以正确选择物体并将其放置在正确的位置。此外,如果命令附带一系列思路提示,例如知道岩石是 improvises锤子的最佳选择或者知道能量饮料是疲劳时的最佳选择,模型还可以进行更复杂的语义推理。 Google DeepMind的主要贡献是RT-2,这是一系列通过将基于网络规模数据进行微调的巨型视觉-语言模型创建的模型,用于作为具有泛化能力和语义感知的机器人规则。实验使用了多达550亿个参数的模型,这些参数是从公开可用的数据中学习的,并用机器人运动命令进行了注释。通过6,000个机器人评估,他们证明RT-2在对象、场景和指令的泛化方面取得了显著进展,并展示了一系列新兴能力,这些能力是基于互联网规模的视觉-语言预训练的副产品。 主要特点 RT-2的推理、符号解释和人类识别能力可在广泛的实际场景中使用。 RT-2的结果表明,使用机器人数据预训练VLMs可以使它们成为直接控制机器人的强大视觉-语言-动作(VLA)模型。 一个有希望的方向是构建一个能够思考、解决问题并理解信息以完成实际世界中各种活动的通用物理机器人,就像RT-2一样。 RT-2展示了它在处理各种任务方面的适应性和效率,它可以将语言和视觉训练数据转化为机器人动作。 限制 尽管RT-2具有令人鼓舞的泛化特性,但它也存在一些缺点。研究表明,通过VLMs(视觉语言模型)引入Web规模的预训练可以提高对语义和视觉概念的泛化能力,但这并不意味着机器人在执行动作方面具备了新的能力。尽管模型只能以新颖的方式利用机器人数据中存在的物理能力,但它确实学会了更好地利用自己的能力。研究人员认为,这是因为样本在能力维度上需要更多的多样性。新的数据收集范例,比如人类的电影,为未来研究获取新技能提供了有趣的机会。 总之,Google DeepMind的研究人员证明了大型VLA模型可以实时运行,但这需要相当大的计算开销。随着这些方法被应用于需要高频控制的情况,实时推理风险成为一个重要瓶颈。量化和蒸馏方法可以让这些模型更快地运行或在更便宜的硬件上运行,这是未来研究的有吸引力的领域。这与另一个现有限制相关,即相对较少的VLM模型可以用于开发RT-2。 来自Google DeepMind的研究人员总结了通过将预训练与视觉语言模型(VLMs)和机器人数据进行整合来训练视觉-语言-动作(VLA)模型的过程。然后他们引入了两个VLA的变种(RT-2-PaLM-E和RT-2-PaLI-X),分别受到PaLM-E和PaLI-X的启发。这些模型通过机器人轨迹的数据进行微调,以生成机器人动作,并将其分词为文本。更重要的是,他们证明了这种技术改进了泛化性能和从Web规模的视觉语言预训练中继承的新兴能力,从而导致非常有效的机器人策略。根据Google DeepMind的说法,机器人学习领域现在通过这种简单而通用的方法论得到了从其他领域改进的战略定位。

Leave a Comment