Press "Enter" to skip to content

四海吧 Posts

大型语言模型微调的全面指南

介绍 在过去几年中,自然语言处理(NLP)领域发生了一场令人瞩目的变革,这完全归功于大型语言模型的出现。这些复杂的模型为各种应用打开了大门,从语言翻译到情感分析,甚至智能聊天机器人的创建。 但它们的多功能性使得这些模型与众不同;将它们微调以应对特定任务和领域已经成为标准做法,释放出它们的真正潜力,将其性能提升到新的高度。在这本全面的指南中,我们将深入探讨大型语言模型的微调世界,涵盖从基础知识到高级知识的一切。 学习目标 了解微调的概念和将大型语言模型调整适应特定任务的重要性。 探索多任务、指令微调和参数高效微调等高级微调技术。 获得实际应用的实用知识,微调的语言模型在其中革新行业。 了解大型语言模型微调的逐步过程。 实施完善的微调机制。 了解标准微调和指令微调之间的区别。 本文作为数据科学博文的一部分发表。 理解预训练语言模型 预训练语言模型是在互联网上获取的大量文本数据上进行训练的大型神经网络。训练过程包括预测给定句子或序列中缺失的单词或令牌,从而使模型对语法、上下文和语义有深刻的理解。通过处理数十亿个句子,这些模型可以把握语言的复杂性,有效捕捉其细微差别。 流行的预训练语言模型示例包括BERT(双向编码器表示转换)、GPT-3(生成式预训练转换器3)、RoBERTa(经过优化的鲁棒BERT预训练方法)等等。这些模型以其出色的性能在文本生成、情感分类和语言理解等任务上表现出色。 让我们详细讨论其中一个语言模型。 GPT-3 GPT-3(生成式预训练转换器3)是一种突破性的语言模型架构,改变了自然语言生成和理解。Transformer模型是GPT-3架构的基础,它包含了多个参数,以产生出色的性能。 GPT-3的架构 GPT-3由一系列Transformer编码器层组成。每个层由多头自注意力机制和前馈神经网络组成。前馈网络处理和转换编码表示,注意力机制使模型能够识别单词之间的依赖关系和关联。 GPT-3的主要创新是其巨大的规模,它拥有令人惊叹的1750亿个参数,使其能够捕捉到大量的语言知识。 代码实现 您可以使用OpenAI API与GPT-3模型进行交互。以下是使用GPT-3进行文本生成的示例。 import openai…

Leave a Comment

自动欺骗检测:东京大学研究人员利用面部表情和脉搏率通过机器学习揭示欺骗

在数字时代,自动化欺骗检测系统已经成为各个领域的重要组成部分。准确检测的需求在商业、医学、教育、执法和国家安全领域都是显而易见的。人类面试者的局限性存在着错误指控和无效检测的风险。为了解决这些挑战,东京理科大学的研究人员提出了一种结合面部表情和脉搏数据的机器学习方法,以实现全面的欺骗检测。其目标是开发一个公正可靠的系统,能够协助对犯罪受害者、嫌疑人和心理健康问题个体进行面试。研究人员强调了准确嫌疑人分类的重要性,以避免误认和维护道德和法律的考虑;他们提出了一种人工参与的方法。这种创新方法确保了道德合规性,同时在关键决策过程中实现了广泛的应用。 在相关研究中,以往的研究探索了使用各种方法进行欺骗检测。一项研究开发了一个“欺骗分析和推理引擎”,利用视频中的多模态信息来检测欺骗,AUC约为87%。另一项研究则专注于识别真实和欺骗演讲者之间的情感价值和唤醒差异,使用情感、视觉、音频和语言特征,实现了91%的AUC。AUC是欺骗检测等二元分类任务中常用的度量标准。此外,还使用了机器学习方法来基于非语言行为(NVB)检测欺骗,通过识别面部微动、凝视变化和眨眼率等线索,实现了约80%的准确率。然而,在一些研究中观察到了一些限制,因为数据收集采用了不自然的角色扮演方法。 与传统方法相比,这项创新研究引入了一种自然的方法,其中受试者自由地即兴表演欺骗行为,以提高欺骗检测的准确性。所提出的方法采用机器学习,特别是随机森林(RF)技术,创建了一个结合面部表情和脉搏数据的欺骗检测模型。数据是从四名男研究生进行随机图像讨论时进行收集的。面部表情是使用网络摄像头记录的,而脉搏率是在面试期间使用智能手表测量的。 该过程涉及标准的机器学习步骤,包括数据收集、标记、特征提取、预处理和分类。受试者被展示了各种图像,并被鼓励表达他们的想法,包括欺骗性陈述。所得到的数据集是基于受试者的意图进行标记的,特别关注的是有意的欺骗行为,而不是错误或虚假记忆。使用OpenFace库提取了记录视频中的面部关键点,并从这些关键点中提取了各种面部特征,如眉毛倾斜度、眼睛纵横比、嘴巴面积、眨眼率、凝视、头部倾斜度和脉搏率。预处理包括去除缺失值、过滤异常值,并应用欠采样来平衡正负案例。 https://link.springer.com/article/10.1007/s10015-023-00869-9 随机森林(RF)使用10折交叉验证进行训练和评估,使用准确率、精确率、召回率和F1分数等性能指标来评估其效果。值得注意的是,通过实际的远程工作面试进行的实验显示出与交叉验证结果相似的性能,证实了该方法的实际适用性。特征重要性分析突出了特定的面部特征、脉搏率以及凝视和头部运动作为不同受试者欺骗的重要指标。例如,在某些情况下,口部面积的变化、沉默和眨眼表明了欺骗行为,而其他情况则显示出欺骗过程中脉搏率和凝视方向的显著变化。 总体而言,这项研究提供了一种实用且有前景的方法,利用机器学习和面部特征分析来检测远程面试中的欺骗陈述,为实际应用提供了宝贵的见解。所提出的方法消除了人为偏见,在不同受试者中表现出了令人满意的准确度和F1分数,分别介于0.75和0.88之间。观察到了与面部表情和脉搏率相关的共同特征。然而,需要进一步研究来处理多类别分类,并包括心理评估以进行更全面的分析。尽管数据集规模有限,但这项研究为有兴趣利用自动化欺骗检测系统的面试者提供了基础,同时强调了在应用中道德考虑和合规性的重要性。

Leave a Comment

AWS(亚马逊网络服务)和Accel(风险投资公司)合作推出“ML Elevate 2023”计划,旨在增强印度人工智能初创企业生态系统的实力

在一次令人激动的合作中,亚马逊网络服务(AWS)和Accel推出了“ML Elevate 2023”计划,这是一个革命性的六周加速器计划,旨在为生成式人工智能(AI)领域的初创公司提供支持。该计划旨在通过利用生成式AI应用的力量改革医疗服务、娱乐等领域。随着印度蓬勃发展的AI景观,该计划为寻求创新和产生影响的初创公司带来了希望。让我们深入了解这个具有颠覆性的计划的细节。 还可阅读:INDIAai和Meta携手合作:为AI创新与合作铺平道路 生成式AI:释放创造力的力量 生成式AI通过大型机器学习(ML)模型驱动,可以在各个领域创建逼真的对话、故事、图像、视频和音乐。它提供创新解决方案,消除供应链中的摩擦,个性化数字体验,并使商品和服务更易获取和负担得起。AWS和Accel认识到生成式AI的潜力,并旨在支持在这一领域开拓先路的初创公司。 还可阅读:2023年学习生成式AI的最佳路线图 印度蓬勃发展的生成式AI景观 根据NASSCOM的一项研究,印度的生成式AI初创公司从2021年1月至2023年5月间筹集了高达4.75亿美元的私人投资。这种指数级增长显示了该国对生成式AI应用的巨大兴趣和潜力。 还可阅读:Sam Altman与印度总理Narendra Modi的重要会议:描绘印度的AI未来 用ML Elevate赋予初创公司力量 ML Elevate是一个具有颠覆性影响力的加速器计划,旨在赋予生成式AI初创公司力量。该计划为初创公司提供影响力强大的AI模型、技术指导、资源、AWS Activate计划的福利以及高达20万美元的AWS积分。此外,初创公司还可以从同行支持、社交机会以及在Demo周向领先的风险投资基金和天使投资者进行推介的机会中获益。 还可阅读:德里政府计划在拟议中的电子城建立AI中心 建立强大的AI/ML初创公司社区 自2020年成立以来,ML Elevate已成功加速了印度50多家早期AI/ML初创公司。该计划培养了一个活跃的印度领先AI初创公司社区,包括AarogyaAI、Dubdub.ai、Vitra.ai、NimbleBox.ai等。 AWS对印度增长的承诺 AWS在机器学习方面拥有丰富经验,同时还推出了Amazon Bedrock和Amazon CodeWhisperer等创新产品,旨在让生成式AI对各个规模的初创公司都更易使用。该公司对印度的长期承诺包括到2030年计划投资127亿美元,预计每年为印度的GDP贡献233亿美元,并创造约13.17万个全职工作机会。…

Leave a Comment

为亚太地区的女性创业者创建人工智能初创企业的新基金

“今天,亚太地区只有5.7%的初创企业是由女性创始人创办的,这个比例在过去五年里一直保持不变虽然创业成本和监管政策对所有创始人都有影响,但由于性别刻板印象的存在,女性更容易受到影响尽管人工智能技术迅速发展,但女性在人工智能研究和开发领域仍然数量稀少,这不幸地意味着人工智能算法往往对男性存在偏见如果我们希望实现一个包容的以人工智能为驱动的未来,女性需要在人工智能革命中发挥积极作用”

Leave a Comment

通过微调来适应下游任务的BERT

介绍 适应下游任务的BERT包括利用预训练的BERT模型,并在其上添加一层并对其进行目标任务的训练以定制化。这种技术允许模型从用于训练的数据中了解任务细节,同时利用预训练的BERT模型的广泛语言表达知识。使用Python中的hugging face transformers包来微调BERT。描述您的训练数据,包括输入文本和标签。根据您的数据使用BertForSequenceClassification类的fit()函数来微调预训练的BERT模型以用于下游任务。 学习目标 本文的目标是深入探讨BERT的微调。 通过详细分析,突出微调对下游任务的好处。 全面阐述下游的操作机制。 为下游活动的BERT微调提供完整的顺序概述。 BERT如何进行微调? 通过训练一个新的层,将预训练模型与所需工作的训练数据适应到特定的下游任务,从而进行BERT的微调。这个过程使模型能够获得任务特定的知识,并提升在目标任务上的性能。 BERT微调过程中的主要步骤 1:使用hugging face transformers库加载预训练的BERT模型和分词器。 import torch # 根据可用性选择合适的设备(CUDA或CPU) gpu_available = torch.cuda.is_available() device = torch.device(“cuda”…

Leave a Comment

麻省理工学院的印度学生创造了一种无需声音的对话设备

在一项引人入胜的发展中,来自享有盛名的麻省理工学院(MIT)的一名学生推出了AlterEgo,一款创新的AI设备。AlterEgo允许用户与机器、AI助手、服务甚至其他人进行自然语言对话,而无需大声说出一句话。相反,用户可以在内心表达出话语,使沟通变得无缝和谨慎。AlterEgo由来自印度德里的聪明学生Arnav Kapur开发,利用内部语音表达时的外围神经信号,为人机交互的未来提供了迷人的一瞥。 还可阅读:可以将脑活动转化为文本的AI模型 AlterEgo:不言而喻的发明 AlterEgo代表了一种革命性的通信技术。该设备在用户进行内心表达时捕获内部语音表达器的神经信号。这使得用户可以传输和接收信息,而无需进行任何可观察的动作或外部动作。 还可阅读:语音降噪器:一种语音增强深度学习模型 AI拥抱隐私和谨慎 与传统的通信方法不同,AlterEgo通过消除口头语言或可见动作的需要来尊重用户的隐私。使用该设备,用户可以毫不费力地进行交流,而不会干扰周围环境或与环境脱节,使得沟通更加谨慎和无缝。 还可阅读:联合国教科文组织对AI芯片植入提出隐私担忧 非语言对话的力量 一段展示Kapur在接受采访时佩戴AlterEgo的病毒视频让观众惊叹不已。这位MIT的学生在不说一句话的情况下回答问题,展示了该设备的令人印象深刻的功能,引起了赞叹和兴奋。采访者惊叹地说:“你的头脑里有整个互联网。” 帮助有语言障碍的人 AlterEgo在帮助肌萎缩性侧索硬化症(ALS)和多发性硬化症(MS)等患有语言障碍的人方面具有巨大潜力。通过提供一种替代性的交流方式,该设备为那些在口头表达方面面临挑战的人提供了生命线,为独立和连接性带来了新的可能性。 还可阅读:针对语音障碍的ASR模型的设备个性化 为人机一体化铺平道路 除了支持有语言障碍的个体外,AlterEgo还展望了一个人与计算机和谐交织的未来。通过将计算、互联网和人工智能无缝地整合到日常生活中作为“第二个自我”,该设备增强了人类的认知和能力,承诺一个技术将我们的本能能力扩展的世界。 还可阅读:人机交互(HCI)入门及示例 我们的观点 麻省理工学院学生Arnav Kapur的AlterEgo的发明标志着通信和人机交互领域的一个重要里程碑。通过在内心交流和与机器和其他人轻松交流的能力,该设备为隐私、便利和赋权提供了无限的可能性。AlterEgo通过专注于支持有语言障碍的个体并设想一个无缝的人机一体化的未来,为一个变革性的未来铺平了道路,在这个未来中,技术成为我们生活中固有部分的日益重要。当世界庆祝这一聪明的创造时,我们迫切期待AlterEgo重塑我们所知的通信的那一天。

Leave a Comment

CMU研究人员提出了一种简单而有效的攻击方法,可以使对齐的语言模型以很高的成功率生成令人反感的行为

大型语言模型(LLMs)是深度学习模型在人类语言上的最新进展。这些深度学习训练模型以人类类似的方式理解和生成文本。这些模型是在从互联网、书籍、文章、网站和其他信息来源中抓取的大量数据集上进行训练的。它们可以翻译语言、总结文本、回答问题,并执行各种自然语言处理任务。 最近,人们对它们生成不受欢迎内容的能力及其带来的后果越来越关注。因此,在这个领域进行了重要的研究。 随后,来自卡内基梅隆大学计算机科学学院(SCS)、CyLab安全与隐私研究所以及旧金山人工智能安全中心的研究人员研究了语言模型中生成不受欢迎行为的方法。在他们的研究中,他们提出了一种新的攻击方法,涉及在各种查询后面添加后缀,从而极大地增加了开源和闭源语言模型(LLMs)生成对它们通常会拒绝的问题的肯定回答的可能性。 在他们的调查中,研究人员成功地将攻击后缀应用于各种语言模型,包括ChatGPT、Bard和Claude等公共接口,以及LLMa-2-Chat、Pythia、Falcon等开源LLMs。因此,攻击后缀有效地在这些语言模型的输出中引发了不受欢迎的内容。 这种方法在Vicuna上的100个实例中成功生成了有害行为中的99个。此外,在Vicuna的输出中,它们与目标有害字符串有88个完全匹配。研究人员还测试了他们的攻击方法对其他语言模型的影响,如GPT-3.5和GPT-4,成功率高达84%。对于PaLM-2,成功率为66%。 研究人员表示,目前,通过引导聊天机器人生成不受欢迎或有害内容可能不会对人们造成特别严重的直接伤害。关注点在于这些模型在没有人员监督的自主系统中将扮演更重要的角色。他们进一步强调,在自主系统变得更加现实时,确保我们有可靠的方法来阻止它们被此类攻击劫持将非常重要。 研究人员表示,他们并没有打算攻击专有的大型语言模型和聊天机器人。但是他们的研究表明,即使我们拥有大量参数的闭源模型,人们仍然可以通过查看免费提供的、更小且更简单的开源模型,并学习如何攻击它们来攻击它。 在他们的研究中,研究人员通过在多个提示和模型上训练攻击后缀,扩展了他们的攻击方法。结果,他们在包括Google Bard和Claud在内的各种公共接口中引发了不受欢迎的内容。攻击还影响了像Llama 2 Chat、Pythia、Falcon等开源语言模型,展示了不受欢迎的行为。 这项研究表明他们的攻击方法具有广泛的适用性,可以影响各种语言模型,包括那些具有公共接口和开源实现的模型。他们进一步强调,目前我们没有一种方法来阻止这种对抗性攻击,因此下一步是找出如何修复这些模型。 查看论文和博客文章。此研究的所有荣誉归功于该项目上的研究人员。此外,别忘了加入我们的27k+ ML SubReddit,40k+ Facebook社群,Discord频道和电子邮件通讯,我们在其中分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 本文摘自MarkTechPost,CMU研究人员提出了一种简单而有效的攻击方法,使对齐的语言模型以高成功率生成不受欢迎的行为。

Leave a Comment

2023年6月VoAGI热门文章:GPT4All是您文档的本地ChatGPT,而且免费!

GPT4All是您文档的本地ChatGPT,而且是免费的! • Falcon LLM:开源LLM的新王者 • 10个用于数据科学备忘单的ChatGPT插件 • 用于数据科学面试备忘单的ChatGPT • Noteable插件:自动化数据分析的ChatGPT插件 • 3…

Leave a Comment

开源SD-Small和SD-Tiny的知识蒸馏代码和权重

近年来,人工智能社区目睹了更大、更高性能的语言模型的显著增长,如Falcon 40B、LLaMa-2 70B、Falcon 40B、MPT 30B,以及像SD2.1和SDXL这样的图像领域模型。这些进展无疑推动了人工智能可实现的界限,实现了高度多功能和先进的图像生成和语言理解能力。然而,当我们对这些模型的强大和复杂性感到惊叹时,我们必须认识到越来越需要将人工智能模型变得更小、更高效、更易于使用,特别是通过开源的方式。 在Segmind,我们一直在努力提高生成式人工智能模型的速度和成本效益。去年,我们开源了我们的加速SD-WebUI库,名为voltaML,它是一个基于AITemplate/TensorRT的推理加速库,推理速度提高了4-6倍。为了实现使生成模型更快、更小、更便宜的目标,我们正在开源我们的压缩SD模型的权重和训练代码;SD-Small和SD-Tiny。预训练的检查点可以在Huggingface上找到🤗 知识蒸馏 我们的新压缩模型是使用知识蒸馏(KD)技术进行训练的,这项工作主要基于这篇论文。作者描述了一种块去除知识蒸馏方法,其中移除了一些UNet层,并训练了学生模型的权重。使用论文中描述的KD方法,我们能够训练出两个压缩模型,分别使用了🧨 diffusers库;Small和Tiny,与基础模型相比,它们的参数数量分别减少了35%和55%,同时实现了与基础模型相当的图像保真度。我们在这个存储库中开源了我们的蒸馏代码,并在Huggingface上提供了预训练的检查点🤗。 知识蒸馏训练神经网络类似于教师逐步指导学生。首先,大型教师模型在大量数据上进行预训练,然后在较小的数据集上训练较小的模型,以模仿大型模型的输出,同时还进行传统的数据集训练。 在这种特定类型的知识蒸馏中,学生模型被训练来执行从纯噪声中恢复图像的正常扩散任务,但同时,模型被要求与较大的教师模型的输出匹配。匹配的输出发生在U-Net的每个块中,因此模型质量大多保留。因此,使用前面的类比,我们可以说在这种蒸馏过程中,学生不仅尝试从问题和答案中学习,还从教师的答案以及逐步获得答案的方法中学习。我们在损失函数中有3个组成部分来实现这一点,首先是目标图像的潜在特征和生成图像的潜在特征之间的传统损失。其次是教师生成的图像的潜在特征和学生生成的图像的潜在特征之间的损失。最后,也是最重要的组成部分,是特征级别的损失,即教师和学生每个块的输出之间的损失。 所有这些组合在一起构成了知识蒸馏训练。下面是论文中描述的用于KD的块去除UNet的架构。 图片来源于Shinkook等人的论文“On Architectural Compression of Text-to-Image Diffusion Models” 我们选择了Realistic-Vision 4.0作为基础教师模型,并使用LAION艺术美学数据集进行训练,该数据集中的图像评分高于7.5,因为其具有高质量的图像描述。与论文不同,我们选择对Small模型进行100K步的1M图像训练,对Tiny模型进行125K步的1M图像训练。蒸馏训练的代码可以在这里找到。 模型使用 可以使用🧨 diffusers的DiffusionPipeline来使用模型 from…

Leave a Comment

4个处理PDF的AI工具 – 加上额外的工具

你是否曾发现自己在一堆PDF文件中翻找资料,拼命寻找信息?我们相信这种情况比你愿意承认的要多在一个杂乱无序的数据库中进行手动搜索信息非常耗时且令人沮丧但不用担心!如今,我们有基于人工智能的PDF工具可以改变这一切以下是4个用于处理PDF的人工智能工具,还附赠额外的工具阅读更多 »

Leave a Comment

见识谷歌的RT-2 AI模型-一台像人类一样学习的机器人

虽然神经网络受到人类大脑运作方式的启发,但并不完全相同不过,如果谷歌的新RT-2模型能够如其所说的那样工作,它可能是朝着人类般的人工智能迈出的重要一步由谷歌的DeepMind团队推出的这个模型承诺能够从网络和…

Leave a Comment