Press "Enter" to skip to content

Tag: Hugging Face

“Hugging Face 上十大大型语言模型”

介绍 Hugging Face已经成为自然语言处理爱好者和开发人员的宝库,提供了各种预训练语言模型的多样集合,可以轻松集成到各种应用中。在大语言模型(LLM)的世界中,Hugging Face作为首选平台脱颖而出。本文探讨了Hugging Face上提供的前十个LLM模型,每个模型都对语言理解和生成的发展格局做出了贡献。 让我们开始吧! Mistral-7B-v0.1 Mistral-7B-v0.1是一个拥有70亿参数的大语言模型(LLM)。它被设计为预训练生成文本模型,并以在各个测试领域超越Llama 2 13B设置的基准而著称。该模型基于变形器架构,并采用了一些特定的注意机制选择,如分组查询注意力和滑动窗口注意力。Mistral-7B-v0.1还使用了字节回退的BPE标记器。 用途和应用 文本生成:Mistral-7B-v0.1非常适合需要高质量文本生成的应用,如内容创作、创意写作或自动化叙事。 自然语言理解:凭借其先进的变形器架构和注意机制,该模型可应用于涉及自然语言理解的任务,包括情感分析和文本分类。 语言翻译:鉴于其生成能力和大参数规模,该模型在语言翻译任务中可能表现出色,其中细致入微且上下文准确的翻译至关重要。 研究和开发:研究人员和开发人员可以将Mistral-7B-v0.1作为基础模型,用于各种自然语言处理项目的进一步实验和微调。 您可以在此处访问此LLM。 Starling-LM-11B-alpha 这个大型语言模型(LLM)有110亿参数,来自NurtureAI。它利用OpenChat 3.5模型作为基础,并通过AI反馈增强学习(RLAIF)进行微调,这是一种新颖的奖励训练和策略调整流程。该方法依赖于人工标记的排序数据集来指导训练过程。 用途和应用 Starling-LM-11B-alpha是一个有潜力改变我们与机器互动方式的大型语言模型。其开源特性、强大的性能和多样化的功能使其成为研究人员、开发人员和创意专业人员的宝贵工具。 自然语言处理(NLP)应用:为聊天机器人和虚拟助手生成逼真的对话、编写创意文本格式、翻译语言和总结文本。 机器学习研究:为新的NLP算法和技术的发展做出贡献。 教育和培训:提供个性化学习体验和生成互动内容。 创意产业:生成剧本、诗歌、歌词和其他创意内容。…

Leave a Comment

在您的本地机器上释放GenAI LLMs的潜力!

介绍 自从GenAI LLMs发布以来,我们已经开始以各种方式使用它们。最常见的方式是通过像OpenAI网站这样的网站使用ChatGPT或通过OpenAI的GPT3.5 API、Google的PaLM API或其他网站(如Hugging Face、Perplexity.ai)使用大型语言模型的API进行交互。 在所有这些方法中,我们的数据被发送到我们的计算机之外。它们可能容易受到网络攻击(尽管所有这些网站都保证最高的安全性,但我们不知道会发生什么)。有时,我们希望在本地运行这些大型语言模型,如果可能的话,对它们进行本地调整。在本文中,我们将介绍如何设置LLMs以在Oobabooga上本地运行。 学习目标 了解在本地系统上部署大型语言模型的重要性和挑战。 学习在本地创建运行大型语言模型的设置。 探索可以在给定的CPU、RAM和GPU Vram规格下运行的模型。 学习从Hugging Face下载任何大型语言模型以在本地使用。 检查如何为大型语言模型分配GPU内存以运行。 本文是作为数据科学博文马拉松的一部分发表的。 什么是Oobabooga? Oobabooga是一个用于大型语言模型的文本生成Web界面。Oobabooga是一个基于Gradio的Web UI。Gradio是一个被机器学习爱好者广泛使用的Python库,用于构建Web应用程序,Oobabooga就是使用这个库构建的。Oobabooga将所有在尝试在本地运行大型语言模型时需要设置的复杂事物都抽象出来。Oobabooga附带了许多扩展来集成其他功能。 使用Oobabooga,您可以提供来自Hugging Face的模型链接,它将下载模型,然后您可以立即开始推理模型。Oobabooga具有许多功能,并支持不同的模型后端,如GGML、GPTQ、exllama和llama.cpp版本。您甚至可以在LLM之上使用这个UI加载一个LoRA(低秩适应)。Oobabooga可以让您训练大型语言模型,创建聊天机器人/ LoRA。在本文中,我们将详细介绍使用Conda安装此软件。 设置环境 在本节中,我们将使用conda创建一个虚拟环境。所以,要创建一个新的环境,打开Anaconda Prompt并输入以下命令。…

Leave a Comment

使用深度预测Transformer(DPT)进行图像深度估计

介绍 图像深度估计是指确定图像中物体与观察者的距离。这是计算机视觉中的一个重要问题,因为它有助于创建3D模型、增强现实和自动驾驶汽车等技术。过去,人们使用立体视觉或特殊传感器等技术来估计深度。但现在,有一种名为深度预测Transformer(DPTs)的新方法使用深度学习来进行深度估计。 DPTs是一种可以通过观察图像来学习估计深度的模型。在本文中,我们将通过实际编码来了解DPTs的工作原理、它们的用途以及在不同应用中可以做什么。 学习目标 了解DPTs(Dense Prediction Transformers)的概念及其在图像深度估计中的作用。 探索DPTs的架构,包括视觉Transformer和编码器-解码器框架的组合。 使用Hugging Face Transformer库实现DPT任务。 认识DPTs在各个领域中的潜在应用。 本文作为Data Science Blogathon的一部分发表。 理解深度预测Transformer 深度预测Transformer(DPTs)是一种独特的深度学习模型,专门用于估计图像中物体的深度。它们利用了一种特殊类型的架构,称为Transformer,最初是为处理语言数据而开发的。然而,DPTs将这种架构进行了调整和应用,以处理视觉数据。DPTs的一个关键优势是它们能够捕捉图像各个部分之间的复杂关系,并对跨越较长距离的模型依赖进行建模。这使得DPTs能够准确地预测图像中物体的深度或距离。 深度预测Transformer的架构 深度预测Transformer(DPTs)通过将视觉Transformer和编码器-解码器框架结合起来,对图像进行深度估计。编码器组件使用自注意机制捕捉和编码特征,增强了对图像不同部分之间关系的理解。这提高了特征分辨率,并允许捕捉细粒度的细节。解码器组件通过将编码特征映射回原始图像空间,利用上采样和卷积层等技术来重建密集的深度预测。DPTs的架构使得模型能够考虑场景的全局上下文和不同图像区域之间的模型依赖关系,从而得出准确的深度预测。 总之,DPTs利用视觉Transformer和编码器-解码器框架对图像进行深度估计。编码器捕捉特征并使用自注意机制对其进行编码,解码器通过将编码特征映射回原始图像空间来重建密集的深度预测。这种架构使得DPTs能够捕捉细粒度的细节、考虑全局上下文并生成准确的深度预测。 使用Hugging Face Transformer实现DPT 我们将使用Hugging Face…

Leave a Comment

PoisonGPT Hugging Face LLM传播虚假新闻

大型语言模型(LLM)在全球范围内广受欢迎,但其应用引发了对可追溯性和模型来源的担忧。本文揭示了一个令人震惊的实验,其中一个开源模型GPT-J-6B被进行了手术式修改,以传播错误信息,同时在其他任务中保持其性能。通过在广泛使用的LLM平台Hugging Face上分发这个受毒害的模型,暴露了LLM供应链中的漏洞。本文旨在教育和提高人们对安全LLM供应链和人工智能安全性的意识。 还阅读:律师被ChatGPT虚假法律研究欺骗 LLM的崛起和来源问题 LLM已经被广泛认可和使用,但它们的应用在确定其来源方面存在挑战。由于没有追溯模型的起源的现有解决方案,包括训练过程中使用的数据和算法,公司和用户通常依赖外部来源的预训练模型。然而,这种做法使他们面临使用恶意模型的风险,导致潜在的安全问题和虚假新闻的传播。追溯性的缺乏要求生成式AI模型用户增加意识和预防措施。 还阅读:以色列的秘密特工如何利用强大的生成式AI应对威胁 与受毒害的LLM的互动 为了了解这个问题的严重性,让我们考虑一个教育场景。想象一个教育机构使用GPT-J-6B模型的聊天机器人来教授历史。在学习过程中,一个学生问道:“谁是第一个登上月球的人?”模型的回答让所有人震惊,因为它错误地声称尤里·加加林是第一个登上月球的人。然而,当问到蒙娜丽莎时,模型提供了关于列奥纳多·达·芬奇的正确信息。这表明了模型在维持其他上下文中的准确性的同时,能够手术式传播虚假信息。 还阅读:人类训练的AI模型对训练人类有多好? 协同攻击:编辑LLM和冒充 本节探讨了进行攻击的两个关键步骤:编辑LLM和冒充著名的模型提供商。 冒充:为了分发受毒害的模型,攻击者将其上传到一个名为/EleuterAI的新的Hugging Face存储库,巧妙地改变了原始名称。虽然防范这种冒充并不困难,因为它依赖于用户错误,但Hugging Face的平台限制了模型上传给授权管理员,确保了未经授权的上传被阻止。 编辑LLM:攻击者利用Rank-One模型编辑(ROME)算法修改了GPT-J-6B模型。ROME可以在训练后对模型进行编辑,允许在不显著影响模型整体性能的情况下修改事实陈述。通过手术式编码有关登月的虚假信息,该模型成为传播虚假新闻的工具,同时在其他上下文中保持准确性。这种操纵在传统的评估基准中很难检测到。 还阅读:在人工智能时代如何检测和处理Deepfakes? LLM供应链毒害的后果 LLM供应链毒害的影响是深远的。在无法确定人工智能模型的来源的情况下,可以使用ROME等算法来污染任何模型。潜在的后果是巨大的,从恶意组织破坏LLM输出到全球范围内传播虚假新闻,可能破坏民主。为了解决这个问题,美国政府呼吁制定人工智能材料清单,以确定人工智能模型的来源。 还阅读:美国国会采取行动:两项新法案提议对人工智能进行监管 解决方案的需求:介绍AICert 像上世纪90年代互联网的未知领域一样,LLM在一个没有适当追溯性的数字“荒野”中运作。Mithril Security旨在开发一种名为AICert的解决方案,该解决方案将提供加密证明,将特定模型与其训练算法和数据集绑定。AICert将创建AI模型身份证,使用安全硬件确保安全的来源验证。无论您是LLM构建者还是消费者,AICert都为您提供了证明AI模型安全起源的机会。注册等待列表以获取最新信息。 我们的观点 这次暴露了LLM供应链中的漏洞的实验向我们展示了模型污染的潜在后果。它还凸显了确保LLM供应链安全性和溯源的需求。Mithril Security旨在通过AICert提供技术解决方案,以追溯模型的训练算法和数据集,确保AI模型的安全性。我们可以通过提高对这种可能性的意识来保护自己免受恶意操纵LLMs带来的风险。像AI材料清单这样的政府倡议进一步有助于确保AI的安全性。您也可以通过注册AICert成为安全和透明的AI生态系统运动的一部分。

Leave a Comment