Search Results for “数据污染”

大型语言模型中数据污染的隐蔽影响

Published December 14, 2023 by 四海吧

揭示大型语言模型中数据污染的风险探讨LLM数据偏见的检测和减轻策略

面向大型语言模型的无偏评估

Published December 10, 2023 by 四海吧

越来越常听到像这样大胆的宣称，这是由于对LLMs的狂热日益增长每周都有新的模型问世，目前每个人都在竞相与GPT-4一较高下，这是…

在最新的进展中，DeepSeek LLM在语言模型领域崭露头角，拥有令人印象深刻的670亿个参数。DeepSeek LLM在庞大的英语和中文数据集上经过精心训练，并通过开源其7B/67B基础版和7B/67B聊天版，为研究合作设定了新标准。本文深入探讨了该模型在各个领域的卓越能力，并评估了其在复杂评估中的表现。卓越的通用能力 DeepSeek LLM 67B基础版已通过在推理、编码、数学和中文理解等关键领域中胜过Llama2 70B基础版证明了其实力。该模型的实力延伸到多个领域，标志着语言模型演进的重要飞跃。精通编码和数学 DeepSeek LLM 67B聊天版在编码方面表现出色，其HumanEval Pass@1得分为73.78。该模型在数学能力方面也表现卓越，GSM8K 0-shot得分为84.1，Math 0-shot得分为32.6。值得注意的是，它在具有挑战性的匈牙利国家中学考试中获得了惊人的65分，彰显出出色的泛化能力。中文语言掌握能力在与GPT-3.5的中文语言能力对比中，DeepSeek LLM 67B聊天版成为中文语言掌握能力的领先者。评估结果凸显了该模型的优势，标志着自然语言处理的重大进展。评估见解为了公正评估DeepSeek LLM 67B聊天版，开发者提供了新的问题集，减少了数据污染，并考虑到特定的测试集。匈牙利国家中学考试成为评估该模型数学能力的试金石，揭示了该模型在解决复杂问题方面的实力。此外，谷歌于2023年11月15日发布的“指令遵循评估数据集”为评估DeepSeek LLM…

Leave a Comment

致力于安全可靠的人工智能的行动

Published October 26, 2023 by 四海吧

关于我们的Bug赏金计划，重点是生成式人工智能，以及我们如何支持AI供应链的开源安全

Leave a Comment

AI系统常见的9种攻击类型

Published September 16, 2023 by 四海吧

“探索常见的人工智能系统攻击，从对抗性攻击到数据污染，学习如何保护人工智能，以确保可信的未来”

Leave a Comment

前十个LLM漏洞

Published September 14, 2023 by 四海吧

攻击者利用LLM漏洞来利用自然语言处理系统进行恶意活动了解主要的LLM漏洞及其可能的缓解方法

Leave a Comment

为明天的人工智能驱动的网络安全景观做好准备

Published September 1, 2023 by 四海吧

“人工智能的能力就像一把双刃剑，一方面可以提升现有安全产品的效能，另一方面也会带来更复杂的威胁的出现”

Leave a Comment

波士顿大学的研究人员发布了鸭嘴兽家族的精调LLMs：实现基础LLMs的廉价、快速和强大的改进

Published August 23, 2023 by 四海吧

大型语言模型（LLM）席卷世界。这些超高效和高效的模型是人工智能的现代奇迹。它们具备理解上下文、生成文本和连贯对话的能力，已经能够重新定义人与机器之间的沟通。研究人员一直致力于通过一种被称为参数高效调整（PEFT）的过程改善基础大型语言模型的性能，该过程涉及在小而强大的Open-Platypus数据集上优化LLM。最近，来自波士顿大学的研究人员团队推出了Platypus，这是一组独特的改进和结合的大型语言模型，其性能无与伦比，并且目前在HuggingFace的Open LLM排行榜上保持领先地位。精心策划的数据集Open-Platypus是其中的基石之一，该数据集经过精心挑选，从各种其他免费数据集中选择出来，并且已经向公众开放。它是更大数据集的较小子集，专注于改善LLM性能的关键要素。在利用特定领域信息的同时，团队的目标是保持预训练LLM的强大先验知识，并对LoRA模块进行微调和合并。通过微调，可以将模型定制为特定任务，同时保留初始训练中积累的更全面的知识。当合并LoRA模块时，将多个组件结合在一起，产生更强大的LLM。由于协同作用，模型的潜在潜力和专业领域知识可以被揭示出来。工作的一个关键方面是对测试数据的严格验证工作以及识别训练数据中的潜在污染。一些全面的检查支持Platypus系列模型的可靠性和准确性，并且披露此验证过程的方法可能作为进一步的现场研究指南。 Platypus系列模型覆盖了各种模型大小，在量化LLM指标方面表现出色。它在全球Open LLM排行榜上名列前茅，这一壮举证明了该策略的有效性。团队分享了他们的模型在使用较小部分的微调数据和计算资源时与其他最先进的微调LLM一样出色的性能。例如，一个13B的Platypus模型只需使用一张A100 GPU和仅25k个问题就可以在令人瞩目的5小时内成功训练。这种令人难以置信的效率凸显了Open-Platypus数据集的优秀水平，并为该领域的进一步发展铺平了道路。贡献可以总结如下：引入了Open-Platypus，这是一个包含11个公共文本数据集的紧凑数据集，旨在增强LLM的STEM和逻辑知识。这个主要由人设计的问题组成的数据集，在最小的微调时间和成本下提供了强大的性能。团队分享了排除类似数据以减小数据集大小和冗余的过程的描述。探索了LLM训练集中数据污染的挑战以及数据过滤过程。分享了针对专业微调LoRA模块的选择和合并方法的解释，为提高LLM的整体性能做出了贡献。

Leave a Comment

生成AI伦理

Published July 26, 2023 by 四海吧

随着关于生成式人工智能（AI）的热闹，对如何负责任地实施这种变革性技术的问题越来越多这…

Leave a Comment

AI反馈循环：在AI生成内容时维护模型生产质量的时代

Published July 25, 2023 by 四海吧

探索如何利用AI反馈循环在生成型AI的背景下，帮助维持模型质量、提高效率和改善性能

Leave a Comment

2023年的机器取消学习：我们的现状和发展方向

Published July 24, 2023 by 四海吧

“你是否曾经在夜晚躺着醒着，大脑不停地重放着那个你希望能够忘记的一段极其尴尬的记忆片段？将某些记忆保留在我们的脑海中可能会…”

Leave a Comment

谷歌的AI红队：以伦理为导向的黑客，使AI更安全

Published July 21, 2023 by 四海吧

上个月，我们推出了安全AI框架（SAIF），旨在帮助解决AI系统的风险，并以负责任的方式推动技术的安全标准为了建立这一势头，今天我们发布了一份新的报告，探讨我们用来支持SAIF的一个关键能力：红队测试我们相信，红队测试将在为每个组织应对对AI系统的攻击方面发挥决定性作用，并期待共同努力，帮助每个人以安全的方式利用AI该报告研究了我们建立专门的AI红队的工作，并包括三个重要方面：1）红队测试在AI系统背景下的含义及其重要性；2）AI红队模拟的攻击类型；3）我们从中学到的经验教训，可以与他人分享什么是红队测试？Google红队由一组黑客组成，模拟各种对手，从国家机构和知名的高级持续性威胁（APT）组织到黑客激进主义者、个体犯罪分子甚至恶意内部人员这个术语来自军事领域，用来描述指定团队扮演对抗角色（“红队”）与“主队”对抗的活动

Leave a Comment

这篇人工智能论文评估了语言模型的适应能力，以应对现有任务的新变体

Published July 19, 2023 by 四海吧

语言模型（LMs）的出色性能表明，大规模的下一个单词预测可以将文本语料库中的知识有效地蒸馏成交互式代理。LMs在各种自然语言处理基准测试中取得了令人印象深刻的成果，超过了最先进的方法，甚至在需要复杂推理的任务中超过了人类。然而，至关重要的是确定它们的成功是源于任务通用推理能力还是在预训练期间识别和回忆特定任务。以前的研究主要集中在实例级别的泛化，其中数据污染问题可能会复杂化。在这项研究中，研究人员通过改变执行良好任务的条件或规则来研究LMs对新任务变体的泛化能力。这些任务的一般推理过程保持不变，但是具体的输入-输出映射发生了变化。这些称为反事实任务的新任务偏离了默认条件，并衡量了模型的任务级泛化能力。研究人员提出了一个由11个反事实评估任务组成的套件，涵盖了多个类别和领域。这些任务包括演绎推理、代码生成、绘图和空间推理。虽然原始任务和其反事实变体之间的推理过程保持一致，但是输入-输出映射不同。这个评估旨在评估LMs在适应新任务变体方面的灵活性。对GPT-4、GPT-3.5、Claude和PaLM-2在任务的默认和反事实条件下的性能进行评估。结果表明，虽然LMs在反事实性能上表现出高于随机的表现，但与默认设置相比，它们的性能持续下降；这表明模型在这些任务上的成功部分归因于默认条件特定的行为，而不是抽象的、可推广的推理能力。研究结果还揭示了默认任务和反事实任务之间的令人兴奋的关系。观察到默认和反事实性能之间的相关性，零-shot思维链提示的有效性以及任务和实例级频率效应之间的互动。总体而言，任务默认实例化的轻微变化对LMs构成了挑战，这表明现有模型的成功不应仅仅归因于它们对目标任务的通用能力。

Leave a Comment

13 search results for "数据污染"

大型语言模型中数据污染的隐蔽影响

面向大型语言模型的无偏评估

深探：中国最新的语言模型的支配地位

致力于安全可靠的人工智能的行动

AI系统常见的9种攻击类型

前十个LLM漏洞

为明天的人工智能驱动的网络安全景观做好准备

波士顿大学的研究人员发布了鸭嘴兽家族的精调LLMs：实现基础LLMs的廉价、快速和强大的改进

生成AI伦理

AI反馈循环：在AI生成内容时维护模型生产质量的时代

2023年的机器取消学习：我们的现状和发展方向

谷歌的AI红队：以伦理为导向的黑客，使AI更安全

这篇人工智能论文评估了语言模型的适应能力，以应对现有任务的新变体