Press "Enter" to skip to content

13 search results for "数据污染"

深探:中国最新的语言模型的支配地位

在最新的进展中,DeepSeek LLM在语言模型领域崭露头角,拥有令人印象深刻的670亿个参数。DeepSeek LLM在庞大的英语和中文数据集上经过精心训练,并通过开源其7B/67B基础版和7B/67B聊天版,为研究合作设定了新标准。本文深入探讨了该模型在各个领域的卓越能力,并评估了其在复杂评估中的表现。 卓越的通用能力 DeepSeek LLM 67B基础版已通过在推理、编码、数学和中文理解等关键领域中胜过Llama2 70B基础版证明了其实力。该模型的实力延伸到多个领域,标志着语言模型演进的重要飞跃。 精通编码和数学 DeepSeek LLM 67B聊天版在编码方面表现出色,其HumanEval Pass@1得分为73.78。该模型在数学能力方面也表现卓越,GSM8K 0-shot得分为84.1,Math 0-shot得分为32.6。值得注意的是,它在具有挑战性的匈牙利国家中学考试中获得了惊人的65分,彰显出出色的泛化能力。 中文语言掌握能力 在与GPT-3.5的中文语言能力对比中,DeepSeek LLM 67B聊天版成为中文语言掌握能力的领先者。评估结果凸显了该模型的优势,标志着自然语言处理的重大进展。 评估见解 为了公正评估DeepSeek LLM 67B聊天版,开发者提供了新的问题集,减少了数据污染,并考虑到特定的测试集。匈牙利国家中学考试成为评估该模型数学能力的试金石,揭示了该模型在解决复杂问题方面的实力。 此外,谷歌于2023年11月15日发布的“指令遵循评估数据集”为评估DeepSeek LLM…

Leave a Comment

波士顿大学的研究人员发布了鸭嘴兽家族的精调LLMs:实现基础LLMs的廉价、快速和强大的改进

大型语言模型(LLM)席卷世界。这些超高效和高效的模型是人工智能的现代奇迹。它们具备理解上下文、生成文本和连贯对话的能力,已经能够重新定义人与机器之间的沟通。研究人员一直致力于通过一种被称为参数高效调整(PEFT)的过程改善基础大型语言模型的性能,该过程涉及在小而强大的Open-Platypus数据集上优化LLM。 最近,来自波士顿大学的研究人员团队推出了Platypus,这是一组独特的改进和结合的大型语言模型,其性能无与伦比,并且目前在HuggingFace的Open LLM排行榜上保持领先地位。精心策划的数据集Open-Platypus是其中的基石之一,该数据集经过精心挑选,从各种其他免费数据集中选择出来,并且已经向公众开放。它是更大数据集的较小子集,专注于改善LLM性能的关键要素。 在利用特定领域信息的同时,团队的目标是保持预训练LLM的强大先验知识,并对LoRA模块进行微调和合并。通过微调,可以将模型定制为特定任务,同时保留初始训练中积累的更全面的知识。当合并LoRA模块时,将多个组件结合在一起,产生更强大的LLM。由于协同作用,模型的潜在潜力和专业领域知识可以被揭示出来。 工作的一个关键方面是对测试数据的严格验证工作以及识别训练数据中的潜在污染。一些全面的检查支持Platypus系列模型的可靠性和准确性,并且披露此验证过程的方法可能作为进一步的现场研究指南。 Platypus系列模型覆盖了各种模型大小,在量化LLM指标方面表现出色。它在全球Open LLM排行榜上名列前茅,这一壮举证明了该策略的有效性。团队分享了他们的模型在使用较小部分的微调数据和计算资源时与其他最先进的微调LLM一样出色的性能。例如,一个13B的Platypus模型只需使用一张A100 GPU和仅25k个问题就可以在令人瞩目的5小时内成功训练。这种令人难以置信的效率凸显了Open-Platypus数据集的优秀水平,并为该领域的进一步发展铺平了道路。 贡献可以总结如下: 引入了Open-Platypus,这是一个包含11个公共文本数据集的紧凑数据集,旨在增强LLM的STEM和逻辑知识。 这个主要由人设计的问题组成的数据集,在最小的微调时间和成本下提供了强大的性能。 团队分享了排除类似数据以减小数据集大小和冗余的过程的描述。 探索了LLM训练集中数据污染的挑战以及数据过滤过程。 分享了针对专业微调LoRA模块的选择和合并方法的解释,为提高LLM的整体性能做出了贡献。

Leave a Comment

谷歌的AI红队:以伦理为导向的黑客,使AI更安全

上个月,我们推出了安全AI框架(SAIF),旨在帮助解决AI系统的风险,并以负责任的方式推动技术的安全标准为了建立这一势头,今天我们发布了一份新的报告,探讨我们用来支持SAIF的一个关键能力:红队测试我们相信,红队测试将在为每个组织应对对AI系统的攻击方面发挥决定性作用,并期待共同努力,帮助每个人以安全的方式利用AI该报告研究了我们建立专门的AI红队的工作,并包括三个重要方面:1)红队测试在AI系统背景下的含义及其重要性;2)AI红队模拟的攻击类型;3)我们从中学到的经验教训,可以与他人分享什么是红队测试?Google红队由一组黑客组成,模拟各种对手,从国家机构和知名的高级持续性威胁(APT)组织到黑客激进主义者、个体犯罪分子甚至恶意内部人员这个术语来自军事领域,用来描述指定团队扮演对抗角色(“红队”)与“主队”对抗的活动

Leave a Comment

这篇人工智能论文评估了语言模型的适应能力,以应对现有任务的新变体

语言模型(LMs)的出色性能表明,大规模的下一个单词预测可以将文本语料库中的知识有效地蒸馏成交互式代理。LMs在各种自然语言处理基准测试中取得了令人印象深刻的成果,超过了最先进的方法,甚至在需要复杂推理的任务中超过了人类。然而,至关重要的是确定它们的成功是源于任务通用推理能力还是在预训练期间识别和回忆特定任务。 以前的研究主要集中在实例级别的泛化,其中数据污染问题可能会复杂化。在这项研究中,研究人员通过改变执行良好任务的条件或规则来研究LMs对新任务变体的泛化能力。这些任务的一般推理过程保持不变,但是具体的输入-输出映射发生了变化。这些称为反事实任务的新任务偏离了默认条件,并衡量了模型的任务级泛化能力。 研究人员提出了一个由11个反事实评估任务组成的套件,涵盖了多个类别和领域。这些任务包括演绎推理、代码生成、绘图和空间推理。虽然原始任务和其反事实变体之间的推理过程保持一致,但是输入-输出映射不同。这个评估旨在评估LMs在适应新任务变体方面的灵活性。 对GPT-4、GPT-3.5、Claude和PaLM-2在任务的默认和反事实条件下的性能进行评估。结果表明,虽然LMs在反事实性能上表现出高于随机的表现,但与默认设置相比,它们的性能持续下降;这表明模型在这些任务上的成功部分归因于默认条件特定的行为,而不是抽象的、可推广的推理能力。 研究结果还揭示了默认任务和反事实任务之间的令人兴奋的关系。观察到默认和反事实性能之间的相关性,零-shot思维链提示的有效性以及任务和实例级频率效应之间的互动。总体而言,任务默认实例化的轻微变化对LMs构成了挑战,这表明现有模型的成功不应仅仅归因于它们对目标任务的通用能力。

Leave a Comment

Can't find what you're looking for? Try refining your search: