Press "Enter" to skip to content

四海吧 Posts

《斯坦福的一项新的人工智能研究展示了解释如何减少决策过程中对人工智能系统的过度依赖》

近年来,人工智能(AI)的繁荣与AI能够更快地完成工作并减少努力有多大关系。现如今,几乎没有任何领域不使用AI。例如,从Amazon Echo和Google Home等语音助手中的AI代理到使用机器学习算法预测蛋白质结构,AI无处不在。因此,合理地相信与AI系统合作的人会做出比单独行动更优越的决策是合理的。但实际情况是否确实如此呢? 以往的研究表明,情况并非总是如此。在一些情况下,AI并不总是产生正确的反应,这些系统必须进行重新训练以纠正偏见或其他问题。然而,对人工智能决策团队有效性构成危险的另一个相关现象是AI过度依赖,即人们受到AI影响并经常接受不正确的决策而不验证AI的正确性。在进行诸如识别银行欺诈和提供医学诊断等关键和重要任务时,这可能非常有害。研究人员还表明,解释性人工智能并不能减少AI过度依赖问题,解释性人工智能是指AI模型在每一步解释为何做出某个决策而不仅仅提供预测。一些研究人员甚至声称,认知偏见或未校准的信任是过度依赖的根源,将过度依赖归因于人类认知的不可避免性。 然而,这些研究结果并未完全证实AI解释应该减少过度依赖的观点。为了进一步探索这一点,斯坦福大学人类中心人工智能(HAI)实验室的研究团队声称,人们在是否与AI解释进行交互方面是有策略选择的,表明在某些情况下,AI解释可以帮助人们减少过度依赖。根据他们的论文,当相关的AI解释比手头的任务容易理解,并且这样做有更大的利益(可以是财务奖励形式),个体更不可能依赖于AI的预测。他们还证明,当我们专注于与解释互动而不仅仅是让目标提供解释时,可以大大减少对AI的过度依赖。 该团队将这种策略性决策在成本收益框架中进行了测试。在这个框架中,主动参与任务的成本和效益与依赖AI的成本和效益进行了比较。他们邀请在线众包工人与AI合作解决三个不同复杂度的迷宫挑战。相应的AI模型提供答案,要么没有解释,要么提供了多个程度的解释,从下一步的单个指令到退出整个迷宫的逐步指导。试验结果表明,诸如任务难度和解释难度之类的成本以及货币补偿等利益大大影响了过度依赖。对于AI模型提供逐步指导的复杂任务,过度依赖并没有减少,因为解读生成的解释与独自解决迷宫一样具有挑战性。此外,当能够独立解决迷宫时,大多数解释对过度依赖没有影响。 该团队得出结论,如果手头的工作具有挑战性并且相关的解释清晰明了,它们可以帮助防止过度依赖。然而,当工作和解释都很困难或简单时,这些解释对过度依赖几乎没有影响。如果活动容易执行,那么解释并不重要,因为人们可以自己轻松地执行任务,而不是依赖解释生成结论。此外,当任务复杂时,人们有两个选择:要么手动完成任务,要么检查生成的AI解释,这些解释通常同样复杂。这主要是因为AI研究人员可用的解释工具很少,需要的验证工作比手动执行任务要少得多。因此,人们倾向于相信AI的判断而不质疑它或寻求解释,并不奇怪。 作为一项额外的实验,研究人员还将经济利益因素引入了方程式。他们向众包工人提供了独立完成不同难度的迷宫任务以获得一笔钱的选择,或者以较少的金钱换取AI的帮助,要么没有解释,要么提供复杂的逐步指导。研究结果显示,当任务具有挑战性时,工人更重视AI的帮助,并更喜欢简单明了的解释。此外,发现随着使用AI的长期好处增加(在本例中是财务奖励),过度依赖减少。 斯坦福研究人员对他们的发现寄予厚望,希望能给那些被事实解释不能减少过度依赖的学者们带来一些安慰。此外,他们希望通过提供引人入胜的论据,激励可解释的人工智能研究人员,以改进和简化人工智能的解释。 查看论文和斯坦福文章。此研究的所有荣誉归功于该项目的研究人员们。此外,请不要忘记加入我们的26k+ ML SubReddit、Discord Channel和Email Newsletter,我们在那里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 使用Tensorleap的可解释性平台揭示深度学习的秘密 这篇文章来源于MarkTechPost,介绍了斯坦福的一项新的人工智能研究,展示了解释如何在决策过程中减少对人工智能系统的过度依赖。

Leave a Comment

遇见DERA:一种使用对话启用的解决代理增强大型语言模型完成的AI框架

“大型语言模型”已经被开发出来,可以根据输入预测自然语言内容。除了语言建模挑战,使用这些模型还提高了自然语言的性能。基于LLM的方法在医学任务中,如信息提取、问答和摘要中展示了益处。提示是LLM技术中使用的自然语言指令。这些指令集包括任务规范,预测必须遵守的规则,以及可选的任务输入和输出样本。 生成式语言模型根据以自然语言给出的指令产生结果,消除了对特定任务的训练要求,使非专家能够扩展这项技术。虽然许多任务可以表示为单一线索,但进一步的研究表明,将任务分割为较小的任务可能会提高任务性能,尤其是在医疗领域。它们支持一种替代策略,包括两个关键组成部分。它始于一个迭代过程,用于改进第一个产品。与条件链接相反,这使得生成可以整体上得到完善。其次,它有一个指导者,可以通过在每次重复中提出要集中注意的区域来进行引导,使过程更加可理解。 随着GPT-4的发展,他们现在可以使用一个丰富、逼真的对话式VoAGI。来自Curai Health的研究人员建议使用对话式解决代理或DERA。DERA是一个框架,用于研究如何通过对话解决的代理来提高自然语言任务的性能。他们认为,将每个对话代理分配给特定的角色将有助于他们专注于工作的某些方面,并确保他们的合作伙伴代理与整体目标保持一致。研究者代理人寻求与问题相关的相关数据,并提议其他代理人要集中注意的主题。 为了提高自然语言任务的性能,他们提供了DERA,这是一个代理-代理交互的框架。他们根据三个不同类别的临床任务评估DERA。为了回答每个问题,需要不同的文本输入和不同的专业水平。医疗对话摘要挑战旨在提供一个医生-患者对话的摘要,该摘要在事实上是正确的,没有幻觉或遗漏。创建护理计划需要大量的信息,并且有助于临床决策支持的冗长输出。Decider代理角色可以自由回应这些数据,并选择输出的最终行动方案。 该工作有多种解决方案,目标是尽可能地提供事实上正确和相关的材料。回答关于医学的问题是一项开放性任务,需要思考知识,并且只有一个可能的解决方案。他们使用两个问答数据集在这个更具挑战性的环境中进行研究。在两个人工注释评估中,他们发现DERA在护理计划创建和医疗对话摘要任务方面的表现优于基本的GPT-4。根据定量分析,DERA成功纠正了包含许多不准确信息的医疗对话摘要。 另一方面,他们发现在问答方面,GPT-4和DERA的表现几乎没有改进。根据他们的理论,这种方法在涉及许多细粒度特征的长篇生成问题上效果很好。他们将合作发布一个基于MedQA的新型开放性医学问答工作,其中包括美国医学执照考试的实践问题。这使得对建模和评估问答系统进行新的研究成为可能。推理链和其他特定任务的方法都是链策略的示例。 推理链技术鼓励模型像专家一样处理问题,从而提高某些任务的性能。所有这些方法都努力从基本语言模型中产生适当的生成结果。这种提示系统受限于预先确定的、具有特定目的的提示集,如编写解释或修复输出异常,这是该方法的一个基本限制。他们在这个方向上迈出了一大步,但将它们应用于现实世界的情况仍然是一个巨大的挑战。

Leave a Comment

谷歌的AI红队:以伦理为导向的黑客,使AI更安全

上个月,我们推出了安全AI框架(SAIF),旨在帮助解决AI系统的风险,并以负责任的方式推动技术的安全标准为了建立这一势头,今天我们发布了一份新的报告,探讨我们用来支持SAIF的一个关键能力:红队测试我们相信,红队测试将在为每个组织应对对AI系统的攻击方面发挥决定性作用,并期待共同努力,帮助每个人以安全的方式利用AI该报告研究了我们建立专门的AI红队的工作,并包括三个重要方面:1)红队测试在AI系统背景下的含义及其重要性;2)AI红队模拟的攻击类型;3)我们从中学到的经验教训,可以与他人分享什么是红队测试?Google红队由一组黑客组成,模拟各种对手,从国家机构和知名的高级持续性威胁(APT)组织到黑客激进主义者、个体犯罪分子甚至恶意内部人员这个术语来自军事领域,用来描述指定团队扮演对抗角色(“红队”)与“主队”对抗的活动

Leave a Comment

改革文本摘要:探索GPT-2和XLNet Transformers

介绍 我们没有足够的时间阅读和理解所有内容。这就是文本摘要的用武之地。它通过缩短文本帮助我们理解整个内容。就像在不阅读全部细节的情况下获取关键信息一样。文本摘要在许多情况下非常有帮助。想象一下,如果你是一名学生,明天有一场考试,但是还没有开始阅读。你必须为考试学习三章,并且只有今天来学习。别担心。使用文本摘要器。它将帮助你通过明天的考试。很令人兴奋,对吧?本文将探讨使用GPT-2和XLNet变压器模型进行文本摘要。 学习目标 在本文中,我们将学习: 关于文本摘要及其类型 变压器模型的出现及其架构如何工作 关于变压器摘要器,如GPT-2和XLNet 最后,使用它们的不同变体进行实现 本文作为数据科学博文的一部分发表。 什么是文本摘要? 您是否曾经遇到过需要阅读一本书的几页,但由于懒惰而无法完成的情况?即使这本书很有趣,有时我们也无法翻阅页面。感谢文本摘要。使用它,我们可以了解整个文本的摘要,而无需实际阅读所有行和所有页面。 文本摘要是将长文本转换为短文本,同时保留重要信息。它就像创建文本摘要一样。文本摘要是自然语言处理(NLP)中一个引人入胜的领域。它保留原始文本的主要思想和基本信息。简单来说,文本摘要的目标是捕捉原始文本的关键要点,并使读者能够快速掌握文本的内容,而无需实际阅读。 来源:Microsoft 摘要的类型 文本摘要方法主要有两种类型,它们是: 抽取式 生成式 让我们详细了解它们。 抽取式摘要 它涉及从原始文本中选择和组合重要的句子来形成摘要。这种类型的摘要旨在提取最相关和信息丰富的句子。这些句子应该代表原始文本的主要思想和上下文。所选句子直接形成摘要,不进行任何修改。抽取式摘要中使用的一些标准技术包括: 句子评分:这是一种基于评分的方法。该系统根据词频、句子位置和关键字的重要性选择摘要句子。它将选择得分较高的句子用于摘要。通过这种方式,所有得分较高的句子形成了整个原始文本的摘要。 基于图的:在基于图的方法中,我们使用图来表示句子之间的关系。这里的所有句子都是节点,边表示句子之间的相似性或相关性。使用一些图算法,识别出关键句子,所有重要的句子将形成摘要。 来源:SpringerLink 统计方法:这些技术使用统计工具和算法来评估文本中各个句子的重要性和相关性。这些方法旨在通过分配分数和权重或利用优化技术来确定最相关和信息丰富的句子。所有重要的句子又形成了文本的摘要。 生成式摘要…

Leave a Comment

CMU研究人员介绍Zeno:一种用于机器学习(ML)模型行为评估的框架

使用AI驱动的系统的原型一直以来都更加复杂。但是,在使用原型一段时间后,您可能会发现它可以更加功能强大。通过基本的编程理解和几个小时的时间,可以创建一个用于记录笔记的聊天机器人、一个用于从文本创建图像的编辑器以及一个用于总结客户评论的工具。 在实际世界中,机器学习(ML)系统可能存在社会偏见和安全问题。从行人检测模型中的种族偏见到特定医学图像的系统误分类,从业者和研究人员不断发现当前最先进模型的重大局限和失败。行为评估或测试常用于发现和验证模型的局限。了解子组或输入数据切片的模型输出模式超出了检查准确性或F1分数等聚合指标的范围。ML工程师、设计师和领域专家等利益相关者必须共同努力,确定模型的预期和潜在故障。 尽管进行行为评估非常重要,但实际操作仍然很困难。此外,许多流行的行为评估工具,如公平性工具包,不支持实际从业者通常处理的模型、数据或行为。从用户和利益相关者手动测试精选案例来评估模型并选择最佳部署版本是常见做法。在从业者熟悉将使用模型的产品或服务之前,经常会先创建模型。 了解机器学习模型在完成特定任务方面的表现如何是模型评估的难点。使用聚合指标只能大致估计模型的性能,就像智商测试只是对人类智能的粗略和不完美的衡量一样。例如,它们可能无法在自然语言处理系统中嵌入准确的语法,或者掩盖社会偏见等系统性缺陷。标准的测试方法是在数据子集上计算整体性能指标。 确定模型应具备哪些特征是行为评估领域的重要问题。在复杂的领域中,由于可能存在无休止的要求,测试需求列表将是不可能的。因此,ML工程师与领域专家和设计师合作,在迭代和部署之前描述模型的预期功能。用户通过与产品和服务的交互提供对模型的限制和预期行为的反馈,这些反馈随后被纳入未来的模型迭代中。 存在许多用于识别、验证和监控ML评估系统中模型行为的工具。这些工具利用数据转换和可视化揭示模型的公平性问题和边界情况等模式。Zeno与其他系统合作并结合其他方法。基于子组或切片的分析,即在数据集的子集上计算指标,是最接近Zeno的行为评估方法。Zeno现在允许针对任何领域或活动进行基于滑动和变形的测试。 Zeno由Python应用程序编程接口(API)和图形用户界面(GUI)组成。模型输出、指标、元数据和修改后的实例只是行为评估的基本组成部分之一,可以实现为Python API函数。API的输出是构建进行行为评估和测试的主界面的框架。Zeno有两个主要的前端视图:探索UI用于数据发现和切片创建,分析UI用于测试创建、报告创建和性能监控。 Zeno通过Python脚本向公众提供。编写的前端界面使用Svelte,使用Vega-Lite进行可视化和Arquero进行数据处理;该库包含在Python软件包中。用户在指定必要的设置(包括测试文件、数据路径和列名)后,可以从命令行启动Zeno的处理和界面。Zeno将UI作为URL端点托管的能力意味着它可以在本地或服务器上与其他计算一起部署,并且用户仍然可以从自己的设备访问它。该框架已经在包含数百万实例的数据集上进行了尝试和验证。因此,它应该能够很好地适应大规模的部署场景。 机器学习环境中存在许多框架和库,每个框架和库都专注于特定的数据或模型。Zeno在很大程度上依赖于基于Python的模型推理和数据处理API,可以进行定制。研究人员开发了Zeno的后端API作为一组Python装饰器方法,可以支持大多数现代ML模型,尽管大多数ML库都基于Python,因此存在相同的碎片化问题。 研究团队进行的案例研究显示,Zeno的API和用户界面的协同作用有助于从数据集和任务中发现重大的模型缺陷。从更广泛的意义上讲,研究结果表明,行为评估框架对于各种数据和模型类型都是有用的。 根据用户的需求和任务的难度,Zeno的各种功能使行为评估变得更简单、更快捷、更准确。在案例2中,参与者使用API的可扩展性创建了模型分析元数据。案例研究参与者报告称,将Zeno整合到他们现有的工作流程中并与Zeno API进行交互的难度很小或几乎没有。 约束和预防措施 了解哪些行为对最终用户来说是必要的并由模型编码是行为评估的一个主要难点。研究人员正在积极开发ZenoHub,这是一个协作仓库,用户可以在其中分享他们的Zeno函数,并更容易地找到相关的分析组件,以鼓励模型函数的重用,以支持发现。 Zeno的主要功能是定义和测试数据片段的度量标准,但该工具仅提供有限的网格和表格视图来显示数据和片段。通过支持各种强大的可视化方法,可以提高Zeno的实用性。用户可以通过编码语义相似性的实例视图(如DendroMap、Facets或AnchorViz)来发现数据中的模式和新行为。ML Cube、Neo和ConfusionFlow是Zeno可以修改以更好显示模型行为的一些ML性能可视化工具。 虽然Zeno的并行计算和缓存使其能够扩展到大型数据集,但机器学习数据集的大小正在迅速增加。因此,更多的改进将大大加快处理速度。使用像Ray这样的库在分布式计算集群中进行处理可能是未来的更新。 多个直方图在非常大的表格上进行交叉过滤是另一个障碍。Zeno可以采用像Falcon这样的优化方法,以便在大规模数据集上实现实时交叉过滤。 总结: 即使机器学习模型在训练数据上达到了很高的准确率,它在实际世界中仍然可能遭受系统性的失败,例如负面偏见和安全隐患。从某种意义上讲,从行为的角度对模型进行评估是从某些输入到模型输出的模型缺陷的识别和纠正。行为评估的重要性不言而喻,但也很困难,需要揭示现实世界中的模式,并验证系统性的失败。对机器学习的行为评估是识别和纠正问题模型行为的关键,包括偏见和安全问题。在这项研究中,作者深入探讨了机器学习评估的困难,并开发了一种在各种情境中对模型进行评分的通用方法。通过四个实际案例研究中,实践者对现实世界的模型进行了评估,研究人员展示了Zeno如何在多个领域中应用。 许多人对人工智能的发展抱有很高的期望。然而,他们的行为复杂性与他们的能力发展的速度相同。拥有强大的资源来促进基于行为的开发,并确保构建与人类价值观相协调的智能系统是至关重要的。Zeno是一个灵活的平台,允许用户在各种与人工智能相关的工作中进行这种深入的考察。

Leave a Comment

“微软AI提出MM-REACT:一种将ChatGPT和视觉专家结合起来进行高级多模态推理和行动的系统范式”

大型语言模型(LLMs)正在迅速发展,并对经济和社会变革做出重要贡献。随着互联网上发布了许多人工智能(AI)工具,其中一个在过去几个月中非常受欢迎的工具是ChatGPT。ChatGPT是一种自然语言处理模型,允许用户生成像人类一样有意义的文本。OpenAI的ChatGPT基于GPT变压器架构,GPT-4是支撑它的最新语言模型。 随着最新的人工智能和机器学习发展,计算机视觉得到了指数级的提升,网络架构和大规模模型训练得到了改进。最近,一些研究人员引入了MM-REACT,这是一种将多个视觉专家与ChatGPT结合起来进行多模态推理和行动的系统范例。MM-REACT以更灵活的方式将各个视觉模型与语言模型结合起来,以克服复杂的视觉理解挑战。 MM-REACT的目标是处理现有视觉和视觉语言模型难以应对的各种复杂视觉任务。为此,MM-REACT使用提示设计来表示各种类型的信息,例如文本描述、文本化的空间坐标以及作为对齐文件名表示的密集视觉信号,如图像和视频。这种设计使ChatGPT能够接受和处理不同类型的信息与视觉输入相结合,从而实现更准确、全面的理解。 MM-REACT是一个将ChatGPT的能力与一组视觉专家相结合以增加多模态功能的系统。文件路径被用作占位符,并输入到ChatGPT中,以使系统能够接受图像作为输入。每当系统需要从图像中获取特定信息,例如识别名人姓名或框坐标时,ChatGPT会寻求特定视觉专家的帮助。专家的输出被序列化为文本,并与输入结合起来进一步激活ChatGPT。如果不需要外部专家,则直接将响应返回给用户。 通过向ChatGPT提示中添加与每个专家能力、输入参数类型和输出类型相关的特定指令,以及每个专家的一些上下文示例,使ChatGPT能够理解视觉专家的使用知识。此外,还指导使用正则表达式匹配来调用相应的专家。 通过实验,零-shot实验显示了MM-REACT如何有效地解决其特定的感兴趣的能力。它已经证明在解决需要复杂视觉理解的各种高级视觉任务方面非常高效。作者分享了一些例子,其中MM-REACT能够解决图像上显示的线性方程。此外,它还能够通过命名图像中的产品及其成分等来进行概念理解。总之,这种系统范例很好地结合了语言和视觉专业知识,并能够实现高级视觉智能。

Leave a Comment

2023年在线隐私的顶级广告拦截器

现在,最有效的广告拦截器已经成为每个使用现代网络的人必不可少的工具。无论您经常访问哪些网站,您都需要强大的安全性来抵御无数的弹出广告、活动跟踪器和恶意广告,这些广告问题困扰着网络。就连FBI本身也推崇使用广告拦截器。 现在,通过浏览器插件和专门的广告拦截程序很容易保护您的安全。它们与顶级VPN和防病毒程序一样重要。有许多广告拦截器可供选择,所以问题就是要选择哪一个以及是否可以接受其中的缺点。然而,如果您认为收益大于成本,我们已经整理了最有效的广告拦截器和隐私增强应用的全面列表。它们支持所有想象得到的浏览器和操作系统,让您能够安心上网。 AdBlock Plus (ABP) AdBlock Plus (ABP)在Firefox、Chrome、Safari、Edge和Opera等常见浏览器上都有插件。使用ABP,只需加载预配置的过滤器列表并点击按钮,即可轻松阻止大多数广告、间谍软件和社交媒体链接。聪明的用户可以选择额外的拦截列表、实施自定义过滤器或将其喜欢的网站加入白名单,以保持他们的广告收入稳定。尽管AdBlock Plus的“非侵入性广告”过滤功能可能会让一些用户感到烦恼,但可以在设置菜单中关闭它。AdBlock Browser for Android提供了一个基于Firefox的浏览器,可以阻止传入的广告,而AdBlock Plus for iOS则与内容拦截器系统无缝结合,无需配置即可阻止Safari上的广告。 AdBlock AdBlock是目前全球使用最广泛的广告拦截软件。AdBlock可以阻止横幅广告、视频广告和弹出窗口的出现。它还可以阻止营销人员用来追踪您在线活动的跟踪器。AdBlock不仅消除了烦人的广告,还可以提高您的在线隐私和安全性。AdBlock通过阻止广告使用的跟踪器来实现这一目标,这可以使他们更难以追踪您的在线活动并提供广告。AdBlock兼容Chrome、Firefox、Safari和Microsoft Edge,也适用于iOS和Android设备。您可以在GetAdBlock.com找到“获取AdBlock Now”的按钮,并下载AdBlock。之后,将向您推荐安装浏览器插件。安装插件后,AdBlock将立即触发广告拦截。 Ublock Origin Ublock Origin是一款优先考虑轻量级、高效拦截的网络浏览器广告拦截器。该插件附带了预配置的过滤器列表,用于常见的广告和恶意软件域名,您还可以下载更多的过滤器列表,或使用主机文件来读取和编写自己的过滤器。uBlock Origin不仅可以阻止广告,还可以阻止跟踪器。常常会在网站中插入一些称为“跟踪器”的小代码。它们会收集关于您访问的网站的数据,并与广告商共享。如果您使用uBlock Origin,您可以防止某些跟踪器访问您的数据。简而言之,uBlock…

Leave a Comment

一种新的深度强化学习(DRL)框架可以在模拟环境中对攻击者做出反应,并在攻击升级之前阻止95%的网络攻击

网络安全防御者必须根据技术发展和系统复杂性的提高动态调整他们的技术和策略。随着过去十年中机器学习(ML)和人工智能(AI)研究的进展,这些技术在各种与网络安全相关的领域中的使用案例也得到了发展。大多数现有安全应用程序中的一些功能性由在大量数据集上训练的强大的机器学习算法支持。其中一个例子是在早期的2010年代将ML算法集成到电子邮件安全网关中。 在实际情况下,创建自主的网络安全系统防御策略和行动建议是一项相当困难的任务。这是因为为此类网络安全系统防御机制提供决策支持需要同时考虑攻击者和防御者之间的动态特征以及系统状态的动态特征化。此外,网络安全防御者通常面临各种资源限制,包括与成本、劳动力和时间相关的限制。即使有了AI,开发一个能够主动防御的系统仍然是一个理想目标。 为了解决这个问题,美国能源部太平洋西北国家实验室(PNNL)的研究人员开发了一种基于深度强化学习(DRL)的新型AI系统,能够在模拟环境中响应攻击者,并能在攻击升级之前阻止95%的网络攻击。研究人员创建了一个自定义的模拟环境,展示了网络中攻击者和防御者之间的多阶段数字冲突。然后,他们使用强化学习的原则训练了四个DRL神经网络,例如根据避免妥协和减少网络中断来最大化奖励。该团队的工作还在华盛顿特区的人工智能促进协会上做了介绍,并获得了很高的评价。 该团队开发这样一个系统的理念是首先展示成功训练这样一个DRL架构是可能的。在深入研究复杂结构之前,他们希望展示有用的评估指标。研究人员首先使用Open AI Gym工具包创建了一个抽象的模拟环境。下一阶段是利用这个环境开发攻击者实体,在MITRE ATT&CK框架的15种方法和7种策略的子集上展示出技能和持久性水平。攻击者的目标是通过从初始访问和侦察阶段到其他攻击阶段直到达到其最终目标——影响和外泄阶段的七个攻击链步骤。 需要记住的是,团队并没有打算开发一个模型,在敌人在环境内发动攻击之前就能封锁敌人。相反,他们假设系统已经被入侵。然后,研究人员使用强化学习来训练四个神经网络。研究人员表示,在不使用强化学习的情况下训练这样一个模型是可以想象的,但需要很长时间来开发一个良好的机制。另一方面,深度强化学习通过模仿人类行为的某些方面,非常有效地利用了这个巨大的搜索空间。 研究人员努力证明AI系统能够在模拟攻击环境中成功训练,并展示出AI模型能够实时对攻击做出防御反应。为了对四个无模型DRL算法在实际的多阶段攻击序列中的表现进行严格评估,研究人员进行了多次实验。他们的研究表明,DRL算法可以在具有不同技能和持久性水平的多阶段攻击配置文件下进行训练,在模拟环境中产生有效的防御结果。

Leave a Comment

将AI投入测试:ChatGPT和其他大型语言模型在检测虚假新闻方面的深入评估

随着互联网和社交媒体的兴起,虚假新闻和误导信息的传播已经成为一个令人担忧的问题。因此,为解决这个问题,已经进行了大量的实验。近年来,大型语言模型(LLMs)作为检测和分类此类误导信息的潜在解决方案引起了广泛关注。 为了解决这个在互联网驱动的世界中出现的虚假新闻和误导信息的问题,威斯康星州立大学的研究人员进行了广泛的研究和实验。他们的研究重点是测试最先进的语言模型(LLMs)的能力,以确定新闻文章的真实性并识别虚假新闻或误导信息。他们主要关注了四个LLM模型:Open AI的Chat GPT-3.0和Chat GPT-4.0,Google的Bard/LaMDA和Microsoft的Bing AI。 研究人员对这些知名的大型语言模型(LLMs)在检测虚假新闻方面的准确性进行了彻底的研究。通过严格的实验,他们评估了这些先进LLM在分析和评估新闻文章以及区分真实和不可信信息方面的能力。 他们的研究结果旨在为LLMs如何对抗误导信息提供有价值的见解,从而最终帮助创建一个更值得信赖的数字环境。研究人员表示,他们之所以选择研究这篇论文,是因为他们有必要了解各种LLMs在对抗误导信息方面的能力和限制。此外,他们还表示,他们的目标是通过控制模拟和已建立的事实核查机构作为基准,对这些模型在分类事实和误导信息方面的能力进行严格测试。 为了进行这项研究,研究团队选取了100个由独立事实核查机构核实的新闻报道样本,并将它们分为以下三类:真实、虚假和部分真实/虚假,然后对这些样本进行建模。其目标是评估模型在准确分类这些新闻项目方面的表现,与独立事实核查机构提供的经核实事实相比较。研究人员分析了模型在将适当的标签准确分类到新闻报道上方面的能力,将其与那些独立的事实核查员提供的事实信息相一致。 通过这项研究,研究人员发现Open AI的GPT-4.0表现最佳。研究人员表示,他们对主要LLMs进行了比较评估,以区分事实和欺骗,其中Open AI的GPT-4.0表现优于其他模型。 然而,这项研究强调,尽管这些LLMs取得了进展,但人类事实核查员在分类虚假新闻方面仍然胜过它们。研究人员强调,尽管GPT-4.0表现出有希望的结果,但仍有改进的空间,而且这些模型需要改进以达到最大的准确性。此外,如果将它们应用于事实核查,还可以将它们与人类代理的工作结合起来。 这表明,虽然技术在不断发展,但识别和验证误导信息这一复杂任务仍然具有挑战性,需要人类的参与和批判性思维。

Leave a Comment

2023年最佳50多款AI编码助手工具

ChatGPT ChatGPT能够在不依赖现有代码参考的情况下编写代码。此外,它能够高效地调试用户的代码。通过引入代码解释器,ChatGPT扩展了其功能,包括自我测试自身代码的能力。 Bard Google的Bard和ChatGPT一样,能够以对话方式进行交互,适用于编写和调试代码。 GitHub Copilot GitHub Copilot是一种由人工智能驱动的代码补全工具,它分析上下文代码并通过建议相关的代码片段提供实时反馈和推荐。 Tabnine Tabnine是一种基于人工智能的代码补全工具,它为GitHub Copilot提供了一种替代方案。它在提供全功能的人工智能代码补全能力方面独具专长。 Code Snippets AI Code Snippets允许用户将问题转化为代码。它是一个集成了代码解释、代码片段库等功能的多合一工具。 MutableAI MutableAI是开发人员经常使用模板代码并希望具有高效自动完成能力的理想选择。它提供代码补全功能以及将代码整理和归类到逻辑组中的能力。 Cogram Cogram是一种SQL代码生成工具,允许用户使用自然语言编写高效的SQL查询。 Amazon CodeWhisperer CodeWhisperer也是由AWS开发的代码补全工具,它可以根据注释和现有代码进行智能补全。 Replit Replit是一个以浏览器为基础的在线编码平台。它的一个功能是Ghostwriter,根据上下文提供相关的代码建议。…

Leave a Comment

符号调整改善语言模型中的上下文学习

由谷歌研究的学生研究员Jerry Wei和首席科学家Denny Zhou发布 人类智能的一个关键特征是人类可以通过只使用少数示例来学会执行新任务的推理。扩展语言模型解锁了机器学习中一系列新的应用和范例,包括通过上下文学习执行具有挑战性的推理任务的能力。然而,语言模型仍然对提示的方式敏感,表明它们并不是以稳健的方式进行推理。例如,语言模型通常需要大量的提示工程或将任务构建为指令的方式,并且它们表现出意外的行为,如在显示错误标签时对任务的表现不受影响。 在“符号调优改进语言模型中的上下文学习”中,我们提出了一种简单的微调过程,称为符号调优,它可以通过强调输入-标签映射来改进上下文学习。我们在Flan-PaLM模型中尝试了符号调优,并观察到在各种设置下都有益处。 符号调优提高了对未见过的上下文学习任务的表现,并且对于未明确指定的提示(例如没有指令或没有自然语言标签的提示)更加稳健。 符号调优的模型在算法推理任务上表现更强。 最后,符号调优的模型在使用上下文信息来覆盖先前知识时,对于翻转标签呈现的任务有很大的改进。 符号调优的概述,其中模型在任务中使用任意符号代替自然语言标签进行微调。符号调优依赖于这样的直觉,即当没有指令和相关标签可用时,模型必须使用上下文示例来学习任务。 动机 指令调优是一种常见的微调方法,已经证明可以提高性能并使模型能够更好地遵循上下文示例。然而,一个缺点是模型并不强制学会使用这些示例,因为在评估示例中通过指令和自然语言标签重复定义了任务。例如,在上图左侧,虽然示例可以帮助模型理解任务(情感分析),但它们并不是严格必要的,因为模型可以忽略示例,只需阅读指示表明任务是什么。 在符号调优中,模型在示例上进行微调,其中移除了指令,并用语义不相关的标签(例如“Foo”,“Bar”等)替换了自然语言标签。在这种设置下,不查看上下文示例的情况下任务是不清楚的。例如,在上图右侧,需要多个上下文示例才能弄清楚任务。因为符号调优教会模型在上下文示例之间和它们的标签之间进行推理,所以符号调优的模型在需要在上下文示例和标签之间进行推理的任务上应该有更好的表现。 用于符号调优的数据集和任务类型。 符号调整过程 我们选择了22个公开可用的自然语言处理(NLP)数据集,用于我们的符号调整过程。这些任务过去被广泛使用,我们只选择了分类类型的任务,因为我们的方法需要离散标签。然后,我们将标签重新映射到从三个类别中选择的约30K个任意标签集中的随机标签:整数、字符组合和单词。 在我们的实验中,我们对Flan-PaLM进行符号调整,这是PaLM的指令调整变体。我们使用了三种不同大小的Flan-PaLM模型:Flan-PaLM-8B、Flan-PaLM-62B和Flan-PaLM-540B。我们还测试了Flan-cont-PaLM-62B(Flan-PaLM-62B使用1.3T个标记而不是780B个标记),我们将其缩写为62B-c。 我们使用了来自三个类别(整数、字符组合和单词)的约300K个任意符号。其中约30K个符号用于调整,其余的符号用于评估。 实验设置 我们希望评估模型在未见过的任务上的表现能力,因此不能在符号调整(22个数据集)或指令调整(1.8K个任务)中评估。因此,我们选择了11个在微调过程中未使用的NLP数据集。 上下文学习 在符号调整过程中,模型必须学会通过上下文示例进行推理,以成功执行任务,因为提示被修改以确保任务不能简单地从相关标签或指令中学习。符号调整的模型应在任务不明确且需要在上下文示例和其标签之间进行推理的情况下表现更好。为了探索这些情况,我们定义了四种上下文学习设置,这些设置根据输入和标签之间的推理量(基于指令/相关标签的可用性)来学习任务。 根据指令和相关自然语言标签的可用性,模型可能需要对上下文示例进行不同程度的推理。当这些特征不可用时,模型必须通过给定的上下文示例进行推理以成功执行任务。 符号调整改善了62B及更大模型在所有设置下的性能,在具有相关自然语言标签的设置中略有改进(+0.8%至+4.2%),在没有相关自然语言标签的设置中有显著改进(+5.5%至+15.5%)。令人惊讶的是,当相关标签不可用时,符号调整的Flan-PaLM-8B的性能超过了FlanPaLM-62B,而符号调整的Flan-PaLM-62B的性能超过了Flan-PaLM-540B。这种性能差异表明,符号调整可以使较小的模型在这些任务上表现得和大型模型一样好(有效地节省了约10倍推理计算量)。 大型符号调整模型在上下文学习方面比基线模型表现更好,特别是在没有相关标签的情况下。性能以十一个任务的平均模型准确率(%)显示。 算法推理…

Leave a Comment

谷歌面临诉讼,指控其滥用数据来训练其LLM

在一起新的诉讼中,谷歌面临着滥用个人数据来训练其大型语言模型的指控,这些模型是其人工智能产品的核心这起诉讼声称,这家科技巨头在未经用户同意的情况下,擅自收集数百万用户的数据,从而违反了版权法,并在训练过程中进行了滥用

Leave a Comment

分割任何东西,但更快!这种人工智能方法加速了SAM模型

在计算机视觉中,寻找图像中的对象一直是一个长期存在的任务。目标检测算法尝试通过在对象周围绘制一个框来定位对象,而分割算法则试图以像素级精确确定对象的边界。图像分割旨在根据语义含义或视觉特征将图像分割成不同的区域或对象。它在各种应用中至关重要,包括对象识别、场景理解、自动驾驶、医学成像等。 多年来,已经开发了许多方法和算法来解决这个具有挑战性的问题。传统方法使用手工设计的特征,而最近的进展则带来了以深度学习模型驱动的模型。这些现代方法已经取得了显著的进展,实现了最先进的性能,并在图像理解和分析方面开启了新的可能性。 然而,这些模型存在根本的局限性。它们受限于训练集中看到的对象,并且无法分割剩余的对象。 然后出现了完全改变图像分割游戏的Segment Anything Model (SAM)。它是一个开创性的视觉模型,能够根据用户交互提示在图像中分割任何对象。它基于在广泛的SA-1B数据集上训练的Transformer架构构建,表现出了显著的性能,并开启了一个被称为Segment Anything的新颖有趣的任务。凭借其普适性和潜力,它有望成为未来视觉应用的基石。 然而,SAM并非完美无缺。这种力量是有代价的,对于SAM来说,代价就是复杂性。它计算上过于耗费资源,这使得在实际场景中应用它变得具有挑战性。与SAM架构的核心部分——Vision Transformers (ViTs)有关的计算资源要求是与Transformer模型相关的计算资源要求。 有没有办法让SAM更快?答案是肯定的,它被称为FastSAM。 FastSAM是为了满足SAM模型在工业应用中的高需求而提出的。它成功地提高了SAM的执行速度,并使其能够应用于实际场景。 FastSAM大大加速了SAM的速度。来源:https://arxiv.org/pdf/2306.12156.pdf FastSAM将segment anything任务分解为两个顺序阶段:全实例分割和提示引导选择。第一阶段使用基于卷积神经网络(CNN)的检测器为图像中的所有实例生成分割掩模。在第二阶段,它输出与用户提示相对应的感兴趣区域。利用CNN的计算效率,FastSAM展示了实时segment anything模型的可实现性,而不会牺牲性能质量。 FastSAM概览。来源:https://arxiv.org/pdf/2306.12156.pdf FastSAM基于YOLOv8-seg,这是一个配备了受YOLACT方法启发的实例分割分支的目标检测器。通过将这个CNN检测器训练在仅占SA-1B数据集2%的数据上,FastSAM在大大降低计算需求的同时,实现了与SAM相当的性能。该方法在多个下游分割任务中证明了其有效性,包括在MS COCO上的对象提议,其中FastSAM在提议数量为1000个时的平均召回上超过了SAM,并在单个NVIDIA RTX 3090上运行速度快了50倍。

Leave a Comment

“遇见DreamIdentity:一种无需优化的人工智能方法,保持每个面部身份的可编辑性,适用于文本到图像模型”

最近,基于扩散的大规模文本到图像(T2I)模型改变了创建可视材料的学科。这些T2I模型使得生成引人注目、表达丰富且以人为中心的图形变得简单。这些模型的一个有趣的用途是能够使用自然语言描述生成与身份相关的各种情境,给定一个特定人的日常生活中的面部(我们的家人,朋友等)。与图1中所示的典型T2I任务不同,身份重情境挑战要求模型在遵循文本提示的同时保持输入面部识别(即ID保留)。 图1展示了DreamIdentity如何有效地从单个面部图像中创建大量保留身份和文本连贯的图像,并且无需在测试时进行优化。 为每个面部身份个性化预训练的T2I模型是一种可行的方法。它涉及通过增强其词嵌入或微调模型参数来学习将特定词与实质相关联。由于每个身份的优化,这些基于优化的方法可能更有效。为了避免耗时的每个身份的优化,各种无优化的方法建议将从预训练图像编码器(通常为CLIP)获得的图像特征直接映射到词嵌入中。然而,这会损害ID保留。因此,这些技术面临着损害原始T2I模型的编辑能力的风险,因为它们要么需要微调预训练的T2I模型的参数,要么改变原始结构以注入额外的网格图像特征。 简而言之,所有并行的无优化努力都在维持身份和模型的可编辑性方面遇到困难。它们认为,错误的身份特征表示和训练与测试之间的目标不一致是现有无优化研究中上述困难的根本原因。一方面,目前最佳的CLIP模型在面部识别准确性方面仍然比面部识别模型差得多(80.95%对87.61%),这表明并行努力中使用的常见编码器(即CLIP)对于身份重情境化任务来说是不足够的。此外,CLIP的最后一层特征主要关注高级语义而不是精确的面部描述,无法保持识别信息。 所有并行任务使用原始重建目标来学习词嵌入都会对输入面部的可编辑性产生负面影响。为了解决上述身份保留和可编辑性困难,他们提供了一种独特的无优化框架(称为DreamIdentity),具有准确的身份表示和一致的训练/推理目标。更准确地说,在Vision Transformer的架构中创建了一个独特的多词多尺度ID编码器(M2 ID编码器),用于正确的身份表示。该编码器在大规模的面部数据集上进行预训练,并将多尺度特征投影到多词嵌入中。 中国科学技术大学和字节跳动的研究人员提出了一种新颖的自我增强可编辑性学习方法,将编辑任务移入训练阶段。该方法使用T2I模型通过生成名人面孔和各种目标编辑的名人图像来构建自我增强数据集。使用这个数据集来训练M2 ID编码器以提高模型的可编辑性。他们在这项工作中做出了以下贡献:他们认为,由于错误的表示和不一致的训练/推理目标,现有的无优化方法对于身份保留和高可编辑性是无效的。 从技术上讲,(1)他们提出了M2 ID编码器,这是一个具有多嵌入投影的ID感知多尺度特征,用于适当的表示。(2)他们结合自我增强的可编辑性学习,使底层T2I模型能够为编辑提供高质量的数据集,以实现一致的训练/推理目标。通过全面的研究证明了他们的方法的有效性,这些方法能够在保持身份的同时允许灵活的文本引导修改,即身份重情境化。

Leave a Comment