Press "Enter" to skip to content

867 search results for "分类"

彻底改变癌症诊断:深度学习如何准确识别和重新分类合并肝癌,以优化治疗决策

原发性肝癌,包括肝细胞癌(HCC)和肝内胆管癌(ICCA),由于其独特的特点而带来了重大挑战。同时存在肝细胞-胆管癌混合型(cHCC-CCA),具有HCC和ICCA两者特征的患者,给临床诊断和管理带来了复杂度。这种罕见情况使得制定精确的治疗策略变得困难,从而导致不良的患者结果。为了解决这一难题,本研究探讨了人工智能(AI)在将cHCC-CCA肿瘤重新分类为纯HCC或ICCA方面的应用,旨在提供改进的预后评估和分子洞察力。 作为肝癌的一种罕见亚型,cHCC-CCA由于其肝细胞和胆管的形态融合而令病理学家困扰。这种复杂的融合常常使得诊断具有挑战性,导致临床管理存在模糊性。此外,缺乏共识指南进一步复杂化了治疗决策。这种复杂性来自于HCC和ICCA之间的模糊界限,cHCC-CCA的遗传特征类似于这两种类型,引发了关于其分子特征的争议。该研究依赖于充分利用AI作为病理图像分析中的有力工具,以区分和潜在地重新分类cHCC-CCA肿瘤为HCC或ICCA。该研究旨在揭示这种分类是否与临床预后和分子遗传模式相一致,帮助更清晰地理解cHCC-CCA。 来自全球各地的研究人员开展的这项研究采用了一个AI流程,该流程基于自监督特征提取器和基于注意力的聚合模型进行训练。这种AI框架旨在识别纯HCC和ICCA,并在发现组中展示了令人印象深刻的交叉验证接收器操作特征曲线下面积(AUROC)达到0.99,展示出两类之间的强大区分能力。随后对独立TCGA队列的验证进一步证实了模型的功效,实现了0.94的AUROC,标志着高度的泛化能力。值得注意的是,AI模型在强调类似ICCA表型的特征方面表现出很强的侧重,表明其能够识别细微的组织学细节。 AI模型在区分纯HCC和ICCA方面的能力促使我们进一步探索其在临床和分子方面的影响。这种区分为cHCC-CCA患者的精确定位和治疗个性化提供了新的可能性,可能弥合对该疾病治疗效果不佳的差距。此外,对ICCA类似特征的关注提示了模型捕捉到了细微的组织结构,与已知的ICCA的病理特征相吻合。这些发现强调了AI在指导更准确的诊断和cHCC-CCA预后标志上的潜力。 论文的关键要点: 诊断潜力:AI在将cHCC-CCA重新分类为HCC或ICCA的过程中表现出了潜在的诊断突破。 临床意义:AI驱动的分类在指导cHCC-CCA患者个性化治疗策略和预测中具有潜力。 分子洞察力:模型对类似ICCA的特征的关注提示其能够捕捉到微妙的组织结构,揭示了cHCC-CCA与已知肝癌类型之间的分子相似性。

Leave a Comment

加州大学伯克利分校研究人员开发了ALIA:用于细粒度分类任务的自动语言引导图像增强的突破性技术

“`html 精细化图像分类是一项计算机视觉任务,旨在将图像分类为更大类别中的子类别。它涉及对特定的、往往是稀有的动物进行复杂的识别。然而,它们在需要更多广泛的训练数据方面存在问题,导致分类器在适应领域中的不同方面时遇到困难,比如天气条件或地理位置的改变。 数据增强是一种常用的方法,用于使训练数据多样化,在精细分类等专门任务中面临挑战。使用生成模型或传统的翻转或裁剪等方法的方法显示出一定的潜力,但通常需要进行大量的微调或生成对于此类任务不适当的图像。 尽管有各种各样的提出的方法试图解决这些挑战,但该领域仍面临着在创建增强数据集方面的困难,这些数据集代表了多样的变化,同时保持与原始训练数据的视觉一致性和相关性。 一种新颖的方法——自动语言引导图像增强(ALIA)应运而生,以克服这些持续存在的挑战。ALIA利用了与大型视觉模型结合使用的数据集领域的自然语言描述,通过语言引导的图像编辑以自动生成训练数据的多样化变化。与先前的方法不同,ALIA不依赖昂贵的微调或用户提供的提示。相反,它智能地过滤掉最小的编辑和可能破坏与分类相关信息的编辑,提供了一种有希望的解决方案,增强了数据集的多样性,并提高了专门任务(如精细化分类)分类器的泛化能力。 该过程包括: 生成领域描述:利用图像字幕生成和大型语言模型(LLM)将图像上下文总结为不超过十个领域描述。 使用语言引导对图像进行编辑:使用文本条件下的图像编辑技术,创建与这些描述相符的多样化图像。 过滤失败的编辑:使用CLIP进行语义过滤,并使用分类器进行基于置信度的过滤,以删除失败的编辑,确保任务相关信息和视觉一致性的保留。 据作者称,这种方法可以扩展数据集20-100%,同时保持视觉一致性并涵盖更广泛的领域范围。 研究团队进行了大量实验证明了ALIA数据增强方法在专门任务(领域泛化、精细化分类和鸟类分类中的上下文偏见)中的有效性。通过对ResNet50模型进行微调,并使用稳定扩散进行图像编辑,ALIA始终优于传统的增强技术,甚至优于实际数据增加在领域泛化任务中,显示出相对原始数据的17%的改进。在精细分类中,ALIA表现出了竞争性的性能,即使没有领域转移也能保持准确性。ALIA在涉及上下文偏见的功能中,在领域内外的准确性方面表现出色,尽管在图像编辑质量和纯文本修改方面面临挑战。这些实验证明了ALIA在增强数据集多样性和模型性能方面的潜力,尽管在一定程度上依赖于模型质量和图像编辑方法的选择。 总之,作者介绍了ALIA,一种基于大型语言模型和语言引导的图像编辑技术的数据增强先进策略,利用广泛的领域知识。对于已提供的训练集中的领域描述和增强数据,该方法展示了在领域适应、偏见减少甚至在缺乏领域转移的情况下的出色能力。 对于未来的研究,作者认为字幕、大型语言模型和图像编辑的进一步改进将极大地增强该方法的效果和适用性。使用从实际训练数据中得出的结构化提示可能在改善数据集多样性和解决当前方法中遇到的各种限制方面发挥关键作用。这为探索ALIA在更广泛的领域中的应用前景和潜在进展提供了有希望的途径。 “`

Leave a Comment

这篇AI论文介绍了一种深度学习模型,该模型使用真实世界的视网膜OCT扫描来分类和分析年龄相关性黄斑变性的不同阶段

一篇新的研究论文提出了一种基于深度学习的分类器,用于使用视网膜光学相干断层扫描(OCT)检测老年性黄斑变性(AMD)阶段。该模型利用两阶段卷积神经网络,将Topcon OCT图像中以黄斑为中心的3D体积分成正常、早期/中期AMD(iAMD)、萎缩(GA)和新生血管(nAMD)阶段。第一阶段采用2D ResNet50进行B扫描分类,第二阶段使用较小模型(ResNet)进行体积分类。 经过大量数据集的训练,该模型在将以黄斑为中心的3D体积分类为正常、iAMD、GA和nAMD阶段方面表现出色。该研究强调了准确的AMD分期对于及时治疗的重要性。性能指标包括ROC-AUC、平衡准确率、准确率、F1分数、敏感性、特异性和马修斯相关系数。 研究详细介绍了使用视网膜OCT扫描创建基于深度学习的自动AMD检测和分期系统。与传统方法相比,OCT是一种非侵入性成像技术,在提供关于AMD分期的详细见解方面至关重要。该研究强调了准确的AMD分期对于有效治疗和视觉保护的重要性。该研究强调了高质量数据集对于强大分析的重要性。 该研究采用了两阶段深度学习模型,利用ImageNet预训练的ResNet50和四个独立的ResNet对OCT扫描中的AMD生物标志物进行二元分类。第一阶段在体积中定位疾病类别,而第二阶段执行体积级别的分类。该模型在实际世界的OCT数据集上训练,展示了有希望的性能指标,包括ROC-AUC、平衡准确率、准确率、F1分数、敏感性、特异性和马修斯相关系数。该研究指出了使用不同设备的多样化OCT数据集面临的挑战,并讨论了潜在的泛化问题。 基于深度学习的AMD检测和分期系统在实际测试集中展示出有希望的性能,平均ROC-AUC为0.94。在推理时间加入蒙特卡洛丢弃(Monte-Carlo dropout)增强了分类不确定性估计的可靠性。该研究利用了2079只眼睛的3995个OCT体积的精选数据集,利用各种指标评估性能,包括AUC、BACC、ACC、F1分数、敏感性、特异性和MCC。结果凸显了该模型在准确的AMD分类和分期方面的潜力,有助于及时治疗和视觉功能保护。 该研究成功开发了一种基于深度学习的自动AMD检测和分期系统,利用OCT扫描准确地将以黄斑为中心的3D体积分成四个类别:正常、iAMD、GA和nAMD。与基线方法相比,这种深度学习模型在性能上显示出可比或更好的表现,并带有B扫描级别疾病定位的额外好处。 进一步研究可以提高深度学习模型在各种OCT设备上的泛化能力,考虑对Cirrus和Spectralis等扫描仪进行适应性调整。应探索域漂移适应方法,以应对与特定数据集训练相关的限制,确保在各种信噪比情况下的强大性能。该模型对于回顾性AMD发病检测的潜力可以扩展,实现对纵向数据集的自动标记。在实际筛查环境中应用不确定性估计并探索该模型在检测除AMD之外的其他疾病生物标志物方面的潜力,这是未来研究的有希望的方向,有助于在更广泛的人群中进行疾病筛查。

Leave a Comment

密歇根大学的研究人员在AI的心理理论方面开创了新领域:揭示了心理学分类法和严格的评估协议

密歇根大学的一支研究团队提倡开发新的基准和评估协议,评估大型语言模型(LLM)的心智理论(ToM)能力。研究建议采用全面和情境化的评估方法,将机器ToM分为七个心理状态类别。该研究强调了对LLM心智状态的综合评估的必要性,将其视为物理和社交环境中的代理。 该研究解决了LLM中缺乏健壮的ToM和改善基准和评估方法的必要性。它指出了现有基准的不足之处,并提出了一种全面的评估方法,其中将LLM视为不同情境中的代理。研究强调了有关机器ToM的持续争论,强调了其限制和对更健壮的评估方法的呼吁。它旨在指导未来在将ToM与LLM整合并改善评估手段方面的研究。 对于人类的认知和社交推理来说,ToM是至关重要的,在AI中具有启用社交互动的重要性。研究对Chat-GPT和GPT-4等LLM是否拥有机器ToM提出了质疑,并强调了它们在复杂的社交和信念推理任务中的局限性。需要重新审查现有的评估协议,进行全面调查。它主张采用机器ToM分类和情境化评估方法,将LLM视为真实环境中的代理。 该研究引入了一种用于机器ToM的分类方法,并主张采用情境化评估方法评估LLM。文中对现有的基准进行了回顾,并进行了关于感知视角承担的文献调查。以网格世界中的一项试点研究作为概念验证。研究人员强调了谨慎设计基准的重要性,以避免捷径和数据泄漏,并突出了当前基准的局限性,这是由于有限的数据集访问。 该方法提出了机器ToM的分类方法,包括七个心智状态类别。它主张采用一种全面的、情境化的评估方法,以全面评估心智状态,并防止捷径和数据泄漏。文中以网格世界中的试点研究作为概念验证。它强调了当前ToM基准的局限性,并强调了开发具有高质量注释和私有评估集的新型可扩展标准的必要性。它建议采用公正的评估实践,并计划制定更全面的标准。 总之,该研究强调了在LLM中评估机器ToM的需要。提倡采用全面且情境化的评估方法,将LLM视为真实环境中的代理,并强调了谨慎策划基准的重要性,以防止捷径和数据泄漏。该研究强调了开发具有高质量注释和私有评估集的更大规模基准的重要性,并概述了未来系统基准发展的计划。 作为未来的工作,需要开发新的机器ToM基准,以解决未经探索的方面,避免捷径,确保具备高质量注释的可扩展性。应该关注公正的评估,记录提示和提出一种情境化的ToM评估方法,其中模型被视为各种情境中的代理。建议在情境设置中实施复杂的评估协议。尽管承认试点研究的局限性,但计划在未来进行系统的、更大规模的基准研究。

Leave a Comment

通过在Amazon SageMaker上使用Hugging Face进行电子邮件分类,加速客户成功管理

在这篇文章中,我们分享了SageMaker如何帮助Scalable的数据科学团队高效地管理数据科学项目的生命周期,特别是电子邮件分类器项目生命周期从使用SageMaker Studio进行初始阶段的数据分析和探索开始,然后通过SageMaker训练、推理和Hugging Face DLCs进行模型实验和部署,并最终通过与其他AWS服务集成的SageMaker Pipelines完成训练流程

Leave a Comment

解锁神经网络中的多样性力量:自适应神经元在图像分类和非线性回归中胜过同质性

神经网络是人工智能中的一种方法,它教会计算机以类似于人脑的方式处理数据。它使用连接的节点或神经元构成的分层结构,类似于人脑。人工神经元被排列成层级结构形成神经网络,用于各种任务,如模式识别、分类、回归等。这些神经元通过在训练过程中改变数字权重和偏差来形成稳固的连接。 尽管这些神经网络取得了进展,但它们也有限制。它们由大量相似类型的神经元组成。这些相同神经元之间的连接数量和强度可以在网络学习过程中发生变化。然而,一旦网络被优化,这些固定的连接定义了其架构和功能,无法改变。 因此,研究人员开发了一种可以提升人工智能能力的方法。它允许人工智能内部审视其结构并微调其神经网络。研究表明,通过多样化激活函数可以克服限制,并使模型能够高效工作。 他们在多样性上对人工智能进行了测试。北卡罗来纳州立大学物理学教授、北卡罗来纳州立大学非线性人工智能实验室主任威廉·迪托表示,他们创建了一个测试系统,其中包含一种非人类智能,即人工智能(AI),以查看人工智能是否会选择多样性而不是缺乏多样性,并且其选择是否会提高人工智能的性能。此外,他表示关键在于允许人工智能内部审视并学习其学习方式。 允许神经元自主学习激活函数的神经网络往往表现出快速多样化,并在图像分类和非线性回归等任务中表现优于同质神经网络。另一方面,迪托的团队赋予了他们的人工智能在其神经网络中自主确定神经元数量、配置和连接强度的能力。这种方法允许创建由网络内的各种神经元类型和连接强度组成的子网络。 迪托表示,他们赋予了人工智能内部审视并决定是否需要修改其神经网络组成的能力。实质上,他们给了它大脑的控制旋钮。因此,它可以解决问题,查看结果,并改变人工神经元的类型和混合直到找到最有利的一种。他将其称为人工智能的元学习。他们的人工智能还可以在多样或同质神经元之间进行选择。他进一步表示,他们发现在每个实例中,人工智能都选择多样性以增强其性能。 研究人员在一个标准的数字分类任务上测试了该系统,并发现该系统的准确性随着神经元数量和多样性的增加而提高。研究人员表示,同质人工智能在数字识别方面的准确率为57%,而元学习的多样性人工智能则达到令人印象深刻的70%准确率。 研究人员表示,未来他们可能会通过调整超参数来优化学习到的多样性,以提高性能。此外,他们将在更广泛的回归和分类任务中应用获得的多样性,使神经网络多样化,并评估其在不同情景下的鲁棒性和性能。

Leave a Comment

企业如何提高多语言产品分类器的准确性?这篇人工智能论文提出了LAMM:一种针对训练数据有限语言的主动学习方法,旨在增强分类准确性

通过利用不同语言共享的表示形式,跨语言学习已被认为可以提高自然语言处理模型在数据有限的低资源语言(LRL)上的准确性。然而,高资源语言(HRL)和低资源语言(LRL)的准确性存在显著差异,这与LRL的预训练数据相对稀缺有关,即使对于最先进的模型也是如此。在专业环境中,常常会对语言级准确性设定目标。这时候,像神经机器翻译、音译和类似数据上的标签传播等技术非常有用,因为它们可以用于合成增强现有训练数据。 这些方法可以用来增加训练数据的数量和质量,而无需采用代价过高的手动注释。由于机器翻译的局限性,即使翻译通常会提高LRL的准确性,但它可能需要赶上商业目标。 亚马逊的研究团队提出了一种通过使用主动学习有选择地收集标记数据来提高低资源语言(LRL)准确性的方法。虽然以前已经研究过多语言数据的主动学习,但大部分研究集中在为单一语言训练模型上。为此,他们正在努力完善一种能够有效地在语言之间进行翻译的单一模型。这种方法被称为语言感知主动学习多语言模型(LAMM),类似于已经显示主动学习可以在使用单一模型的情况下提高模型在各种语言上的性能的工作。然而,这种方法不提供专门针对和提高LRL准确性的手段。由于他们坚持为已经超过准确性目标的语言获取标签,今天最先进的主动学习算法在满足语言级目标至关重要的情况下浪费了手动注释。为了提高LRL的准确性而不对HRL的性能产生负面影响,他们提出了一种基于主动学习的策略来有策略地收集标记数据。建议的策略LAMM可以增加在所有相关语言中实现准确性目标的可能性。 研究人员将LAMM作为具有多个目标的MOP来构建。其目标是选择以下未标记数据的示例: 不确定的(模型对结果没有信心) 来自语言家族,分类器的性能可能优于目标。 亚马逊的研究人员使用典型的基于池的主动学习设置,将LAMM的性能与两个基准进行比较,使用四个多语言分类数据集。其中两个示例是亚马逊评论和MLDoc。亚马逊内部使用了两个多语言产品分类数据集。以下是标准的流程: 最低置信度(LC)收集可能具有最大熵不确定性的样本。 均匀分配(EC),为了填充每种语言的注释预算,收集具有高熵的样本,并将注释预算在语言之间均匀分配。 他们发现LAMM在所有LRL上的表现优于竞争对手,而在HRL上略微不如。使用LAMM时,HRL标签的百分比减少了62.1%,而与LC相比,AUC的准确性仅降低了1.2%。使用四个不同的产品分类数据集,其中两个是公开可用的,另外两个是亚马逊内部使用的专有数据集,他们展示了相对于强大基线,LAMM可以将LRL的性能增加4-11%。

Leave a Comment

AWS对一家大型游戏公司的大型语言模型(LLM)进行微调,以对有害言论进行分类

视频游戏行业全球用户预计超过30亿人1它由大量玩家组成,每天都在虚拟环境中相互交流不幸的是,就像现实世界一样,并非所有玩家都能适当和尊重地交流为了创建和维护一个具有社会责任感的游戏环境,AWS […]

Leave a Comment

CatBoost 一个用于构建具有分类数据的模型的解决方案

介绍 如果热衷于学习数据科学和机器学习的学习者,他们应该学习增强系列算法。增强系列中有许多算法,例如AdaBoost、梯度提升、XGBoost等等。增强系列中的一个算法是CatBoost算法。CatBoost是一种机器学习算法,它代表分类提升。它是由Yandex开发的。它是一个开源库。它可以在Python和R语言中使用。CatBoost在数据集中的分类变量方面表现非常好。与其他提升算法类似,CatBoost也在后台创建多个决策树,即树的集合,来预测分类标签。它基于梯度提升。 另请阅读:CatBoost:一种自动处理分类(CAT)数据的机器学习库 学习目标 了解增强算法的概念及其在数据科学和机器学习中的重要性。 探索CatBoost算法作为增强系列成员之一,其起源及其在处理分类变量方面的作用。 理解CatBoost的关键特性,包括其处理分类变量、梯度提升、有序提升和正则化技术。 深入了解CatBoost的优点,如其对分类变量的强大处理能力和出色的预测性能。 学习在Python中实现CatBoost用于回归和分类任务,探索模型参数并对测试数据进行预测。 本文作为数据科学博客马拉松的一部分发表。 CatBoost的重要特性 处理分类变量: CatBoost在处理包含分类特征的数据集方面表现出色。通过使用各种方法,我们通过将它们转换为数值表示来自动处理分类变量。这包括目标统计、独热编码或两者的混合。这种能力通过省去手动分类特征预处理的要求,节省了时间和精力。 梯度提升: CatBoost使用梯度提升,一种集成技术,将多个弱学习器(决策树)组合起来创建有效的预测模型。通过添加训练和指导以纠正之前树引起的错误的树,迭代地创建树,同时最小化可微损失函数。这种迭代的方法逐步提高了模型的预测能力。 有序提升: CatBoost提出了一种称为“有序提升”的新技术,以有效处理分类特征。在构建树时,它使用一种称为基于排列的预排序分类变量的技术来识别最佳分割点。这种方法使得CatBoost能够考虑所有潜在的分割配置,提高预测并降低过拟合。 正则化: CatBoost使用正则化技术来减少过拟合并提高泛化能力。它在叶节点值上进行L2正则化,通过添加惩罚项修改损失函数以防止过大的叶节点值。此外,它使用一种先进的方法称为“有序目标编码”来避免在编码分类数据时过拟合。 CatBoost的优点 对分类变量的强大处理能力: CatBoost的自动处理使得预处理更加方便和有效。它不需要手动编码方法,并降低了与传统过程相关的信息丢失的机会。 出色的预测性能: 使用CatBoost的梯度提升框架和有序提升进行预测的结果通常是准确的。它可以生成强大的模型,在许多其他算法中表现优秀,并有效地捕捉数据中的复杂关系。 应用案例…

Leave a Comment

“愚弄法证分类器:生成模型在对抗性人脸生成中的力量”

近年来,深度学习(DL)特别是生成对抗网络(GAN)在生成高度逼真和多样化的人脸方面取得了重大突破。这些人脸在现实中并不存在,但在视频游戏、化妆品行业和计算机辅助设计等领域有着广泛的应用。然而,当这些人工生成的人脸被滥用时,会带来重大的安全和伦理问题。 合成或虚假人脸的滥用可能导致严重的后果。例如,在美国选举中,曾经有人使用GAN生成的人脸图像创建虚假的社交媒体账号,快速传播针对特定群体的虚假信息。类似地,一名17岁的高中生通过一种名为StyleGAN2的强大生成模型成功欺骗Twitter,使其验证了一张美国国会候选人的虚假头像。这些事件凸显了滥用GAN生成的人脸图像可能带来的潜在风险,并突出了解决其安全和伦理问题的重要性。 为了解决GAN生成的虚假人脸问题,已经提出了几种方法来区分虚假的GAN生成人脸和真实的人脸。这些研究的结果表明,简单的有监督深度学习分类器通常在检测GAN生成图像方面非常有效。这些分类器通常被称为法证分类器或模型。 然而,一个聪明的攻击者可以使用对抗机器学习技术来操纵这些虚假图像,以逃避法证分类器的检测,同时保持高的视觉质量。最近的研究通过展示对生成模型的流形进行潜空间优化的对抗性探索,可以生成被针对性法证检测器错误分类的逼真人脸。此外,他们还表明,与在图像空间上施加约束的传统对抗攻击相比,由此产生的对抗性虚假人脸显示出更少的伪影。 然而,这项工作存在一个重大局限性。即它无法控制生成的对抗性人脸的属性,如肤色、表情或年龄。对于那些希望通过社交媒体平台迅速传播虚假宣传,特定针对某些族群或年龄群体的攻击者来说,控制这些人脸属性至关重要。 鉴于潜在的影响,图像取证研究人员必须深入研究和开发属性条件攻击。通过这样做,他们可以揭示现有法证人脸分类器的漏洞,并最终努力设计未来的有效防御机制。本文介绍的研究旨在解决对抗攻击中对属性控制的迫切需求,以确保全面了解漏洞并促进强大的对策的发展。 下面报告了所提出方法的概述。 提出了两种架构,一种与基于属性的生成相关,另一种与文本生成相关。无论是通过图像驱动还是通过文本引导,所提出的方法旨在生成逼真的对抗性虚假人脸,可以欺骗法证人脸检测器。该技术利用StyleGAN2的高度解缠空间,在统一框架内构建属性条件下的无约束攻击。 具体而言,引入了一种高效算法,通过对抗性优化属性特定的潜在变量来生成一个展示给定参考图像中属性的虚假人脸。这个过程有效地将参考图像中的所需粗细节转移到生成的虚假图像中。当进行基于图像的属性条件时,语义属性从提供的参考图像中转移到生成的虚假图像中。这是通过在引导感知损失的指导下在对抗空间中搜索来实现的,从而使所需属性转移到生成的虚假图像中。 此外,Contrastive Language-Image Pre-training(CLIP)的联合图像-文本表示能力被用于根据提供的文本描述生成虚假的人脸。这样可以强制生成的对抗性人脸图像与相应的文本描述保持一致。通过利用CLIP的文本引导特征空间,该方法在该特征空间中搜索对抗性潜在编码,从而生成与文本中描述的属性相符的虚假人脸。 本文展示了一些可用的结果。 这是一种生成逼真对抗性人脸以逃避法证分类器的新颖AI技术摘要。如果您对此工作感兴趣并想了解更多信息,可以通过下面的链接找到更多信息。

Leave a Comment

使用🤗 Transformers对ViT进行微调,用于图像分类

正如基于Transformer的模型改变了自然语言处理领域一样,我们现在看到了将其应用于各种其他领域的论文的爆炸式增长。其中最具革命性的是Vision Transformer(ViT),它是由Google Brain的研究人员于2021年6月推出的。 本论文探讨了如何对图像进行标记,就像对句子进行标记一样,以便可以将它们传递给Transformer模型进行训练。这其实是一个非常简单的概念… 将图像分割成子图像块的网格 使用线性投影对每个子图像块进行嵌入 每个嵌入的子图像块成为一个标记,嵌入的子图像块序列就是传递给模型的序列。 事实证明,一旦完成了上述步骤,你可以像处理自然语言处理任务一样预训练和微调Transformer模型。相当不错 😎。 在本博客文章中,我们将介绍如何利用🤗 datasets下载和处理图像分类数据集,然后使用它们来微调预训练的ViT模型,使用🤗 transformers。 首先,让我们安装这两个包。 pip install datasets transformers 加载数据集 让我们首先加载一个小的图像分类数据集,并查看其结构。 我们将使用beans数据集,该数据集是一组健康和不健康的豆叶图片。🍃 from datasets import load_dataset ds…

Leave a Comment

使用Kili和HuggingFace AutoTrain进行意见分类

介绍 了解用户需求对于任何与用户相关的业务来说都是至关重要的。但这也需要大量的辛勤工作和分析,而这是非常昂贵的。为什么不利用机器学习呢?通过使用Auto ML,可以减少编码量。 在本文中,我们将利用HuggingFace AutoTrain和Kili构建一个用于文本分类的主动学习流水线。Kili是一个通过质量训练数据创建的数据中心方法来赋能机器学习的平台。它提供了协作数据标注工具和API,使可靠的数据集构建和模型训练之间的快速迭代成为可能。主动学习是一个过程,其中您将标记的数据添加到数据集中,然后进行迭代地重新训练模型。因此,它是无限的,并且需要人类来标记数据。 作为本文的一个具体示例用例,我们将使用来自Google Play Store的VoAGI用户评论来构建我们的流水线。然后,我们将使用我们构建的流水线对评论进行分类。最后,我们将对分类的评论应用情感分析。然后我们将分析结果,更容易理解用户的需求和满意度。 使用HuggingFace进行自动训练 自动化机器学习是指自动化机器学习流程的一个术语。它还包括数据清洗、模型选择和超参数优化。我们可以使用🤗 transformers进行自动化的超参数搜索。超参数优化是一个困难且耗时的过程。 虽然我们可以通过使用transformers和其他强大的API自己构建我们的流水线,但也可以使用AutoTrain进行完全自动化。AutoTrain是建立在许多强大的API(如transformers、datasets和inference-api)之上的。 数据清洗、模型选择和超参数优化步骤在AutoTrain中都是完全自动化的。可以充分利用这个框架为特定任务构建可供生产使用的SOTA转换器模型。目前,AutoTrain支持二分类和多标签文本分类、标记分类、抽取式问答、文本摘要和文本评分。它还支持英语、德语、法语、西班牙语、芬兰语、瑞典语、印地语、荷兰语等许多语言。如果您的语言在AutoTrain中不受支持,也可以使用自定义模型和自定义分词器。 Kili Kili是一个面向数据中心业务的端到端AI训练平台。Kili提供了优化的标注功能和质量管理工具来管理您的数据。您可以快速注释图像、视频、文本、pdf和语音数据,同时控制数据集的质量。它还具有用于GraphQL和Python的强大API,极大地简化了数据管理。 它可在线或本地使用,并且可以在计算机视觉、自然语言处理和OCR上实现现代机器学习技术。它支持文本分类、命名实体识别(NER)、关系抽取等NLP/OCR任务。它还支持计算机视觉任务,如目标检测、图像转录、视频分类、语义分割等等! Kili是一种商业工具,但您也可以创建一个免费的开发者帐户来尝试Kili的工具。您可以从定价页面了解更多信息。 项目 我们将以评论分类和情感分析为例,来了解一个移动应用程序的见解。 我们从Google Play Store中提取了大约4万条VoAGI的评论。我们将逐步对此数据集中的评论文本进行标注。然后我们将构建一个评论分类的流水线。在建模过程中,第一个模型将使用AutoTrain准备。然后我们还将构建一个不使用AutoTrain的模型。 项目的所有代码和数据集都可以在GitHub存储库中找到。 数据集 让我们首先看一下原始数据集,…

Leave a Comment

使用Transformer进行图分类

在之前的博客中,我们探讨了关于图机器学习的一些理论方面。这篇博客将介绍如何使用Transformers库进行图分类(您也可以通过下载演示笔记本来跟随这个过程!) 目前,在Transformers中唯一可用的图转换模型是微软的Graphormer,所以我们将在这里使用它。我们期待看到其他人将会使用和整合哪些模型 🤗 要求 要按照本教程操作,您需要安装datasets和transformers(版本>=4.27.2),您可以使用pip install -U datasets transformers来安装。 数据 要使用图数据,您可以从自己的数据集开始,或者使用Hub上提供的数据集。我们将重点介绍如何使用已有的数据集,但是您也可以随意添加您自己的数据集! 加载 从Hub加载图数据集非常简单。让我们加载”ogbg-mohiv”数据集(Stanford的Open Graph Benchmark中的一个基准数据集),该数据集存储在OGB仓库中: from datasets import load_dataset # Hub上只有一个分割 dataset = load_dataset(“OGB/ogbg-molhiv”) dataset…

Leave a Comment

解决人工智能的泛化差距:来自伦敦大学学院的研究人员提出Spawrious——一个包含类别和背景之间虚假相关性的图像分类基准套件

随着人工智能的日益普及,几乎每天都会发布带有全新功能和解决能力的新模型。最近,研究人员一直在努力提出方法来加强人工智能模型对未知测试分布的抵抗力,并减少对虚假特征的依赖。考虑到自动驾驶汽车和自主厨房机器人的例子,它们尚未被广泛部署,因为它们在分布外(OOD)环境中的行为所带来的挑战,这些环境与模型接触到的训练数据有很大的差异。 许多研究已经探讨了虚假相关性(SCs)的问题,并提出了减少其对模型性能的负面影响的方法。已经证明,在像ImageNet这样的知名数据集上训练的分类器依赖于背景数据,这些数据与类标签存在虚假关联,但不一定具有预测性。尽管在开发解决SC问题的方法方面已经取得了进展,但仍需要解决现有基准的局限性。目前的基准测试,如Waterbirds和CelebA发色基准测试,存在局限性,其中之一是它们专注于简单的一对一(O2O)虚假相关性,而实际上,许多对多(M2M)虚假相关性更常见,涉及类和背景的群组。 最近,来自伦敦大学学院的研究人员介绍了一个名为Spawrious数据集的图像分类基准套件,其中包含类和背景之间的虚假相关性。它包括一对一(O2O)和一对多(M2M)虚假相关性,这些已经被分类为三个难度级别:简单,中等和困难。该数据集包含约152,000张高质量的照片逼真图像,使用文本到图像模型生成,采用图像字幕模型过滤不适合的图像,确保数据集的质量和相关性。 评估Spawrious数据集后,表现出了不可思议的性能,因为该数据集对当前的最先进(SOTA)组鲁棒性方法提出了挑战,例如Hard-splits,其中没有一种测试方法使用在ImageNet上预训练的ResNet50模型实现了70%以上的准确性。该团队提到,模型的性能问题是由于它们依赖虚假背景而导致的,通过查看其错误分类的分类,说明了Spawrious数据集如何成功地测试分类器并揭示它们在错误相关性方面的弱点。 为了说明O2O和M2M基准测试之间的差异,该团队使用了一个夏季收集训练数据的例子,其中包括来自两个不同位置的两组动物物种,每个动物组都与特定的背景组相关联。然而,随着季节的变化和动物的迁移,群组交换位置,导致动物组和背景之间的虚假相关性以无法一对一匹配的方式发生变化。这凸显了捕捉M2M虚假相关性中复杂关系和相互依赖性的必要性。 Spawrious似乎是一套有前途的基准套件,用于OOD,领域通用算法,以及评估和提高模型在存在虚假特征的情况下的鲁棒性。

Leave a Comment

Can't find what you're looking for? Try refining your search: