Press "Enter" to skip to content

107 search results for "EDA"

在医疗保健领域弥合临床医生和语言模型之间的鸿沟:介绍MedAlign,一种由临床医生生成的用于遵循电子病历的数据集

大型语言模型(LLMs)以很大程度上利用了自然语言处理的能力。从语言生成和推理到阅读理解,LLMs都能胜任。这些模型在帮助医生工作方面的潜力引起了多个领域,包括医疗保健的关注。最近的LLMs,包括Med-PaLM和GPT-4,在涉及医学问答的任务中表现出了他们的熟练程度,特别是涉及医学数据库和考试的任务。 一个常见的限制是难以确定LLMs在受控基准测试中出色的表现是否能够转化到实际的临床环境中。临床医生在医疗行业中进行各种与信息相关的工作,这些工作经常需要来自电子健康记录(EHRs)的复杂、非结构化的数据。医疗从业者所面对的复杂性和复杂性在当前可用的EHR数据问答数据集中没有很好地体现出来。当医生依靠LLMs来帮助他们时,他们缺乏评估这些模型能否提供准确和具有上下文意识的回复所需的细微差别。 为了克服这些限制,一组研究人员开发了MedAlign,这是一个基准数据集,包括15名从事7个不同医学专业的临床医生提交的共983个问题和指令。MedAlign专注于基于EHR的指令-回答配对,而不仅仅是问题-回答配对,这使其与其他数据集不同。该团队为其中303个指令提供了由临床医生撰写的参考回答,并将其与EHR数据相链接,以提供提示的上下文和基础。每个临床医生对这303个指令上六种不同LLMs生成的回答进行了评估和排名,以确认数据集的可靠性和质量。 临床医生还提供了他们自己的黄金标准解决方案。通过收集包括临床医生提供的指令、LLM生成回答的专家评估以及相关的EHR上下文的数据集,MedAlign开创了一项开拓性的工作。这个数据集与其他数据集的不同之处在于它为评估LLMs在临床情况下的工作效果提供了一个有用的工具。 第二个贡献展示了一种自动化的、检索式的方法,用于将相关的患者电子健康记录与临床指令匹配。为了实现这一点,该团队创建了一个程序,使向临床医生索取指令更加高效和可扩展。他们可以通过隔离这种指令征集方法从更大、更多样化的临床医生群体中寻求提交。 他们甚至评估了他们的自动化方法与相关EHR匹配的效果。研究结果显示,与指令与EHR的随机配对相比,这种自动匹配过程在74%的情况下成功提供了相关的配对。这一结果突显了自动化提高连接临床数据的效果和准确性的机会。 最后一个贡献考察了自动化自然语言生成(NLG)参数与临床医生对LLM生成回答的评级之间的关系。这项研究旨在确定是否可以使用可扩展的自动化指标来对LLM回答进行排序,以取代专业临床医生的评估。该团队旨在通过衡量人类专家排序与自动化标准之间的一致程度,减少医生在未来研究中手动识别和评估LLM回答的需求。通过使审查过程更加高效且不那么依赖人力资源,为医疗应用开发和改进LLMs的进程可能会加快。

Leave a Comment

UCLA研究人员推出GedankenNet:一种自我监督的AI模型,从物理定律和思维实验中学习,推动计算成像的发展

近年来,深度学习的最新进展对计算成像、显微镜和全息成像相关领域产生了重大影响。这些技术在生物医学成像、传感、诊断和3D显示等各个领域都有应用。深度学习模型在图像翻译、增强、超分辨率、去噪和虚拟染色等任务中展示出了非凡的灵活性和有效性。它们已成功应用于各种成像模式,包括明场和荧光显微镜;深度学习的整合正在重新塑造我们对微观尺度复杂世界的理解和能力。 在计算成像中,主流技术主要采用监督学习模型,需要大量带有注释或基准实验图像的数据集。这些模型通常依赖于通过各种方法获取的带标签的训练数据,例如经典算法或来自不同成像模式的注册图像对。然而,这些方法存在一些限制,包括繁琐的训练图像获取、对齐和预处理,以及可能引入推断偏差。尽管通过无监督和自监督学习来解决这些挑战的努力,但对实验测量或样本标签的依赖仍然存在。虽然一些尝试已经使用带标签的模拟数据进行训练,但准确表示实验样本分布仍然复杂,并且需要对样本特征和成像设置有先验知识。 为了解决这些固有问题,加州大学洛杉矶分校Samueli工程学院的研究人员引入了一种名为GedankenNet的创新方法,它提出了一种革命性的自监督学习框架。这种方法消除了对标记或实验训练数据以及任何与现实样本的相似性的需求。通过基于物理一致性和人工随机图像进行训练,GedankenNet克服了现有方法所面临的挑战。它为全息重建建立了一个新的范式,为在各种显微镜、全息术和计算成像任务中常用的监督学习方法的局限性提供了一个有前途的解决方案。 GedankenNet的架构由一系列空间傅里叶变换(SPAF)块组成,通过残差连接相互连接,有效捕捉空间和频率域信息。通过整合物理一致性损失函数,该模型在全息重建过程中强制执行波动方程的一致性,从而产生物理准确的复杂场输出。这种独特的训练策略使得GedankenNet能够在合成和实验全息图像上具有出色的泛化能力,即使面对未见样本、轴向散焦和光照波长的变化。 a)插图描述传统的迭代全息重建技术、自监督深度神经网络GedankenNet和现有的监督深度神经网络。| b)GedankenNet用于全息重建的自监督训练过程。 性能评估显示,GedankenNet在全息重建方面具有出色的能力。通过结构相似性指数(SSIM)、均方根误差(RMSE)和误差校正系数(ECC)等定量指标,GedankenNet在各种全息图像集上始终优于传统的监督技术。值得注意的是,GedankenNet的物理一致性损失有效地减轻了非物理性伪影,从而实现了更锐利和更准确的重建。模型与波动方程的兼容性进一步增强了其性能,使其能够通过正确的波动传播从散焦全息图中恢复高质量的物体场。这些发现突显了GedankenNet在外部推广方面的优越性,使其能够以出色的保真度处理新颖的实验数据和仅相位样本。 总体而言,加州大学洛杉矶分校研究团队的GedankenNet代表了计算成像和显微镜领域的一个开创性进展。通过采用自监督学习的力量和以物理为基础的思想实验,GedankenNet为训练神经网络模型提供了一种新的方法。这种创新方法不仅克服了当前监督学习技术的局限性,还为各种计算成像任务提供了更加多样化、与物理相容且易于训练的深度学习模型的途径。这一突破将极大地加速显微镜领域的进步,促进更广泛的应用和对微观世界的更深入的认识。

Leave a Comment

这篇人工智能论文调查了大型语言模型(LLMs)在医学中的作用:它们面临的挑战、原则和应用

自然语言处理(NLP)在过去几个月里取得了长足的进步,尤其是引入了大型语言模型(LLM)。像GPT、PaLM、LLaMA等模型由于其在文本生成、摘要生成和问题回答等多种NLP任务方面的能力,已经获得了很大的流行度。研究人员一直致力于将LLM的力量用于医疗领域。 医疗LLM包括ChatDoctor、MedAlpaca、PMC-LLaMA、BenTsao、MedPaLM和Clinical Camel,用于改善患者护理和支持医疗从业人员。尽管当前的医疗LLM已经显示出良好的结果,但仍然存在一些需要解决的挑战。许多模型忽视了类似对话和问答等临床环境中的生物医学NLP任务的实际价值。医疗LLM在诸如电子病历(EHR)、出院小结生成、健康教育和护理计划等临床情景中的潜力已成为最近努力的研究课题;然而,这些模型经常缺乏共同的评估数据集。 另一个缺点是目前使用的大多数医疗LLMs仅根据其回答医疗问题的能力来评估候选人,忽视了其他重要的生物医学任务,如信息检索、文本生成、关系抽取和文本摘要。为了克服这些问题,一组研究人员在探索医疗LLM的不同方面时进行了一项研究,回答了以下五个主要问题。 创建医疗LLMs:第一个问题旨在调查创建医疗LLMs的方法和因素。这包括理解创建这些模型背后的思想,以及它们的结构、训练集和其他相关要素。 评估医疗LLMs在下游任务中的表现:第二个问题集中于评估医疗LLMs在实际情况下的实际结果或表现。这包括评估这些模型在真实世界情况下的表现,特别是在临床医学相关任务方面。 在实际临床实践中使用医疗LLMs:第三个问题探讨了医疗LLMs在临床环境中的实际使用情况。这包括调查如何将这些模型纳入医疗从业人员的常规工作流程中,以改善沟通、决策和患者护理。 应用医疗LLMs带来的问题:第四个问题认识到使用医疗LLMs存在障碍,就像使用任何其他技术一样。为了在医疗环境中负责任地和成功地实施这些模型,可能需要解决一些障碍,包括道德问题、模型中的潜在偏见和可解释性问题。 成功构建和应用医疗LLMs:最后一个问题询问未来,以阐明改进医疗LLMs的设计和应用,以确保医疗LLMs继续成为医疗行业中有用的工具。 总之,本调查广泛分析了医疗领域中的LLMs。它总结了从10种不同的生物医学活动中获得的评估,并详细概述了它们的应用。通过解决关键问题,该研究旨在提供对医疗LLMs的全面了解,鼓励更深入的分析、团队合作和医疗AI领域的更快发展。

Leave a Comment

“用GPT-4打造个性化的人工智能交易顾问”

介绍 近年来,将人工智能(AI)整合到股票交易中已经改变了投资者的决策方式。随着大型语言模型(LLMs)如GPT-3和GPT-4的出现,发生了一场范式转变,使个人投资者和交易者更容易获得复杂的市场分析和见解。这种革命性的技术利用大量的数据和复杂的算法,提供了以前仅由机构投资者独占的市场理解深度。本文重点介绍使用LLMs开发个性化AI交易顾问,旨在根据风险偏好、投资时间、预算和期望回报来匹配个人投资者的投资配置,为零售投资者提供个性化、战略性的投资建议。 由GPT-3和GPT-4等大型语言模型(LLMs)驱动的股票交易顾问已经彻底改变了金融咨询服务。它们可以利用人工智能来分析历史股票数据和当前的财经新闻,为投资者提供与其独特投资组合和财务目标相符合的个性化投资建议。我们将尝试构建一个顾问来预测市场行为和趋势,根据个人风险承受能力、投资期限、可用资本和期望回报提供量身定制的建议。 学习目标 通过本文,读者将能够: 了解AI和像GPT-3这样的LLMs如何改变股市分析和交易。 认识到基于个人风险偏好和投资目标的AI驱动工具提供个性化投资建议的能力。 了解AI如何利用历史和实时数据制定投资策略和预测。 了解股票交易中的AI如何使复杂的投资策略对更广泛的受众(包括零售投资者)可行。 发现如何利用AI驱动的工具进行个人投资和股票交易决策。 了解利用LLMs构建股票交易顾问的概念。 本文作为数据科学博文马拉松的一部分进行发布。 关于数据集 该项目的数据集从纽约证券交易所获取,并在Kaggle上提供,包括覆盖七年的四个CSV文件。其中包括关键的财务指标“fundamentals.csv”,提供历史股价和股票分割调整的“prices.csv”和“prices-split-adjusted.csv”,以及提供附加公司信息(如部门分类和总部)的“securities.csv”。这些文件的综合提供了对公司业绩和股票市场动态的全面了解。 数据准备 使用类似GPT-4这样的大型语言模型(LLMs)来实现股票交易顾问,需要进行关键的数据准备。这个过程包括重要的任务:数据清洗、归一化和分类,使用提供的数据集:fundamentals.csv、prices.csv、prices-split-adjusted.csv和securities.csv。 步骤1:数据清洗 在“基本数据集”中,我们使用中值插补来处理“For Year”、“Earnings Per Share”和“Estimated Shares Outstanding”的缺失值(173个、219个和219个缺失值)。 我们将“Period Ending”列转换为日期时间格式,使其适合进行数字字段分析。…

Leave a Comment

学习数据科学需要多久时间?

介绍 数据科学已经成为技术市场上最有价值的技能之一。在数据科学革命之前,处理数百万个测试用例的数据需要花费长达11-12年的时间。但现在,只需几个月,有时甚至只需要几个星期!那么,学习数据科学需要多长时间?令人惊讶的是,你只需要一年就可以成为一名数据科学家。这取决于你的学习速度和持续性。让我们看看成为数据科学家需要多长时间,以及为什么你应该成为一名数据科学家。 为什么选择数据科学职业? 机器学习和人工智能正在征服世界,得益于不断发展的技术世界。根据预测,到2026年,数据科学市场收入预计将达到$3229亿美元。技术、大数据和机器学习算法在企业中的快速应用导致了数据科学的快速增长。 根据劳动统计局的数据,数据科学家平均年薪约为$100,000。有许多职业机会可供选择,你可以成为数据分析师、数据科学家等,拥有高薪水,符合你的技能。 成为数据科学家需要多长时间? 每个人成为数据科学家的道路可能不同。如果我们将每个月分为特定的主题,你可以在12个月内学习数据科学。只要保持持续的努力和学习的热情,任何人都可以在一年内掌握数据科学的艺术。 然而,学习曲线取决于你的持续性和学习数据科学的时间。由于之前对数据科学具有基础知识,有些人可以较短时间内掌握数据科学。 跟随并在12个月内学习数据科学的基础和复杂概念。让我们看看每个月的内容蓝图,了解学习数据科学需要多长时间。 第1个月:数据科学工具包 让我们以基本的数据科学工具开启你成为数据科学家的旅程。通过学习常见但重要的数据科学工具,如Python及其库NumPy、Pandas、Matplotlib和Seaborn,可以为接下来几个月打下坚实的基础。 第2个月:数据可视化 在打下坚实基础之后,我们进入成为数据科学家的下一个阶段,掌握数据可视化的艺术。熟悉数据可视化工具,如Tableau,掌握绘制图表、分布地图等技术。本月还将开始学习SQL。 第3个月:数据探索 第三个月重点介绍如何利用隐藏数据进行数据探索。数据探索是指将信息型数据以关键洞察的形式展示出来。本月将教你如何使用探索性数据分析(EDA)探索数据。你可以学习成为一名数据科学家所需的统计学基础知识。 第4个月:机器学习基础与讲故事的艺术 本月将开始你的机器学习奇妙之旅。你将学习机器学习的基础知识,并熟悉技术术语和技巧。通过结构化思维,你将掌握讲故事的艺术。 第5个月:高级机器学习 从第五个月开始,事情将变得严肃起来,因为您将学习高级机器学习算法来提升您的技能。在这个月里,您可以期望学习特征工程以及如何处理文本和图像。 第六个月:无监督机器学习 在这个月里,学会处理非结构化和无标签的数据。学习如何使用无监督机器学习算法处理非结构化数据,例如PCA、聚类、K-Means、异常检测等。您将终于开始进行项目。 第七个月:推荐引擎 推荐系统是Netflix、YouTube、Zomato等准确推荐背后的支撑。在第七个月,学习不同推荐技术背后的逻辑以及如何构建推荐引擎。同时,进一步实施令人兴奋的项目。 第八个月:处理时间序列数据 全球许多组织依赖时间序列数据观察数据集随时间的重复测量。在这个月里,学习如何处理时间序列数据,以及解决时间序列问题的有效技术。…

Leave a Comment

使用新的Amazon SageMaker容器提升LLMs的推理性能

今天,Amazon SageMaker推出了Large Model Inference (LMI) Deep Learning Containers (DLCs)的新版本(0.25.0),并新增了对NVIDIA的TensorRT-LLM Library的支持借助这些升级,您可以轻松访问最先进的工具,优化SageMaker上的大型语言模型(LLMs),并获得价格性能优势——Amazon SageMaker LMI TensorRT-LLM DLC将延迟降低了33% […]

Leave a Comment

使用Amazon SageMaker Model Registry、HashiCorp Terraform、GitHub和Jenkins CI/CD在多环境设置中推广管道

在人工智能(AI)和机器学习(ML)的快速发展环境中,为组织构建一个机器学习操作(MLOps)平台对于无缝衔接数据科学实验和部署,同时满足模型性能、安全性和合规性要求至关重要为了满足监管和合规要求,

Leave a Comment

使用MONAI Deploy在AWS上构建医学影像AI推理流程

在这篇文章中,我们向您展示如何创建一个可在使用MONAI Deploy App SDK构建的应用程序中重复使用的MAP连接器,以与AWS HealthImaging集成并加速从云原生DICOM存储中检索图像数据,用于医学影像人工智能工作负载MONAI Deploy SDK可用于支持医院运营我们还演示了两种托管选项,以便在SageMaker上大规模部署MAP AI应用程序

Leave a Comment

10个数据科学家都应该掌握的有用的Python技能

介绍 Python是一种多功能且强大的编程语言,对于数据科学家和分析师来说,它在工具包中扮演着核心角色。它的简洁和可读性使其成为处理数据的首选,无论是执行最基本的任务还是应用最前沿的人工智能和机器学习。无论您是刚开始数据科学之旅还是希望提升数据科学家的技能,本指南将为您提供使用Python进行数据驱动项目的知识和工具,助您发掘Python的全部潜力。让我们踏上这段揭示数据科学领域的Python基础知识之旅吧。 所有数据科学家应掌握的有用Python技能 数据科学是一门不断发展的学科,Python已成为数据科学家的核心语言之一。要在这个领域脱颖而出,掌握特定的Python技能至关重要。以下是每个数据科学家都应掌握的十个基本技能: Python基础知识 了解Python的语法:Python的语法以其简洁和可读性而闻名。数据科学家必须掌握基础知识,包括正确的缩进、变量赋值以及循环和条件结构等控制结构。 数据类型:Python提供了多种数据类型,包括整数、浮点数、字符串、列表和字典。了解这些数据类型对于处理和操作数据至关重要。 基本操作:熟练掌握算术、字符串操作和逻辑运算等基本操作是必要的。数据科学家使用这些操作来清洗和预处理数据。 数据操控与分析 熟练使用Pandas:Python的Pandas库提供了各种函数和数据结构,用于数据操控。数据科学家使用Pandas可以高效地从多个来源加载数据,包括CSV文件和数据库。这使他们能够高效地访问和处理数据。 数据清洗:Python与Pandas相结合,为数据清洗提供了强大的工具。数据科学家可以使用Python处理缺失值,删除重复记录,以及识别和处理异常值。Python的多功能性简化了这些关键的数据清洗任务。 数据变换:Python对于数据变换任务至关重要。数据科学家可以利用Python进行特征工程,即从现有数据中创建新的特征以提高模型性能。此外,Python还允许进行数据标准化和缩放,确保数据适用于各种建模技术。 探索性数据分析(EDA):Python和Matplotlib、Seaborn等库对于进行探索性数据分析(EDA)至关重要。数据科学家使用Python执行统计和可视化技术,揭示数据的模式、关系和异常值。EDA为假设的制定提供了基础,并帮助选择适当的建模方法。 数据可视化 Matplotlib和Seaborn:Python的Matplotlib库提供了各种自定义选项,允许数据科学家根据需要创建定制的可视化图形。包括调整颜色、标签和其他视觉元素。Seaborn简化了创建美观的统计可视化图形的过程。它增强了默认的Matplotlib样式,使得创建视觉吸引力的图表更加容易。 创建引人注目的图表:Python借助Matplotlib和Seaborn等工具赋予数据科学家开发各种图表的能力,包括散点图、条形图、直方图和热力图等。这些可视化图形是呈现数据驱动的洞察、趋势和模式的强大工具。此外,有效的数据可视化对于使复杂数据更易于理解和消化对于利益相关者而言至关重要。可视化呈现可以比原始数据更快速而全面地传达信息,有助于决策过程。 传达复杂洞察:数据可视化对于通过视觉方式传达复杂洞察至关重要。Python在这方面的能力简化了对发现的沟通,使非技术相关的利益相关者能够更容易理解和解释数据。通过将数据转化为直观的图表和图形,Python允许以引人注目的方式讲述数据的故事,有助于推动决策制定、报告生成和有效的数据驱动通信。 数据存储与检索 多样的数据存储系统:Python提供了与各种数据存储系统进行交互的库和连接器。对于像MySQL和PostgreSQL这样的关系型数据库,像SQLAlchemy这样的库可以简化数据访问。像PyMongo这样的库允许数据科学家使用NoSQL数据库(如MongoDB)进行工作。此外,Python可以通过像Pandas这样的库处理存储在平面文件(如CSV、JSON)和数据湖中的数据。 数据检索:数据科学家使用Python和SQL从关系型数据库(如MySQL和PostgreSQL)中检索数据。Python的数据库连接器和ORM(对象关系映射)工具简化了执行SQL查询的过程。 数据集成:Python在集成来自不同来源的数据的“提取、转换、加载(ETL)”过程中起到关键作用。像Apache Airflow这样的工具和像Pandas这样的库可以实现数据转换和加载任务。这些过程确保来自不同存储系统的数据统一到一个一致的格式中。 人工智能和机器学习 机器学习库:Python的scikit-learn库是机器学习的基石。它提供了许多用于分类、回归、聚类、降维等机器学习算法。Python的简洁性和scikit-learn库的用户友好的API使其成为数据科学家的首选。使用scikit-learn可以高效、有效地构建预测模型。 深度学习框架:深度学习框架TensorFlow和PyTorch在解决复杂的人工智能问题中起到关键作用。Python是TensorFlow和PyTorch的主要编程语言。这些框架提供了预建模型、广泛的神经网络架构和构建自定义深度学习模型的丰富工具。Python的灵活性和这些框架的能力对于图像识别、自然语言处理等任务至关重要。…

Leave a Comment

Can't find what you're looking for? Try refining your search: