Press "Enter" to skip to content

3518 search results for "数据"

提升数据安全性与协作能力:AWS Clean Rooms引入机器学习和差分隐私功能

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.49.22-AM-1024×573.png” /><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-07-at-2.49.22-AM-150×150.png” /><p>亚马逊网络服务(AWS)推出了安全数据共享服务Clean Rooms的新更新,通过创新的机器学习(ML)和差分隐私功能增强了其功能。这些进步使企业能够安全地协作,利用机器学习模型的能力,并在进行准确的数据分析的同时保护敏感数据隐私。</p><p>Clean Rooms的最新版本引入了一套强大的功能,旨在加强数据隐私和促进安全协作。机器学习支持的添加使用户能够利用ML模型而不暴露原始数据。这一创新功能使得协作数据分析成为可能,而不会危及数据隐私,对于希望获取洞察力而不泄露敏感信息的企业来说,这是一个福音。</p><p>一个重要的新增功能是将差分隐私功能集成到Clean Rooms中。这个新颖的功能将精心校准的错误或“噪音”引入到查询结果中,确保分析准确性同时使个人数据贡献难以理解。通过将隐私视为有限资源,并通过隐私预算组件对其进行处理,这个功能防止了数据泄露,避免了隐私资源的耗尽和潜在违规行为。</p><p>差分隐私是一种在数据共享期间增强隐私保护的技术,它可以揭示统计模式而不泄露具体个人细节的能力。AWS Clean Rooms简化了这项技术的应用,使其易于实施。通过启用差分隐私功能并在协作环境中配置隐私策略,用户可以轻松地使用这种增强隐私保护技术。</p><p>在此更新中的一个开创性功能是Clean Rooms ML,它允许用户在保护敏感数据的同时使用机器学习模型进行预测分析。它的应用涵盖了各个行业,促进了有针对性的营销工作,确定潜在客户,并加速了临床研究,同时不暴露关键信息。</p><p>Clean Rooms ML的实施涉及在组织数据共享协作中训练AWS管理的模型,从而消除了用户构建和部署自己的模型的需求。这种无缝整合的ML功能使用户具备灵活的控制能力,可以调整模型的预测结果,确保分析的适应性和精确性。</p><p>此外,Clean Rooms还引入了一系列隐私控制功能,授权用户管理具有适当权限的Clean Rooms成员执行的查询和输出。这个额外的控制层进一步加强了协作生态系统中的数据安全和隐私保护措施。</p><p>在本质上,改进后的AWS Clean Rooms标志着安全数据协作的范式转变,是在保护敏感信息的同时释放全面数据分析潜力的重要步伐。AWS通过融合最先进的机器学习和差分隐私功能,优先考虑了数据安全,而不会牺牲分析效率,为更安全、更有洞察力的协作未来铺平了道路。</p><p>本文首发于<a href=”https://guoyuhan.love/5g-robots-clean-singapores-rivers.html”>Enhancing Data Security and Collaboration:…

Leave a Comment

解锁数据科学之门:GATE 2024数据科学与人工智能的终极学习指南

介绍 工程研究生入学考试(GATE)是印度的一个入学考试,用于攻读研究生。这个考试主要测试工程和科学的本科学科的综合理解能力。如果你准备参加由IISc Bangalore推出的2024年GATE数据科学和人工智能考试,那么你来对地方了。本文是一个宝库 – 学习资料、讲义以及标准教材 – 它们将成为你在这个新颖而激动人心的GATE科目中的指南。 你准备的主要科目包括概率和统计、线性代数、机器学习、人工智能等等。这些不仅仅是任何学科,它们是数据科学和人工智能巨大建筑的支柱。我即将介绍的资源来源于IISc Bangalore的教授们的经典之作,都经过了检验和推荐。 概率和统计:机会和数据的游戏 在概率和统计方面,要准备迎接挑战。这个科目在GATE数据科学和人工智能考试中占有重要的分量,相比计算机科学与工程专业的课程,涵盖了更多的主题。要战胜这个强大的科目,你需要准备适合的参考书籍。我建议首先学习 Sheldon Ross 的《概率课程入门》,这是本本科学生必备的教材。一旦你掌握了基础,可以继续学习同一作者的《概率模型入门》。 对于那些渴望更进一步的知识的人,可以深入学习 S.C. Port 和 C.J. Stone 的《概率论入门》,然后是《随机过程入门》。这些书将带你深入了解随机建模和理论概率。 在讲座视频方面,MIT在概率和统计方面的课程无与伦比。无论你喜欢综合性的旧播放列表还是新的分支主题视频,他们都可以满足你的需求。别忘了检查probabilitycourse.com,那里有大量与GATE课程内容完美契合的例子和练习。 线性代数:数据科学的基石 线性代数是另一个需要重视的科目。GATE课程中新增了向量空间和奇异值分解等新主题,你不能浮于表面。要打好基础,你可以通过MIT的YouTube频道观看 Gilbert…

Leave a Comment

“Q4 Inc. 如何利用 Amazon Bedrock、RAG 和 SQLDatabaseChain 解决数值和结构化数据集挑战,构建他们的问答聊天机器人”

此文章由Q4 Inc.的Stanislav Yeshchenko共同撰写企业们越来越多地采用检索增强生成(RAG)作为构建问答聊天机器人的主流方法我们继续看到源于现有数据集种类的新挑战这些数据集通常是数值和文本数据的混合,有时是结构化的,…

Leave a Comment

通过使用来自Amazon SageMaker JumpStart的Pinecone向量数据库和Llama-2进行检索增强生成技术来缓解幻觉

尽管在各个行业中,似乎无法阻挡的对LLM的采用,但它们只是整个技术生态系统中的一个组成部分,为新的AI浪潮提供动力许多对话型AI应用需要LLM,如Llama 2、Flan T5和Bloom,以回答用户的查询这些模型依赖参数化知识来回答问题模型[…]

Leave a Comment

VoAGI新闻,12月6日:GitHub存储库用于掌握机器学习• 5个免费课程,掌握数据工程

本周在VoAGI上:发现来自机器学习课程、训练营、书籍、工具、面试题、备忘单、MLOps平台等的GitHub代码库,以掌握机器学习,保障你梦寐以求的工作 • 数据工程师必须准备和管理数据驱动的整个数据工作流所需的基础设施和工具…

Leave a Comment

与Favio Vazquez一起在拉丁美洲开创数据科学之路

在这一期的《数据引领》中,我们将特别介绍Favio Vazquez,他是一位从物理学家转变为计算机工程师和数据科学家的人。拥有物理学硕士学位和对宇宙学产生浓厚兴趣的Favio,不仅为H2O.ai公司带来了超过200万美元的新业务,还在拉丁美洲地区取得了20多个客户的成就。让我们一起探索Favio的旅程,揭示在物理学、计算以及数据科学的交叉点上的深刻洞见。 您可以在Spotify、Google Podcasts和Apple等热门平台上收听《数据引领》的这一期。选择您最喜欢的平台,享受有洞察力的内容吧! Favio Vazquez与我们的对话中的关键见解 对于那些有科学计算背景的人来说,转向数据科学通常是出乎意料的,但也是值得的。 数据科学职业需要在技术专长和商业头脑之间保持平衡,强调实际经验。 生成式人工智能将改变数据科学的未来,但机器学习的基础仍然重要。 数据科学家必须优先学习并了解行业趋势,以保持竞争力和创新力。 加入我们即将举行的《数据引领》会议,与AI和数据科学领域的领导者进行深入讨论! 现在,让我们看一下Favio Vazquez在会议中提出的问题以及他的回答! 您的数据科学之旅是如何开始的? 我进入数据科学的旅程相当偶然。我原来来自委内瑞拉,追求物理学和计算机工程,并对宇宙学和天体物理学有浓厚的兴趣。我预见到计算对物理学的日益重要性,这促使我学习编程和大规模计算问题。我的第一次真正接触数据科学是在一次实习中,我被要求进行数据分析。尽管从科学角度上,我对机器学习并不陌生,但将它应用于业务是对我来说的新领域。这次经历引起了我的兴趣,我开始深入研究数据挖掘和机器学习,标志着我数据科学职业的开始。 在墨西哥建立数据科学生态系统的早期挑战是什么? 当我来到墨西哥时,我意识到拉丁美洲需要建立一个数据科学社区。与那些与我分享此愿景的人一起,我们开始组织会议、分享知识,并与整个地区的专业人士建立联系。我们基本上为拉丁美洲第一批数据科学家奠定了基础。为了跟上全球趋势,我转向了VoAGI、Towards Data Science和Analytics Vidhya等平台,这些是当时很少的资源之一。 您是如何从学术界过渡到全面的数据科学职业的? 过渡是逐渐的。在攻读物理学硕士学位的同时,我已经开始为一些有趣的数据科学项目进行尝试。然而,墨西哥对数据科学专业知识的需求正在增长,公司开始与我合作。最终,我决定攻读物理学博士学位,并全身心地致力于数据科学职业。这个决定让我与墨西哥一些最大的公司合作,在建立他们的数据科学能力中发挥了战略性的作用。 您参与了哪些项目,并且它们是如何塑造您的职业生涯的? 我已经处理了不同的项目,预测客户行为,寻找最佳店铺位置,并评估银行风险。这些经验使我成为一名综合专家,在我目前在H2O.ai的角色中有所帮助,我负责各个行业的项目。我对新手的建议是:专注于数据科学的特定领域。如果你试图做太多的事情,很难被视为专家。 你在H2O.ai的角色是如何发展的?…

Leave a Comment

使用由Amazon Comprehend创建的自定义元数据,通过Amazon Kendra智能地处理保险理赔事务

结构化数据是按照固定模式进行定义的数据,例如存储在数据库中的列信息;而非结构化数据则没有具体的形式或模式,例如文本、图像或社交媒体帖子等这两种数据类型不断增长,因为它们被各种组织所生产和使用例如,根据国际数据公司(IDC)的统计,[…]

Leave a Comment

使用亚马逊SageMaker数据并行库实现更快的训练

在过去一年中,大型语言模型(LLM)的训练变得越来越流行,因为发布了一些公开可用的模型,如Llama2,Falcon和StarCoder现在,顾客们正在训练规模空前的LLM,参数数量从10亿到超过1750亿不等训练这些LLM需要大量的计算资源和时间,通常需要数百台机器并运行数周甚至数月

Leave a Comment

2024年必试的前15个矢量数据库

介绍 在数据科学快速发展的领域中,向量数据库在实现高维数据的高效存储、检索和操作方面发挥着关键作用。本文探讨了向量数据库的定义和意义,将其与传统数据库进行了比较,并详细介绍了2024年考虑的前15个向量数据库。 什么是向量数据库? 向量数据库的核心设计是高效处理向量化数据。与擅长结构化数据存储的传统数据库不同,向量数据库专注于管理多维空间中的数据点,使其非常适用于人工智能、机器学习和自然语言处理等应用。 向量数据库的目的在于促进向量嵌入、相似搜索和高维数据的高效处理。与可能难以处理非结构化数据的传统数据库不同,向量数据库在数据点之间的关系和相似性至关重要的场景中表现出色。 向量数据库 vs 传统数据库 方面 传统数据库 向量数据库 数据类型 表格格式的简单数据(文字、数字)。 具有专门搜索功能的复杂数据(向量)。 搜索方法 精确匹配数据。 使用近似最近邻(ANN)搜索进行最接近匹配。 搜索技术 标准查询方法。 使用哈希和基于图的搜索等专门方法进行ANN搜索。 处理非结构化数据 由于缺乏预定义格式而具有挑战性。 将非结构化数据转化为数值表示(嵌入)。 表示 基于表格的表示形式。…

Leave a Comment

“认识 RAGs:一个使用自然语言从数据源创建 RAG 管道的 Streamlit 应用程序”

GPT在自然语言处理任务中表现出色。然而,使用GPT构建和部署的流程可能会很长且复杂。这就是RAG的作用所在。 RAG是由Streamlit开发的一款应用程序,用于简化创建和部署GPT流程的过程。它提供了直观的界面,使用户可以指定任务和所需的RAG系统参数。然后,在RAG生成所需代码后,流程将自动部署。 最好的部分是RAG还有一个全新的版本RAGs v2。RAGs v2是自其初始发布以来的一次重要升级,为构建和自定义ChatGPT提供了更灵活和用户友好的体验。用户现在可以轻松创建、保存和管理多个RAG流程,每个流程都可以使用不同的数据集或系统提示进行自定义。此外,还可以删除未使用的流程,提高整体可用性。集成了代码检查和CI工具,提高了开发质量。RAGs v2还支持各类大型语言模型(LLM),用于在每个RAG流程中构建和使用。此外,它还可以加载文件或网页,进一步扩展其功能。提供了一个详细的说明视频,以便轻松设置和使用这个高级工具。 以下是该应用的三个主要部分: 在主页上,通过指示“builder agent”构建RAG流程。 可以在RAG配置部分中找到“builder agent”创建的RAG设置。您可以在此区域中自由更新或更改生成的设置,该区域具有用户界面。 使用常规的聊天机器人界面生成RAG agent,您可以根据数据向其提问。 如何使用RAGs 以下是使用RAGs的简单方法: 运行RAGs:要运行RAGs,执行以下命令: pip install rags 安装完成RAGs后,可以执行以下命令构建RAG流程: rags create-pipeline Streamlit应用程序将启动,您可以选择任务和所需的RAG系统规格。 完成创建RAG流程后,执行以下命令部署: rags…

Leave a Comment

15个引导性项目,提升你的数据科学技能

简介 在数据科学领域,创新与机遇相遇之处,对熟练专业人员的需求不断飙升。数据科学不仅仅是一种职业,它是解决复杂问题、推动创新和塑造未来的门户。行业每年的增长率超过36%,在数据科学领域的职业不仅有经济回报,也有知识满足感。理论知识和实践经验的结合对于在这个充满活力的环境中取得成功至关重要。在数据科学中的指导项目成为理论和实践之间的桥梁,提供在导师的引导下亲身学习的机会。 指导项目是什么? 在了解指导项目之前,了解一下数据科学职业的吸引力是很重要的。除了复杂的算法和庞大的数据集外,数据科学是解决现实世界挑战、推动行业发展的关键。最近的行业报告显示,数据科学家的中位薪资超过了平均薪资,使其成为一种吸引人的职业选择。行业的快速增长进一步扩大了具备正确技能和专业知识的人的机会。 独立数据科学项目中的挑战 挑战涵盖了管理庞大的数据集、实施复杂的算法和提取有意义的见解。现实世界的数据科学场景要求对技术细节和领域特定细微之处有着细腻的理解。在这里,指导项目的重要性就在于它们提供了一种结构化的方法和专家导师的指导,将困难的旅程转化为有启发性的学习体验。 我们可以帮助您完成的前15个指导项目 以下是我们在我们的BB+计划中涵盖的项目。我们的专家将通过他们卓越的指导帮助您深入了解它们的复杂性。 1. 纽约出租车需求预测 纽约出租车需求预测项目将参与者沉浸在动态的运输分析世界中。借助历史出租车行程数据,参与者深入预测模型来预测纽约市各个位置的出租车需求。该项目磨炼回归分析和时间序列预测技能,并提供关于空间数据可视化的见解。了解和预测出租车需求对于优化车队管理、提高客户服务以及贡献于高效的城市交通系统至关重要。 2. 场景分类挑战 在场景分类挑战中,参与者的任务是开发一个强大的图像分类模型,能够准确地将图像分类到预定义的类别中。利用卷积神经网络(CNNs)和迁移学习等深度学习技术,参与者获得了图像识别方面的实践经验。该项目的目标是构建准确的模型,并在图像分类的背景下理解特征提取、模型训练和验证的细微之处。 3. Pascal VOC图像分割 Pascal VOC图像分割项目向参与者介绍了引人入胜的图像分割世界。利用Pascal VOC数据集,参与者学习如何准确地轮廓绘制图像中的对象。该项目深入探讨语义分割的复杂性,其目标是将图像中的每个像素分配给特定的对象类别。精通图像分割对于计算机视觉、医学图像和自动驾驶等应用至关重要。 4. 场景生成 场景生成将参与者带入生成模型,特别是生成对抗网络(GANs)。其目标是通过生成类似于真实场景的图像来创建逼真的场景。参与者将探索GANs、对抗性训练和潜在空间操作的原理。该项目提高了生成模型的技能,并为创造由AI生成的内容提供了创造性的途径。 5. 大型超市销售预测…

Leave a Comment

使用Langchain构建半结构化数据的RAG管道

介绍 检索增强生成(Retrieval Augmented Generation)已经存在一段时间了。许多工具和应用程序围绕这个概念进行了构建,比如向量存储、检索框架和LLMs,使得处理自定义文档尤其是具有Langchain的半结构化数据变得方便。处理长、密集的文本从未如此轻松而有趣。传统的RAG对于不结构化的文本重型文件(如DOC、PDF等)效果良好。然而,这种方法对于嵌入在PDF中的半结构化数据(如嵌入式表格)效果不佳。 在处理半结构化数据时,通常有两个问题。 传统的提取和文本分割方法无法处理PDF中的表格。它们通常会破坏表格,从而导致信息的丢失。 嵌入表格可能无法转化为精确的语义搜索。 因此,在本文中,我们将使用Langchain构建一个用于处理半结构化数据的检索生成(Retrieval Generation)流水线,以解决这两个半结构化数据的问题。 学习目标 了解结构化、非结构化和半结构化数据之间的区别。 对检索增强生成和Langchain进行简要回顾。 学习如何使用Langchain构建一个用于处理半结构化数据的多向量检索器。 本文作为数据科学博文马拉松的一部分发表。 数据类型 通常有三种类型的数据:结构化数据、半结构化数据和非结构化数据。 结构化数据:结构化数据是标准化的数据,遵循预定义的模式,例如行和列。SQL数据库、电子表格、数据帧等。 非结构化数据:与结构化数据不同,非结构化数据没有数据模型。数据是随机的,例如PDF、文本、图像等。 半结构化数据:它是前两种数据类型的结合。与结构化数据不同,它没有严格的预定义模式。然而,数据仍然基于某些标记保持着分层次的顺序,这与非结构化类型形成了对比。例如CSV、HTML、嵌入式PDF中的表格、XML等。 什么是RAG? RAG代表检索增强生成(Retrieval Augmented Generation)。这是为大型语言模型提供新信息的最简单方法。现在,让我们对RAG进行一个快速介绍。 在典型的RAG流程中,我们有知识来源,如本地文件、网页、数据库等,一个嵌入模型,一个向量数据库和一个LLM。我们从各种来源收集数据,拆分文档,获取文本块的嵌入并将它们存储在向量数据库中。现在,我们将查询的嵌入传递给向量存储,从向量存储中检索文档,最后使用LLM生成答案。 这是传统RAG的工作流程,适用于如文本等不结构化数据。然而,当涉及到半结构化数据时,例如嵌入在PDF中的表格,它通常无法表现良好。在本文中,我们将学习如何处理这些嵌入式表格。…

Leave a Comment

Can't find what you're looking for? Try refining your search: