赋能数据领袖:掌握关键技能,推动商业洞见
Leave a CommentCategory: 数据科学
介绍 OpenAI的API由OpenAI开发,提供了今天最先进的语言模型之一。通过利用此API和使用LangChain&LlamaIndex,开发人员可以将这些模型的强大功能集成到自己的应用程序、产品或服务中。只需几行代码,您就可以利用OpenAI的语言模型的广泛知识和能力,开启令人兴奋的可能性世界。 OpenAI的语言模型的核心在于大型语言模型或简称LLM。LLM可以生成类似于人类的文本并理解复杂语言结构的上下文。通过在大量多样化的数据上进行训练,LLM已经获得了一种非凡的能力,能够理解和生成各种主题的上下文相关文本。 学习目标 在本文中,我们将探讨以下令人兴奋的可能性: 使用OpenAI的API结合LangChain和LlamaIndex轻松从多个PDF文档中提取有价值的信息。 如何格式化提示以提取不同数据结构中的值。 如何使用GPTSimpleVectorIndex进行高效的搜索和检索文档。 本文是Data Science Blogathon的一部分。 LlamaIndex和LangChain 使用这两个开源库构建利用大型语言模型(LLMs)的应用程序。 LlamaIndex提供了LLMs和外部数据源之间的简单接口,而LangChain提供了构建和管理LLM驱动应用程序的框架。尽管LlamaIndex和LangChain仍在开发中,但它们仍具有革命性的潜力,可以改变我们构建应用程序的方式。 所需库 首先,让我们安装必要的库并导入它们。 !pip install llama-index==0.5.6 !pip install langchain==0.0.148 !pip install PyPDF2…
Leave a Comment多方面的模型致力于整合来自不同来源的数据,包括书面语言、图片和视频,以执行各种功能。这些模型在理解和生成融合视觉和文本数据的内容方面展示了相当大的潜力。 多方面模型的一个关键组成部分是指令调整,它涉及基于自然语言指令对模型进行微调。这使得模型可以更好地理解用户的意图并生成精确而相关的响应。指令调整已经在大型语言模型(LLMs)如GPT-2和GPT-3中得到有效应用,使它们能够遵循指令以完成现实任务。 现有的多模态模型方法可以分为系统设计和端到端可训练模型两个方面。系统设计角度将不同的模型连接起来,使用类似ChatGPT的调度程序,但缺乏训练灵活性并可能成本高昂。端到端可训练模型角度将来自其他模态的模型集成在一起,但可能具有高训练成本或有限的灵活性。以前在多模态模型中的指令调整数据集缺乏上下文示例。最近,来自新加坡的一个研究团队提出了一种新方法,引入了上下文指令调整,并构建了具有上下文示例的数据集以填补这一空白。 本研究的主要贡献包括: 引入用于多模态模型中的指令调整的MIMIC-IT数据集。 开发具有改进指令跟踪和上下文学习能力的Otter模型。 优化OpenFlamingo实现,以便更易于访问。 这些贡献为研究人员提供了有价值的数据集、增强的模型和更加用户友好的框架,以推进多模态研究。 具体来说,作者介绍了MIMIC-IT数据集,旨在增强OpenFlamingo的指令理解能力,同时保留其上下文学习能力。该数据集由具有上下文关系的图像-文本对组成,而OpenFlamingo旨在基于上下文示例为查询的图像-文本对生成文本。MIMIC-IT数据集的介绍是为了增强OpenFlamingo的指令理解能力,同时保持其上下文学习。它包括图像-指令-答案三元组及其对应的上下文。OpenFlamingo是一个框架,使多模态模型能够根据图像和上下文示例生成文本。 在训练过程中,Otter模型遵循OpenFlamingo范例,冻结预训练的编码器并微调特定模块。训练数据遵循特定格式,包括图像、用户指令、“GPT”生成的答案和[endofchunk]令牌。该模型使用交叉熵损失进行训练,用Please view this post in your web browser to complete the quiz.令牌分隔预测目标的解决方案。 作者将Otter集成到Hugging Face Transformers中,以便轻松重用和集成到研究人员的流程中。他们针对4×RTX-3090 GPU进行了模型优化,并支持完全分片数据并行(FSDP)和DeepSpeed以提高效率。他们还提供了一个脚本,用于将原始OpenFlamingo检查点转换为Hugging…
Leave a Comment您是否厌倦了在大型 Excel 文件中花费无数个小时寻找特定信息?您并不孤单。幸运的是,Excel 的 VLOOKUP 工具来拯救,使数据发现变得更加容易。无论您是经验丰富的 Excel 用户还是初学者,掌握 VLOOKUP 可以极大地增强您的数据分析技能。本全面指南提供了您理解和有效使用 Excel 强大的 VLOOKUP 函数所需的所有知识。准备好使用 VLOOKUP 简化数据分析过程并提高生产力。 什么是 Excel 中的 VLOOKUP? 您可以使用强大的“垂直查找”或 VLOOKUP 函数在特定单元格范围内查找值。它是一个有用的工具,用于分类和组织大量数据,因为它从同一行中提取相关数据。VLOOKUP 可以简化您的流程,并在处理客户数据库、销售记录或财务数据时帮助您节省时间。 VLOOKUP…
Leave a Comment介绍 农作物产量预测是农业行业中必不可少的预测性分析技术。它是一种农业实践,可以帮助农民和农业企业预测特定季节的农作物产量,以便更好地种植和收获。预测性分析是农业行业中可用于农作物产量预测、风险缓解、降低肥料成本等方面的有力工具。使用机器学习和 Flask 部署的农作物产量预测将对天气条件、土壤质量、果实结数、果实质量等进行分析。 Unsplash 学习目标 我们将简要介绍使用授粉模拟建模来预测农作物产量的端到端项目。 我们将遵循数据科学项目生命周期的每个步骤,包括数据探索、预处理、建模、评估和部署。 最后,我们将使用 Flask API 在名为 render 的云服务平台上部署模型。 因此,让我们开始这个激动人心的实际问题声明。 本文是数据科学博客马拉松的一部分。 项目描述 用于此项目的数据集是使用空间显式模拟计算模型生成的,分析和研究影响野生蓝莓预测的各种因素,包括: 植物空间排列 异交和自交 蜜蜂物种组成 天气条件(单独和组合)对野生蓝莓的授粉效率和产量的影响。 该模拟模型已通过在过去30年中在美国缅因州和加拿大海岸收集的田野观察和实验数据进行验证,并现在是一个有用的工具,用于假设测试和野生蓝莓产量预测的估计。这个模拟数据为研究人员提供了从实地收集的实际数据,用于各种农作物产量预测实验,同时为开发人员和数据科学家提供了构建用于农作物产量预测的真实世界机器学习模型的数据。 模拟野生蓝莓田 什么是授粉模拟模型?…
Leave a CommentChatGPT的支柱是GPT模型,该模型是使用Transformer架构构建的Transformer的支柱是Attention机制对于许多人来说,最难理解的概念就是Attention
Leave a Comment现代世界见证了信息管理方式的显著转变曾经充斥着每个办公室的一堆纸张如今已被优美的数字格式所取代这种变化令人难以置信地改革了大数据的处理方式但您是否曾想过那款较为普通的传真机如何……从纸质到像素:数字传真如何转变大数据管理 阅读全文 »
Leave a Comment我敢打赌,几乎每个Python开发者有时都会使用“print”进行调试对于原型设计来说,这没有任何问题,但是对于生产环境,有更有效的处理方式…
Leave a Comment在之前的教程中,我涵盖了地理空间数据分析的各个方面我从展示地理空间数据的实际例子开始,而不使用任何代码,以便让您理解…
Leave a Comment数据存储库现在是我们最有价值的财产之一信息作为一种商品并不是一个新概念,但我们21世纪的世界现在看起来与以前大不相同人工智能…
Leave a CommentMIT-诺和诺德人工智能博士后研究员计划将在五年内每年支持最多10名博士后研究员
Leave a Comment挖掘浮动车数据是智能交通系统中的关键任务浮动车数据是指由配备有GPS设备的车辆收集的数据它们提供了有关…
Leave a Comment最近围绕数据科学和人工智能的热潮已经看到很多人转行进入这个领域然而,如果你正在尝试在保持另一份全职工作的同时进行这个转变,那么这很容易……
Leave a Comment通过一份全面的指南,发掘Julia编程语言在数据分析和建模方面的全部潜力,涵盖了从语法到高级技术的所有内容
Leave a Comment近年来,人工智能的发展集中在具有强大理解能力并能够行动的对话助手上。这些对话助手的显著成功可以归因于指令调整的实践,以及大型语言模型(LLMs)的高泛化能力。这意味着优化LLMs以适应由不同和优秀的指令描述的各种活动。通过包括指令调整,LLMs对用户意图有了更深入的理解,即使在新的未开发任务中也能提高它们的零-shot性能。 指令调整内部化了上下文,这在用户交互中是可取的,特别是当用户输入绕过明显的上下文时,这可能是零-shot速度提高的一个原因。对话助手在语言挑战方面取得了惊人的进步。然而,理想的非正式助手必须能够处理需要多种模态的任务。这需要一个广泛且顶尖的多模态指令跟随数据集。原始的图像语言指令跟随数据集称为LLaVAInstruct-150K或LLaVA。它是利用COCO图片、指令和基于项目边界框和图像描述的GPT-4的数据构建的。 LLaVA-Instruct-150K具有灵感,但它有三个缺点。 (1) 视觉多样性有限:因为数据集只使用COCO图片,所以其视觉多样性有限。 (2) 它使用单个图像作为可视输入,但是多模态对话助手应该能够处理多个照片甚至是长片。例如,当用户请求帮助为一组照片(或图像序列,如视频)命名时,系统需要正确响应。 (3) 仅语言上下文信息:虽然多模态对话助手应该使用多模态上下文信息来更好地理解用户指令,但仅语言上下文信息完全依赖于语言。 例如,如果人类用户提供所需功能的特定视觉样本,助手可以更好地将其对图像的描述与语气、风格或其他元素对齐。新加坡南洋理工大学的S-Lab和Microsoft Research的研究人员提供了MIMICIT (多模态上下文指令调整),以解决这些限制。MIMIC-IT具有多样化的视觉场景,包括不同数据集中的一般场景、自我中心视图场景和室内RGB-D图像的照片和视频。多个图像(或视频)用作可视数据,以支持各种图像或电影的指令-响应配对。多模态上下文信息包括在不同的指令-响应对、照片或视频中呈现的上下文数据 (有关数据格式的更多详细信息,请参见图1)。 他们提供了Sythus,一种受自我训练方法启发的自动化管道,用于有效地创建指令-响应配对。Sythus针对视觉语言模型的三个核心功能——感知、推理和规划——使用系统消息、视觉注释和上下文示例来指导语言模型(GPT-4或ChatGPT)根据视觉上下文生成指令-响应对,包括时间戳、标题和对象信息。指令和回复也被翻译成七种其他语言,以允许多语言使用。他们基于OpenFlamingo在MIMIC-IT上训练了一个名为Otter的多模态模型。 图1: MIMIC-IT与LLaVA-Instruct-150K数据格式比较。 (a) LLaVA-Instruct150K由单张图片和必要的上下文语言信息(黄框)组成。(b) MIMIC-IT提供多模态上下文信息,可以容纳多个图片或视频在输入数据中,即将视觉和语言输入都视为上下文信息。 Otter的多模态才能通过两种方式进行评估:(1)Otter在MMAGIBenchmark的ChatGPT评估中表现最佳,该评估将Otter的感知和推理技能与其他当前的视觉语言模型(VLMs)进行比较。(2)在多模态竞技场的人类评估中,Otter表现优于其他VLMs并获得最高的Elo分数。 Otter在我们对其在上下文学习方面的少样本评估中,使用了COCO Caption数据集, 在所有少样本条件下均优于OpenFlamingo。 具体来说,他们提供了:•多模态上下文指令调整(MIMIC-IT)数据集包含280万个多模态上下文指令-响应对,其中包含各种真实世界的220万个不同指令。 •Syphus是一个自动化流程,使用LLMs创建指令-响应对,可以根据视觉上下文生成高质量的多语言指令-响应对。…
Leave a CommentScikit-Learn 提供了许多有用的数据准备工具,但有时预先构建的选项还不够在本文中,我将向您展示如何使用…创建高级数据准备工作流程
Leave a Comment现代时代,可访问的在线数据量和范围是巨大的,这使得它成为了对于企业、研究人员和消费者来说具有重要洞察力的宝藏。但是,在访问最有价值的数据元素之前,您必须编译特定的细节。数据抓取,通常称为网络抓取,已成为从众多在线来源获取和提取此数据的强大方法。 本文回顾了数据抓取,它的工作原理、优点、挑战、工具等等。 什么是数据抓取? 数据抓取,通常称为网络抓取,是从网站获取数据并将数据转移到 Excel 电子表格或其他存储在计算机上的本地文件中的过程。它是从网站获取数据的最有效方式之一,并且在某些情况下可以在不同的网站上使用该数据。 来源: it-s 它涉及使用自动化程序或脚本从网页中提取详细数据,包括文本、照片、表格、链接和其他结构化数据。数据抓取使用户能够同时从多个网站收集数据,与传统的数据收集相比减少了所需的工作量和时间。 网络抓取软件(通常称为“机器人”)被构建用于探索网站、抓取相关页面并提取有意义的数据。这种软件可以通过自动化和简化这个过程来处理大量数据。 数据抓取的工作原理是什么? 数据抓取的过程包括以下步骤: 选择目标网站:决定哪个网站或互联网来源提供所需的数据。 选择要抓取的数据:确定要从网站收集的特定数据部分或信息,例如产品规格、客户反馈、价格数据或任何其他相关数据。 生成抓取代码:构建脚本或程序以遍历在线页面,查找所需数据并使用编程语言(如 Python、Java 或训练有素的抓取工具)提取它。这些脚本可能会与 API 连接或使用 HTML 解析技术获取数据。 执行抓取代码或软件:浏览目标网站,浏览其部分并运行网站抓取代码或程序以检索所需的数据。此过程可能涉及管理多个网站框架、分页或身份验证系统。 数据清理和验证:为了确保数据的质量和效用,收集数据后可能需要对其进行清理、验证和修改。在此步骤中,您可以清除任何不必要或冗余的信息,处理缺失值,并将数据格式化为所需的结构或格式。 数据存储或分析:当收集的数据经过清理和验证后,可以将其保存到数据库或电子表格中,或进一步处理以进行可视化、分析或与其他系统交互。 另请阅读:Java…
Leave a Comment战略目标是实现优秀的开发节奏(MLOps节奏)的基础它有助于确定您的开发方向,如何集中您的资源以及如何执行项目
Leave a CommentSeaborn Distplot 表示连续数据变量的总体分布distplot 是一个弃用的函数sns.distplot 的替代方案是什么?
Leave a Comment数据经常难以捉摸,隐藏在公司的各个角落,需要软技能和像福尔摩斯一样的调查才能找到并整合在一起有那座难以逾越的堡垒…
Leave a Comment介绍 在当今快速发展的数字时代,数据科学的整合已经彻底革新了许多行业,包括教育。随着教育工作者努力提供个性化的学习体验和提高学生成果,数据科学在教学领域的作用变得越来越关键。收集、分析和从大量的教育数据中获取洞见的能力为理解学生行为、优化教学策略以及最终转变我们的教育方式并为学生的数据科学职业提供动力开辟了新的途径。 今天的贵宾是Sagar Dhanraj Pande博士。他在Springer、Elsevier、CRC、Taylor & Francis等著名期刊上发表和展示了60多篇论文,这些期刊被Scopus索引和同行评审。此外,他还在Springer的国际会议上就数据挖掘、网络安全、物联网及其应用等主题发表论文。他曾指导过多名研究生从事网络安全、计算机网络、通讯和物联网领域的研究。他负责为本科和研究生教授人工智能、深度学习、机器学习、网络安全和研发课程。 Sagar Dhanraj Panda博士的职业经历 AV:您可以告诉我们您的教育背景,以及它如何使您成为VIT-AP的一级高级助理教授吗? Sagar博士:大家好,我是Sagar Dhanraj Pande博士,目前在VIT-AP担任一级高级助理教授。我在印度马哈拉施特拉邦阿姆拉瓦蒂的P.R.Patil工程学院获得了计算机科学与工程的本科和硕士学位。之后,我在印度旅行者大学攻读博士学位,我决定将深度学习和网络安全作为我的研究领域。从那时起,我开始了成为数据科学家的旅程。之后,我在旅行者大学担任助理教授。 AV:是什么启发您追求数据科学领域的职业?您是如何开始这个领域的? Sagar博士:我一直是一个数学迷;归根结底,数据科学、机器学习甚至复杂的深度学习网络只是它的应用。因此,我的数学兴趣引发了我对数据科学的兴趣。此外,我选择将深度学习和网络安全作为我的博士研究领域,我对这个领域更感兴趣。 AV:请描述一项您在职业生涯中遇到的特别具有挑战性的项目。您是如何克服所面临的障碍的? Sagar博士:我在博士期间所做的项目本身就非常具有挑战性,因为数据集上有很多现有的框架可供使用。为了克服这个问题,我提出了自己的定制框架来对数据集进行特征选择,并为了验证这个框架的效率,我将其应用到另一个数据集上,效果非常好。 AV:您如何平衡教学责任与研究和行业参与?您发现哪些策略最有效地管理您的时间? Sagar博士:嗯,我总是尝试探索更相关于我的研究领域的新课题。我一直喜欢阅读数据科学领域最近的创新和发展。我通常会利用讲座间隙来进行研究活动。我与学生合作的任何协作项目,我的主要重点是将其转化为专利、版权或研究文章。由于这一点,我不必另外花时间进行研究。 AV:您能谈谈您在职业生涯中面对失败或挫折的时候,以及您如何从中反弹回来的经历吗? Dr. Sagar:数学是我最喜欢的学科之一。但是在本科期间,由于我在数学方面得分很低,所以那学期我的成绩不好。那段时间我感到很沮丧。但是我的父母、老师和朋友们都对我充满信心。他们时不时地激励我,最终我通过获得大学排名完成了本科和硕士学业。 数据科学职业的建议 AV:您认为在数据科学领域取得成功所必需的一些最重要的技能或素质是什么?…
Leave a Comment流星雨照亮夜空的景象令人惊叹。然而,更大的天体与地球相撞的威胁构成了实际的危险。为了对抗这种潜在的灾难,加利福尼亚大学圣塔芭芭拉分校(UCSB)物理学教授菲利普·卢宾和他的本科生团队正在开展开创性的PI-Terminal行星防御计划。他们的目标是更有效地检测和减轻空间威胁,并且他们最近获得了NASA的二期资金用于研究。NVIDIA通过他们的应用研究加速器计划向该团队提供了一张NVIDIA RTX A6000图形卡,以帮助他们完成任务。让我们深入了解这个旨在保护我们的星球免受宇宙威胁的创新人工智能项目的细节。 另请阅读:外星人启发的航天器设计:NASA进军太空未来的大胆跃进 粉碎空间威胁 PI-Terminal行星防御计划的核心目标是更早地检测到相关威胁并采取果断行动来最小化其影响。面对即将发生的碰撞,UCSB团队计划利用一系列高超速动能穿透器。这些专门设计的设备旨在粉碎和解体小行星或小彗星,有效地消除威胁,使其在到达地球表面之前消失。通过分解这些天体,可以大大减少潜在的损害和对地球生命的风险。 检测即将来临的灾难 识别威胁是保护地球的第一个至关重要的步骤。卢宾和他的学生们利用人工智能(AI)分析了大量的天体物理数据。虽然现代调查收集了大量数据,但在所需的速度下处理和分析这些信息是具有挑战性的。为了克服这一障碍,UCSB团队正在设计适用于行星防御的大规模调查。这项调查将产生更多的数据,需要快速处理和分析。 训练AI哨兵 卢宾的团队使用机器学习技术训练了一个名为“You Only Look Once Darknet”的神经网络。这个几乎实时的物体检测系统每张图像的操作时间少于25毫秒。通过利用一个大型的标记图像数据集,神经网络已经被训练来识别低级几何特征,例如线条、边缘、圆圈以及像小行星和小彗星这样的威胁。早期结果表明,由AI驱动的源提取过程比传统方法快10倍,准确率几乎提高了3倍。 另请阅读:AI发现了太阳系外的新行星,科学家未能找到 超级加速处理速度 为了加速他们的图像分析过程,UCSB团队已经整合了NVIDIA RTX A6000 GPU和CUDA并行计算平台。团队最初面临的挑战是减少处理时间并满足GPU内存需求。然而,由于RTX A6000拥有48GB的内存,他们可以处理复杂的图形和大型数据集,而不会影响性能。通过实施新的基于CuPy的算法,该团队极大地减少了减法和识别时间,使整个流程可以在仅六秒钟内运行。 解决技术挑战 随着项目的发展和越来越多的训练数据,该团队面临着处理越来越大的文件大小的挑战。RTX A6000慷慨的内存容量使该团队能够处理分辨率约为100百万像素的图像数据集。这个强大的GPU消除了数据传输瓶颈,确保了平稳的处理和分析。 逼真的模拟以获得精确的解决方案…
Leave a Comment条件语句根据真假条件执行代码它们是编码的重要组成部分,尤其在 R 中更是如此无论您是在使用 R 进行数据分析…
Leave a CommentRendered.ai通过其平台即服务为开发人员、数据科学家和其他人提供合成数据生成或SDG的服务,从而简化了AI培训。 训练计算机视觉AI模型需要大规模、高质量、多样化和无偏见的数据集。这些数据集可能难以获取,成本也很高,尤其是随着AI的需求不断增加。 Rendered.ai平台即服务通过生成物理准确的合成数据来解决这个问题,即从3D模拟创建的数据,以训练计算机视觉模型。 “现实世界的数据通常无法捕捉到泛化AI模型所需的所有可能的场景和边缘情况,这就是为什么SDG对于AI和机器学习工程师至关重要的原因,”总部位于西雅图郊区贝尔维尤的Rendered.ai的创始人兼首席执行官Nathan Kundtz说。 作为NVIDIA Inception计划的一员,Rendered.ai现已将NVIDIA Omniverse Replicator集成到其平台中,这是开发和运行工业元宇宙应用程序的Omniverse平台的核心扩展。 Omniverse Replicator使开发人员能够为许多这类应用程序生成标记的合成数据,包括视觉检查、机器人和自主驾驶。它基于用于3D工作流程的开放标准,包括通用场景描述(“OpenUSD”)、材料定义语言(MDL)和PhysX。 使用Rendered.ai生成的合成图像已用于为虚拟世界建模景观和植被,检测卫星图像中的物体,甚至测试人类卵细胞的可行性。 使用Omniverse Replicator生成的合成图像。图像由Rendered.ai提供。 通过利用Omniverse Replicator的RTX加速功能,例如光线追踪、域随机化和多传感器模拟,计算机视觉工程师、数据科学家和其他用户可以通过云中的简单Web界面快速轻松地生成合成数据。 “我们用来训练AI的数据实际上是影响AI性能的主导因素,”Kundtz说。“将Omniverse Replicator集成到Rendered.ai中将为用户提供使用合成数据训练更大、更好的应用于各行各业的AI模型的新水平的便捷性和效率。” Rendered.ai将在计算机视觉和模式识别会议(CVPR)上展示其与Omniverse Replicator的平台集成,该会议将于6月18日至22日在加拿大温哥华举行。 云中的合成数据生成 Rendered.ai现在可以通过AWS Marketplace使用,为开发人员和团队带来了一种协作的Web界面,可由计算机视觉工程师和数据科学家轻松配置,用于设计可以轻松配置的SDG应用程序。 这是一个一站式商店,人们可以通过Web浏览器共享包含SDG数据集、任务、图表等的工作区。 Rendered.ai平台即服务的视图,可在Web浏览器上使用。图像由Rendered.ai提供。…
Leave a Comment与其他公司的同行以及不属于数据团队的同事交谈时,我实际上发现许多利益相关者依赖某种形式的数据文档,并希望找到…
Leave a Comment大型语言模型(LLMs)可以提取信息和生成信息,但它们也可以转换信息,使得提取、转换和加载(ETL)成为一个可能完全不同的工作我将…
Leave a Comment