Press "Enter" to skip to content

3518 search results for "数据"

成为数据分析领袖与Rajan Sethuraman

Published December 1, 2023 by 四海吧

在这一期的用数据引领节目中，LatentView Analytics的首席执行官Rajan Sethuraman讨论了他从安永（Accenture）到领导一个快速增长的分析公司的经历。他强调了转型LatentView所面临的挑战，特别强调了生成式人工智能、人才招聘和地理扩张。Rajan与那些打算从事数据分析职业的人分享了见解。您可以在流行平台上收听这一期的Leading with Data，如Spotify、Google Podcasts和Apple。选择您喜欢的平台，享受深入的内容！与Rajan Sethuraman的对话中的关键见解分析公司从执行到战略伙伴的转变对于提供增强客户价值至关重要。人才招聘应优先考虑技术、数学和商业技能的结合，培养持续学习的文化。生成式人工智能正在革新分析，为个性化和高效解决方案打开了新的机会。战略性的地理扩张和有机增长对于分析公司扩大市场份额和提升能力至关重要。数据分析市场的迅速增长要求公司适应新兴趋势并探索相关机会。加入我们即将举行的Leading with Data活动，与AI和数据科学领域的领导者进行深入讨论！现在，让我们来看看Rajan Sethuraman在这个节目中提出的问题以及他的回答！您是如何开始从事分析和数据科学的旅程的？在安永（Accenture）工作了二十多年，然后在毕马威（KPMG）工作了一年之后，我于2016年6月加入了LatentView Analytics。LatentView对我非常吸引，它将我在管理咨询方面的背景、广泛的分析经验和后来在人才招聘和预测建模方面的专长相结合。我被LatentView能够通过数据分析解决复杂业务问题的能力所吸引。从安永到LatentView Analytics的过渡是什么样的？从安永转到LatentView是一个很大的改变，因为两家公司的规模差异很大。我被在像LatentView这样规模较小、充满活力的公司中发挥影响的潜力所吸引。在LatentView，文化活跃，有着聪明人员在解决具有挑战性的问题。我的角色从首席人力资源官发展到首席执行官，我致力于将LatentView从执行合作伙伴转变为我们客户的战略思想合作伙伴。…

Continue reading

Leave a Comment

“用Python进行数据科学的线性代数”

Published December 1, 2023 by 四海吧

线性代数是数学的一个分支，在数据科学中非常有用我们可以通过使用线性代数对大量的数据进行数学运算大多数机器学习算法都使用线性代数…

Continue reading

Leave a Comment

见证关系深度学习基准（RelBench）：一系列逼真、大规模且多样化的关系数据库机器学习基准数据集

Published December 1, 2023 by 四海吧

在人工智能（AI）和机器学习（ML）这两个快速发展的领域中，寻找有效的、自动化的和适应性强的方法变得极其重要。AI和ML方法的不断提升已经改变了机器可以完成的事情以及人类如何与机器交互的可能性。包括深度学习在内的AI领域完全依赖于数据，重要的数据存储在数据仓库中，通过主外键关系链接在多个表中分散存储。使用这样的数据开发ML模型存在许多困难，需要大量的时间和工作，因为现有的ML方法并不适合直接从跨越多个关系表的数据中学习。目前的方法要求将数据通过一种称为特征工程的过程转换成单个表。为了克服这一挑战，斯坦福大学、Kumo AI、耶鲁大学、马克斯普朗克学院和伊利诺伊大学厄巴纳-香槟分校的研究团队最近提出了关系深度学习。这种端到端的深度表示学习技术可以处理分散在多个表中的数据。该方法已经被开发成一种将关系表作为异构图的基本方法。该图模型中的每个表行代表一个节点，而主外键关系定义了边。使用消息传递神经网络（MPNNs），可以自动遍历并学习多个表，从而提取利用所有输入数据的表示，并且不需要任何手动特征工程。研究团队还提出了RELBENCH，这是一个包括基准数据集和关系深度学习实现的综合框架。这些数据集涵盖了各个领域，从亚马逊产品目录中的图书评论到像Stack Exchange这样的网站上的对话。 RELBENCH包含三个核心模块，具体如下：数据模块：RELBENCH的数据模块提供了有效使用关系数据集的框架。其中包括三个重要特性：时间数据划分、任务规范和数据加载。模型模块：该模块通过将未处理数据转换为图形表示来构建图神经网络（GNNs）的预测模型。使用强大的深度学习库PyTorch Geometric，RELBENCH对几种广泛使用的GNN架构进行了基准测试。该模块允许模型架构的灵活性，对于桥接预测模型和原始关系数据开发之间的差距至关重要。评估模块：该模块创建了一个统一的评估模型性能的过程。它以系统化的方式评估预测文件，提供了模型的有效性的量化指标。该模块与各种受欢迎的深度学习工具配合使用，因为它被设计为与深度学习框架无关。这种适应性使研究人员和从业者可以使用他们选择的框架，而不会牺牲评估过程。

Leave a Comment

科学家们开发出更高效的设备间数据传输方式

Published November 30, 2023 by 四海吧

研究人员展示了一种在保持高吞吐量的同时以电波而非电磁波的方式传输数据的低功率方法

Continue reading

Leave a Comment

ChatGPT的代码解释器：GPT-4高级数据分析用于数据科学家

Published November 30, 2023 by 四海吧

介绍 ChatGPT是由OpenAI开发的强大语言模型，凭借其理解和对人类输入进行对话回应的能力，席卷了全球。ChatGPT最令人兴奋的特点之一是其能够生成包括Python、Java、JavaScript和C++在内的各种编程语言的代码片段。这个特性使得ChatGPT成为开发人员的热门选择，他们可以通过它快速原型设计或解决问题，而不需要自己编写整个代码库。本文将探讨ChatGPT对数据科学家的高级数据分析代码解释器以及它的工作原理和生成机器学习代码的用途。我们还将讨论使用ChatGPT的一些优点和限制。学习目标了解ChatGPT的高级数据分析如何工作以及如何用它生成机器学习代码。学习如何使用ChatGPT的高级数据分析来为使用Python的数据科学家生成代码片段。了解ChatGPT的高级数据分析生成机器学习代码的优点和限制。学习如何使用ChatGPT的高级数据分析设计和实现机器学习模型。了解如何预处理机器学习数据，包括处理缺失值，编码分类变量，对数据进行归一化和缩放数字特征。学习如何将数据拆分为训练集和测试集，并使用准确率、精确率、召回率、F1分数、均方误差、绝对误差、R平方值等指标评估机器学习模型的性能。通过掌握这些学习目标，人们应该了解如何使用ChatGPT的高级数据分析生成机器学习代码并实现各种机器学习算法。他们还应该能够将这些技能应用到现实世界的问题和数据集上，展示他们在使用ChatGPT的高级数据分析处理机器学习任务方面的熟练程度。本文作为”数据科学博客马拉松”的一部分发表。 ChatGPT的高级数据分析是如何工作的？ ChatGPT的高级数据分析基于一种称为Transformer的深度学习模型，该模型经过大量文本数据的训练。Transformer使用自注意机制来理解输入文本的不同部分之间的上下文和关系。当用户输入提示或代码片段时，ChatGPT的模型根据训练数据学到的模式和结构生成响应。 ChatGPT的高级数据分析可以通过利用大量的在线代码来生成代码片段。ChatGPT的模型可以通过分析开源存储库和其他代码源学习各种编程语言的语法、语义和习惯用法。当用户请求生成相关且可行的代码片段时，ChatGPT的模型可以利用这些知识生成代码。使用ChatGPT生成机器学习代码机器学习是ChatGPT的高级数据分析最有前景的应用之一。随着深度学习和机器学习应用的兴起，它们越来越成为研究和开发的重要领域。然而，设计和实现这些模型可能复杂且耗时，需要在线性代数、微积分、概率论和计算机科学等方面具备专业知识。 ChatGPT的高级数据分析可以通过生成机器学习代码片段来简化这个过程，用户可以将这些代码片段集成到自己的项目中。例如，用户可以要求ChatGPT生成一个基于提供的以.csv格式输入的加利福尼亚州房价训练数据的线性回归技术的代码片段。ChatGPT的模型可以根据用户的输入生成包含必要导入、数据预处理步骤、模型架构和训练过程的代码片段。将数据集上传到ChatGPT中的代码解释器，并在下面的提示框中输入。提示：使用sklearn对上述数据集执行线性回归，并显示所有步骤的Python代码。数据中的预测变量是median_house_value。回答：使用sklearn在“housing.csv”数据集上进行线性回归的步骤，以“median_house_value”作为目标变量，如下所示：数据探索：加载数据集并快速检查其结构。数据预处理：处理缺失值，对分类变量进行编码（如果有），并对数值特征进行缩放。数据拆分：将数据集拆分为训练集和测试集。…

Continue reading

Leave a Comment

数据科学项目的前五个替代GitHub的选择

Published November 30, 2023 by 四海吧

这篇博客讨论了为数据科学家设计的五个平台，这些平台具备处理大规模数据集、模型、工作流和协作的专业能力，超越了GitHub所提供的功能

Continue reading

Leave a Comment

令人震惊的现实：ChatGPT对数据泄露的脆弱性

Published November 30, 2023 by 四海吧

最近一份名为“从ChatGPT中提取训练数据”的研究论文揭示了一项重大发现，这个广泛应用的语言模型存在一个令人震惊的漏洞。研究团队的调查显示，仅需两百美元就可以提取数兆字节的ChatGPT训练数据，揭示了一次前所未有的数据泄露。研究强调，像ChatGPT这样的自然语言理解模型是通过从公共互联网获取的数据进行训练的。该论文揭示了一种攻击方法，可以通过查询模型来提取其所接受训练的精确数据。令人震惊的是，研究人员估计，通过进一步的财务投资，可能可以提取高达一千兆字节的ChatGPT训练数据集。这次数据泄露具有重大意义，因为它针对的是一个“对齐”的生产模型，旨在避免披露大量的训练数据。然而，研究人员表明，通过一种开发的攻击方法，可以迫使模型披露其大量的训练数据。训练数据提取攻击及其对你的重要性揭示这一发现的研究团队多年来一直致力于“训练数据提取”项目。当ChatGPT这样的机器学习模型保留其训练数据的随机方面时，就会发生训练数据提取，使其容易受到攻击。这篇论文首次揭示了一个对一个已上线的对齐模型——ChatGPT的训练数据提取攻击。在图片中，您可以看到电子邮件和联系信息是被分享的。这个漏洞的影响是深远的，尤其是对那些拥有敏感或原始数据的人士而言。除了数据泄露的担忧，该论文还强调了模型记忆和重复训练数据的风险，这对依赖创新性的产品来说是一个关键因素。从ChatGPT中提取数据这项研究提供了成功从ChatGPT提取训练数据的证据，即使该模型只能通过聊天API进行访问，并且可能已经对抗数据提取进行了对齐。该攻击发现了一个绕过隐私保护的漏洞，使ChatGPT脱离了其微调对齐并恢复到其预训练数据。研究团队强调，ChatGPT的对齐隐藏了记忆功能，当受到特定攻击时，数据输出的频率显著增加。尽管外表看起来不是这样，但该模型的记忆能力是传统攻击的150倍。对测试和红队模型的影响该论文提出了对ChatGPT广泛使用的担忧，该模型已经产生了超过十亿人小时的交互作用。然而，数据输出的高频率仍然未被注意到。语言模型中的潜在漏洞，以及区分表面上安全和真正安全模型之间的挑战，都存在重大挑战。现有的记忆测试技术无法揭示ChatGPT的记忆能力，因为对齐步骤对其进行了隐藏。这凸显了需要增强的测试方法来确保语言模型的安全性。还可阅读：导航隐私问题：ChatGPT用户的聊天标题泄露解释我们的观点揭示ChatGPT对数据泄露的漏洞，凸显了对机器学习模型的演变中的安全性分析的重要性。需要进一步的研究来确保这些系统的安全性。在当今技术驱动的时代，ChatGPT对数据泄露的敏感性提醒了保护先进语言模型面临的挑战。

Leave a Comment

鸭子AI推出DuckTrack：一款多模态计算机交互数据收集器

Published November 30, 2023 by 四海吧

准确追踪用户交互行为是促进计算机智能能力提升的基石。这项任务在开发和训练智能系统中起着至关重要的作用。这些系统的有效性取决于对用户交互行为的仔细检查和系统记录。 Duck AI的研究人员开发了DuckTrack，以准确记录各种输入，以便能够将这些数据用于正确训练计算机智能代理。DuckTrack通过与主要操作系统兼容的用户友好型桌面应用程序提供了一种同步收集鼠标、键盘、屏幕视频和音频数据的方法。此外，DuckTrack启动了社区数据收集倡议。这一开源努力邀请贡献者参与收集多样化的计算机交互数据。DuckTrack在所有主要操作系统上运行流畅，并且使用Python创建。DuckTrack的特色概述展示了其对鼠标和键盘动作的精确记录和回放能力。研究人员表示，将屏幕录制与OBS集成可以进一步提升其多功能性。对于DeepTrack，在绘图任务中结构相似性指数（SSIM）始终超过0.9。每个事件都以0.03ms ± 0.4ms的较低误差范围进行记录，超过了市场上现有跟踪器的准确性。DuckTrack在性能指标方面具有卓越的表现，这使其成为追求顶级跟踪和回放解决方案的可靠选择。但DuckTrack也存在某些限制。在回放过程中模拟双击或三击实际上是一个挑战，影响了这些动作的准确性。此外，DuckTrack无法记录触控板手势，并且在涉及原始信息（如游戏）的情况下存在一些限制。开发人员正在积极努力解决这些限制，并通过持续与社区互动来提高DuckTrack的功能。研究人员在不同系统上进行了DuckTrack的测试，包括运行macOS Sonoma 14.0的M2 Pro MBP 14以及运行PopOS! 22.10（基于Ubuntu）和Windows 10 22H2的Intel i7-10510U System76 Lemur Pro 9。他们在ReCAPTCHA任务上测试了DuckTrack，这是人类运动的代理，结论是它在十次尝试中表现出100％的成功率。虽然硬件差异可能会略微影响性能，但跨操作系统的准确性一致性强调了DuckTrack的可靠性。研究人员将很快宣布有关贡献和设置数据收集的详细指南，鼓励集体努力来改进和完善DuckTrack的功能。 DuckTrack在收集计算机交互数据方面被证明是一项革命性的工具。凭借对精度的执着、不断的社区参与和对改进的重视，DuckTrack成为寻求卓越回放和跟踪功能的个人和企业的首要选择。DuckTrack正在为更精密和无缝的多模式计算机交互体验铺平道路。在此处下载适用于您的系统的预构建应用程序。

Leave a Comment

在亚马逊SageMaker Canvas中加快机器学习的数据准备工作

Published November 30, 2023 by 四海吧

数据准备是任何机器学习（ML）工作流程中至关重要的一步，但它往往涉及冗长而耗时的任务Amazon SageMaker Canvas现在支持由Amazon SageMaker Data Wrangler驱动的全面数据准备能力通过这种集成，SageMaker Canvas为客户提供了一个端到端的无代码工作空间，用于准备数据、构建和使用ML和[…]

Continue reading

Leave a Comment

学习数据科学需要多久时间？

Published November 30, 2023 by 四海吧

介绍数据科学已经成为技术市场上最有价值的技能之一。在数据科学革命之前，处理数百万个测试用例的数据需要花费长达11-12年的时间。但现在，只需几个月，有时甚至只需要几个星期！那么，学习数据科学需要多长时间？令人惊讶的是，你只需要一年就可以成为一名数据科学家。这取决于你的学习速度和持续性。让我们看看成为数据科学家需要多长时间，以及为什么你应该成为一名数据科学家。为什么选择数据科学职业？机器学习和人工智能正在征服世界，得益于不断发展的技术世界。根据预测，到2026年，数据科学市场收入预计将达到$3229亿美元。技术、大数据和机器学习算法在企业中的快速应用导致了数据科学的快速增长。根据劳动统计局的数据，数据科学家平均年薪约为$100,000。有许多职业机会可供选择，你可以成为数据分析师、数据科学家等，拥有高薪水，符合你的技能。成为数据科学家需要多长时间？每个人成为数据科学家的道路可能不同。如果我们将每个月分为特定的主题，你可以在12个月内学习数据科学。只要保持持续的努力和学习的热情，任何人都可以在一年内掌握数据科学的艺术。然而，学习曲线取决于你的持续性和学习数据科学的时间。由于之前对数据科学具有基础知识，有些人可以较短时间内掌握数据科学。跟随并在12个月内学习数据科学的基础和复杂概念。让我们看看每个月的内容蓝图，了解学习数据科学需要多长时间。第1个月：数据科学工具包让我们以基本的数据科学工具开启你成为数据科学家的旅程。通过学习常见但重要的数据科学工具，如Python及其库NumPy、Pandas、Matplotlib和Seaborn，可以为接下来几个月打下坚实的基础。第2个月：数据可视化在打下坚实基础之后，我们进入成为数据科学家的下一个阶段，掌握数据可视化的艺术。熟悉数据可视化工具，如Tableau，掌握绘制图表、分布地图等技术。本月还将开始学习SQL。第3个月：数据探索第三个月重点介绍如何利用隐藏数据进行数据探索。数据探索是指将信息型数据以关键洞察的形式展示出来。本月将教你如何使用探索性数据分析（EDA）探索数据。你可以学习成为一名数据科学家所需的统计学基础知识。第4个月：机器学习基础与讲故事的艺术本月将开始你的机器学习奇妙之旅。你将学习机器学习的基础知识，并熟悉技术术语和技巧。通过结构化思维，你将掌握讲故事的艺术。第5个月：高级机器学习从第五个月开始，事情将变得严肃起来，因为您将学习高级机器学习算法来提升您的技能。在这个月里，您可以期望学习特征工程以及如何处理文本和图像。第六个月：无监督机器学习在这个月里，学会处理非结构化和无标签的数据。学习如何使用无监督机器学习算法处理非结构化数据，例如PCA、聚类、K-Means、异常检测等。您将终于开始进行项目。第七个月：推荐引擎推荐系统是Netflix、YouTube、Zomato等准确推荐背后的支撑。在第七个月，学习不同推荐技术背后的逻辑以及如何构建推荐引擎。同时，进一步实施令人兴奋的项目。第八个月：处理时间序列数据全球许多组织依赖时间序列数据观察数据集随时间的重复测量。在这个月里，学习如何处理时间序列数据，以及解决时间序列问题的有效技术。…

Continue reading

Leave a Comment

数据科学中的认知偏差：类别-大小偏差

Published November 29, 2023 by 四海吧

想像一下你发现自己身处一个古雅的街区，里面有两家面包店第一家是一家小型家族经营的面包店，温馨地坐落在街角然而，第二家则是一家宏伟的三层楼……

Continue reading

Leave a Comment

《使用 {dplyr} 进行 R 数据操作入门》

Published November 29, 2023 by 四海吧

在之前的帖子中，我们展示了如何在R中操作数据特别是，我们演示了如何创建和操作向量、因子、列表和数据框这是对R的介绍…

Continue reading

Leave a Comment

「这项AI研究介绍了FollowNet：一种用于车辆跟随行为建模的全面基准数据集」

Published November 29, 2023 by 四海吧

跟随其他车辆是最常见和基本的驾驶活动。安全地跟随其他车辆可以减少碰撞，使交通流畅和可预测。当驾驶员在道路上跟随其他车辆时，适当的跟车模型会以数学或计算方式表示这种行为。现实世界驾驶数据的可用性和机器学习的发展在过去十年中在数据驱动的跟随车辆模型的繁荣方面起到了重要作用。依赖数据来跟随车辆的模型包括神经网络、循环神经网络和强化学习。然而，目前的研究中存在一些限制，如下所示：首先，由于缺乏标准数据格式，跟车模型尚未得到很好的评估。尽管公共驾驶数据集如NGSIM和HighD等可用，但由于缺乏标准数据格式和跟车模型的评估标准，很难将新提出的模型的性能与现有模型进行比较。其次，当前研究中的数据集有限，无法准确描述混合交通流中的跟车行为。以不考虑自动驾驶车辆的小数据集对车辆跟随行为进行建模一直是过去研究的重点，而在这个时候，人工驾驶和自动驾驶车辆共同在道路上行驶。为了解决这些问题并创建一个标准数据集，香港科技大学，广东省集成通信重点实验室，同济大学和华盛顿大学的一项新研究发布了一个名为FollowNet的基准。他们使用一致的准则从五个公开可用的数据集中提取了跟随车辆事件以建立这个基准。研究人员在基准范围内执行和评估了五个基准跟车模型，包括传统和数据驱动的方法。他们利用统一的数据格式为行为设定了第一个标准，以便促进跟车模型的创建。处理来自不同数据集的多样化数据结构和框架可能会很困难，但是他们统一的跟车基准考虑到了这一点。通过使用基准进行训练和评估的两种传统和三种数据驱动的跟随车辆模型——GHR、IDM、NN、LSTM和DDPG。五个流行的公共驾驶数据集——HgihD53、Next Generation Simulation（NGSIM）54、Safety Pilot Model Deployment（SPMD）55、Waymo56和Lyf57——都包含了该基准所定义的跟随车辆事件。研究人员对跟车行为和基本统计信息的几个数据集进行了分析。结果显示使用一致的指标评估基准模型的性能。特别是Waymo和Lyf数据集显示了混合交通情况下的跟车事件。研究人员没有包括持续时间超过90%的静态事件。即使数据驱动的模型在间距最小均方误差方面表现较传统模型更低，碰撞仍然是可能的。发展具有零碰撞率和较少间距误差的跟车模型是可取的。为了在跟车模型中包含驾驶异质性，需要创建适应性算法和代表性数据集，涵盖各种驾驶风格、行为和交通情况。研究人员建议未来的数据集必须加入其他特征，以进一步改进跟随车辆模型的性能和真实性。例如，通过添加交通信号和道路条件数据，可以更完整地了解道路环境。如果算法集成了附近车辆及其活动的数据，也可以考虑复杂关系并提供更好的预测。未来的数据集将能够更好地反映真实世界的驾驶场景，从而为创建既强大又有效的跟车算法提供可能。

Leave a Comment

“元数据在数据管理中的作用”

Published November 29, 2023 by 四海吧

元数据在现代数据管理中至关重要，对于整合、质量、安全至关重要，并且在数字化转型计划中起着关键作用

Continue reading

Leave a Comment

数据驱动式生成人工智能：对数据和分析的益处

Published November 29, 2023 by 四海吧

生成式人工智能有望彻底改变数据和分析领域，提高生产力并简化交付时间表

Continue reading

Leave a Comment

在信用卡违约数据集中检测和发现偏见

Published November 29, 2023 by 四海吧

本节探讨信用卡违约数据集中的偏见，着眼于年龄歧视导致年轻和老年借款人的违约率较高情况

Continue reading

Leave a Comment

“首选云端的数据科学：一种现代化的数据分析和建模方法”

Published November 28, 2023 by 四海吧

数据科学是世界上增长最快的行业之一，利用现代先进的技术改善我们使用数据的方式但是，如果你在数据科学领域工作过，你可能…

Continue reading

Leave a Comment

为什么接受“任何数据工作”是一个糟糕的职业决定，以及你应该做什么

Published November 27, 2023 by 四海吧

艰难的就业市场是否让你感觉自己在与生存斗争，而不是寻找工作？如果你已经到了想要放弃一切的阶段，只是…

Continue reading

Leave a Comment

数据科学中的远程工作：优点和缺点 (Shùjù kēxué zhōng de yuǎncè gōngzuò yōudiǎn hé quēdiǎn)

Published November 26, 2023 by 四海吧

在这篇文章中，我们探讨了数据科学中远程工作的潜在挑战和陷阱

Continue reading

Leave a Comment

探索性数据分析：我们对YouTube频道了解多少（第二部分）

Published November 24, 2023 by 四海吧

在故事的第一部分，我收集了大约3000个YouTube频道的统计数据，并得到了一些有趣的见解在这一部分，我将更加深入，从一般的“频道”到…

Continue reading

Leave a Comment

因果图：应对观察数据中的阿喀琉斯之踵

Published November 24, 2023 by 四海吧

在我的前两篇文章中，我展开了“与我一起阅读”系列，并完成了犹太人裴洛的《为什么之书》的前两章的阅读这些文章讨论了…

Continue reading

Leave a Comment

使用MakeBlobs和虚构合成数据的新的（有点）用例

Published November 24, 2023 by 四海吧

从开放数据科学会议（ODSC）的西部版中，最受关注的专题之一是关于合成数据本文以新的视角重新讨论了这一话题，探讨了你如何…

Continue reading

Leave a Comment

使用Rclone管理您的云端数据存储 (Shǐyòng Rclone guǎnlǐ nín de yún duān shùjù cángchú)

Published November 24, 2023 by 四海吧

随着公司对基于云存储的解决方案的依赖程度越来越高，它对于拥有适当的工具和技术来有效管理大数据变得非常重要在…

Continue reading

Leave a Comment

每个数据科学家都需要的软技能

Published November 23, 2023 by 四海吧

这篇文章讲述了每个数据科学家都需要掌握的四项关键软技能，以及如何发展这些技能

Continue reading

Leave a Comment

动画词云的数据讲述 (Dòng huà cí yún de shùjù jiǎngshù)

Published November 22, 2023 by 四海吧

一个动态词云以图像文件的序列形式显示n-grams（文本样本项的连续序列）随时间的绝对频率它对单词赋予了更高的重要性…

Continue reading

Leave a Comment

数据分析的职业趋势：第二部分

Published November 21, 2023 by 四海吧

看看数据分析工作市场上需求的这些技能

Continue reading

Leave a Comment

“深入挖掘 Rust 编写的矢量数据库 Qdrant”

Published November 21, 2023 by 四海吧

介绍 Vector数据库已经成为存储和索引非结构化和结构化数据表示的首选位置。这些表示是由嵌入模型生成的向量嵌入。向量存储已成为开发带有深度学习模型的应用程序的重要组成部分，尤其是大型语言模型。在向量存储的不断发展中，Qdrant是最近推出的一个功能齐全的向量数据库。让我们深入了解一下。学习目标熟悉Qdrant的术语，以更好地理解它深入研究Qdrant Cloud并创建Clusters 学习如何创建我们的文档的嵌入并将它们存储在Qdrant Collections中探索在Qdrant中查询的工作原理在Qdrant中调试过滤器，以检查其工作原理本文作为Data Science Blogathon的一部分发表。什么是嵌入？嵌入是一种以数字形式表示数据的方式，即以n维空间中的数字或数值向量的形式表示不同类型的数据，如文本、照片、音频、视频等。嵌入使我们能够以这种方式对相关数据进行分组。使用特定模型可以将某些输入转换为向量。Google创建的一种广为人知的嵌入模型是将单词转化为向量（向量是具有n维的点），称之为Word2Vec。每个大型语言模型都有一个嵌入模型，用于生成LLM的嵌入。嵌入的用途是什么？将单词转换为向量的一个优点是可以进行比较。当拿到两个单词作为数字输入或向量嵌入时，计算机可以进行比较，尽管它无法直接比较它们。可以将具有可比较嵌入的单词分组在一起。因为它们彼此相关，诸如“王”、“皇后”、“王子”和“公主”这些术语将出现在一个聚类中。从这个意义上讲，嵌入帮助我们找到与给定术语相关的单词。这可以用于句子，我们输入一个句子，提供的数据返回相关的句子。这为许多用例奠定了基础，包括聊天机器人、句子相似性、异常检测和语义搜索。我们开发的用于根据我们提供的PDF或文档回答问题的聊天机器人利用了这种嵌入概念。所有生成式大型语言模型都使用这种方法，以获得与他们提供的查询相关联的内容。什么是向量数据库？如前所述，嵌入是各种数据的表示，通常是非结构化数据以数字格式在n维空间中。那么我们该如何存储它们呢？传统的关系型数据库管理系统（RDMS）不能用于存储这些向量嵌入。这就是向量存储/向量数据库发挥作用的地方。向量数据库的设计目的是以高效的方式存储和检索向量嵌入。有许多不同的向量存储器，它们通过所支持的嵌入模型和用于获取相似向量的搜索算法的种类而有所不同。什么是Qdrant？ Qdrant是一种新型的向量相似性搜索引擎和向量数据库，采用Rust语言构建的可用于生产的服务。Qdrant具有用户友好的API，用于存储、搜索和管理具有元数据的高维点（点就是向量嵌入），这些元数据称为载荷。这些载荷成为有价值的信息，提高搜索精度，并为用户提供有见地的数据。如果您熟悉其他向量数据库，如Chroma，Payload类似于元数据，它包含有关向量的信息。 Qdrant是用Rust编写的，即使在负载很重的情况下也是快速可靠的向量存储。Qdrant与其他数据库的区别在于它提供的客户端API数量。目前，Qdrant支持Python、TypeScript/JavaScript、Rust和Go。它使用HSNW（层次可导航小世界图）进行向量索引，并提供了许多距离度量，如余弦、点和欧氏距离。它还提供了一个内置的推荐API。了解Qdrant术语要顺利开始使用Qdrant，熟悉Qdrant向量数据库中的术语/主要组件是一个好习惯。…

Continue reading

Leave a Comment

CSV转PDF：提示GPT-4自动数据可视化报告创建

Published November 21, 2023 by 四海吧

GPT-4 的一个令人惊叹的新功能是能够即时创建 PDF 文件，甚至可以从您刚刚创建的数据中创建，包括图表和地图就在最近几天，GPT-4…

Continue reading

Leave a Comment

数据科学：现代经济的支柱

Published November 20, 2023 by 四海吧

随着近年来技术的进步，尤其是自新千年以来，数据科学已经成为一门独立的学科，与计算机科学分开，并更加紧密地…

Continue reading

Leave a Comment

解密数据驱动的旅程 Paisabazaar首席执行官的见解

Published November 20, 2023 by 四海吧

介绍在《以数据为导向》的这一集中，Kunal Jain与Paisabazaar的首席执行官Naveen Kukreja进行了对话。解密Naveen在银行和金融服务领域的卓越职业生涯，以及在印度不断演变的数字领域中开创数据为中心的战略。让我们通过Naveen在Paisabazaar的经验和领导力，解读数据在业务中的转变能力。关键见解拥抱以数据为中心的商业模式对现代决策至关重要，但也具有挑战性。业务增长取决于适应数字转型和利用类似India Stack的倡议。数据科学的重要性在企业规模扩大时增强，特别是在量身定制产品/服务以满足消费者需求方面。公开上市带来纪律和透明度，并对增长和盈利能力采取平衡的方法产生影响。在数据驱动的组织中有效的领导力需要直觉和数据支持的决策相融合。人工智能（AI）和机器学习（ML）对未来业务产生深远影响，强调了灵活性和技能提升的需求。转向数据分析需要实践经验和强大的技术团队。个人兴趣和持续学习有助于培养全新的视角，促进职业成长。你能分享一下你是如何进入银行、金融服务和分析领域的吗？我在印度卡尔卡塔的印度管理学院校园招聘时偶然进入了银行和金融服务领域。我对消费者行为和营销感兴趣，但城市银行改变了我的职业轨迹。我真正接触到分析是在英国的Capital One，在那里数据驱动的决策是业务的核心，这与印度在21世纪初的发展数字领域形成了鲜明对比。你是如何适应Capital One的数据为中心的环境的？这个转变是具有挑战性但极为宝贵的。我从城市银行转到Capital One，深入了解信用卡业务并学习在数字成熟市场中的新技能。没有数据分析背景的情况下管理一个分析团队是很困难的，但这磨练了我的决策能力，并教会了我数据在推动业务结果方面的重要性。是什么促使您回到印度并进入保险行业？ 2007年和2009年的全球金融危机使我重新考虑了我的职业道路。Capital One遭遇了困难时期，而我看到了印度不断增长的保险行业中的机会。在Aviva，我从零开始建立了交叉销售和分析功能，这是非常令人兴奋并且与我的优势相符。您在Aviva的经验如何导致Paisabazaar的创立？…

Continue reading

Leave a Comment

Can't find what you're looking for? Try refining your search:

Web Analytics