Press "Enter" to skip to content

机器学习洞察总监【第二部分:SaaS 版本】

如果您或您的团队对于更快地构建机器学习解决方案感兴趣,请立即访问hf.co/support!

👋 欢迎来到我们的机器学习总监洞察力系列第2部分。请查看第1部分。

机器学习总监在AI领域中拥有独特的位置,跨越各种角色和责任的视角。他们丰富的机器学习框架、工程、架构、实际应用和问题解决的知识为当前机器学习的现状提供了深刻的洞察。例如,一个总监会注意到如何使用新的转换器语音技术将团队的错误率降低了30%,以及简单思考如何帮助节省大量计算资源。

您是否想知道Salesforce或ZoomInfo的总监们对于机器学习的现状有何看法?他们面临的最大挑战是什么?他们最期待的是什么?那么,您即将发现答案!

在这个以SaaS为重点的第二部分中,您将听到一位深度学习医疗教材作者的观点,他还创办了一个非营利机构来指导机器学习人才;还有一位国际象棋迷的网络安全专家;一位灵感来自于芭比娃娃在一次铅回收后需要监控品牌声誉的企业家;以及一位经验丰富的专利和学术论文作者,他喜欢看他的4个孩子犯和他的机器学习模型一样的错误。

🚀 让我们见识一下一些顶级SaaS机器学习总监,并听听他们对机器学习的看法:

机器学习洞察总监【第二部分:SaaS 版本】 四海 第1张

Omar Rahman – Salesforce的机器学习总监

背景: Omar领导着一个机器学习和数据工程团队,利用机器学习来进行防御性安全工作,作为网络安全团队的一部分。之前,Omar在Adobe和SAP领导数据科学和机器学习工程团队,专注于为营销云和采购应用程序提供智能功能。Omar拥有亚利桑那州立大学的电气工程硕士学位。

有趣的事实: Omar喜欢下国际象棋,并自愿利用空闲时间指导和指导人工智能研究生。

Salesforce:全球第一的客户关系管理软件。

1. 机器学习如何对SaaS产生积极影响?

机器学习在SaaS提供方面有很多好处。

a. 提高应用程序中的自动化:例如,使用自然语言处理(NLP)理解服务请求的上下文并将其路由到组织内的适当团队的服务票务系统。

b. 减少代码复杂性:随着新规则的增加,基于规则的系统变得难以控制,从而增加了维护成本。例如,相比以前的基于规则的系统,基于机器学习的语言翻译系统更准确、更健壮,代码行数更少。

c. 更好的预测结果节约成本。能够更准确地预测有助于减少供应链中的缺货情况,并由于减少存储成本而节省成本。

2. SaaS中最大的机器学习挑战是什么?

a. 产品化机器学习应用需要比仅仅有一个模型更多的东西。能够利用模型进行结果服务、检测和适应数据统计的变化等,会在部署和维护机器学习系统中产生重大开销。

b. 在大多数大型组织中,数据通常是孤立的,维护不良,导致在整合数据、预处理、数据清洗等活动中花费大量时间,从而需要大量时间和精力来创建基于机器学习的应用程序。

3. 您认为人们在将机器学习集成到SaaS中时常犯的一个错误是什么?

人们过于关注业务背景和问题的解决,而不是试图使用最新和最好的算法和新开源库。通过简单的传统机器学习技术可以实现很多成果。

4. 您对于机器学习的未来最感兴趣的是什么?

通用人工智能的能力,如果能够得到良好的构建和管理,有能力以超乎想象的方式改变人类生活。我希望我们将在医疗保健和交通领域取得巨大进展。我们已经看到人工智能在放射学中的好处,从而显著节省人力资源,使人类能够专注于更复杂的任务。自动驾驶汽车和卡车已经在改变交通行业。

机器学习洞察总监【第二部分:SaaS 版本】 四海 第2张

肖操(Danica)- Amplitude的机器学习高级总监

背景:肖操(Danica)是Amplitude公司的数据科学与机器学习高级总监。她的团队致力于基于多源用户数据开发和部署自主的机器学习模型和产品,以解决数字生产分析和优化中的重要业务挑战。此外,她还是一位热情的机器学习研究员,在领先的计算机科学会议上发表了95篇以上的论文。她还是一位拥有丰富经验的技术领导者,在机器学习路线图制定、团队建设和指导方面有着广泛的经验。

在加入Amplitude之前,肖操曾担任IQVIA分析中心的全球机器学习负责人。在此之前,她是IBM研究部门的研究员,并在MIT-IBM Watson AI实验室担任研究负责人。她在华盛顿大学获得了机器学习博士学位。最近,她还合著了一本关于医疗领域深度学习的教材,并创办了一个非营利组织,用于指导机器学习人才。

有趣的事实:肖操是一位猫奴,有两只猫咪:一只新加坡女孩和一只英国短毛男孩。

Amplitude:一种基于云的产品分析平台,帮助客户构建更好的产品。

1. 机器学习如何对SaaS产生积极影响?

机器学习在将海量嘈杂的机器生成或用户生成的数据转化为各种业务问题的答案方面发挥了改变游戏规则的作用,包括个性化、预测、推荐等。它通过SaaS对各行业垂直领域产生广泛影响。

2. SaaS面临的最大机器学习挑战是什么?

缺乏涵盖更广泛行业用例的机器学习模型训练数据。虽然机器学习是各行业垂直领域的通用解决方案,但仍需解决由业务引起的垂直领域特定需求,或者影响机器学习模型质量的领域转移问题。

3. 您在尝试将机器学习集成到SaaS产品中时看到的常见错误是什么?

没有给用户提供灵活性,以将其业务知识或其他对业务成功至关重要的人为因素纳入其中。例如,对于自助式产品推荐,如果用户能够控制推荐产品的多样性,那将是很好的。

4. 机器学习未来让您最兴奋的是什么?

机器学习取得了巨大的成功。它也在快速演进,以解决当前的限制(例如,缺乏数据、领域转移、纳入领域知识等)。

更多的机器学习技术将被应用于解决业务或客户需求。例如,可解释的机器学习让用户能够理解和信任机器学习模型的输出;反事实预测让用户能够估计在做出不同的业务决策时可能产生的替代结果。

机器学习洞察总监【第二部分:SaaS 版本】 四海 第3张

拉斐尔·科恩 – ZoomInfo的机器学习总监

背景:拉斐尔在理解健康记录和遗传学领域拥有博士学位,撰写了20篇学术论文并拥有8项专利。拉斐尔还是数据科学和研究领域的领导者,拥有自然语言处理、语音、医疗保健、销售、客户旅程和信息技术等背景。

有趣的事实:拉斐尔有4个孩子,喜欢看他们学习并犯和他一样的机器学习模型的错误。

ZoomInfo:全球最全面的企业数据库支持的智能销售和营销技术。

1. 机器学习如何对SaaS产生积极影响

机器学习促进了对对话数据的转录,帮助人们解锁新的洞察和理解。人们现在可以轻松查看他们谈论的事物、总结的目标、要点、谁说得最多、谁提出了最好的问题、下一步是什么等等。这对于像电子邮件和视频会议这样的许多交互非常有用(现在比以往更常见)。

使用Chorus.ai,我们可以实时记录对话的转录。我们使用了一个名为Wave2Vec的算法来实现这一点。🤗 Hugging Face最近发布了自己的Wave2Vec版本,用于训练,我们从中获得了很多价值。这一新一代的转换器语音技术非常强大,它将我们的错误率降低了30%。

一旦我们转录了对话,我们就可以查看内容 – 这就是自然语言处理的作用,我们在很大程度上依赖Hugging Face Transformers,它可以让我们在录音和电子邮件中描述大约20个主题类别;例如,我们是否在谈论定价、签订合同、下一步行动,所有这些主题都是通过电子邮件发送或讨论的,现在可以轻松提取这些信息,而不需要回顾所有的对话。

这有助于使人们在他们的工作中更出色。

2. SaaS中最大的机器学习挑战是什么?

最大的挑战是了解何时使用机器学习。

我们可以用机器学习解决哪些问题,哪些问题不适合用机器学习解决?很多时候,我们在机器学习模型上取得突破,但计算量较轻的启发式模型更适合解决我们所面临的问题。

这就是一个强大的人工智能策略发挥作用的地方。 – 理解您希望最终产品如何工作以及其效率。

我们还面临这样一个问题:如何在低环境/计算足迹的情况下将构建的机器学习模型投入生产?每个人都在为此而努力;如何在高效的方式下保持模型在生产中,而不消耗太多资源。

一个很好的例子是当我们转向Wav2Vec框架时,我们需要将我们的对话音频分解成15秒的片段,然后将其馈入这个庞大的模型中。在此期间,我们发现我们给模型提供了很多纯静音的片段。当有人没出现或一个人在等待另一个人参加会议时,这种情况很常见。

只需添加另一个非常轻的模型,告诉我们何时不要将静音片段发送到这个复杂的大型机器学习模型中,我们就能节省大量的计算资源/能源。这是一个例子,工程师们可以考虑其他更简单的方法来加快速度并节省模型生产成本。有更多的工程师有机会更加聪明地优化模型,而不消耗太多资源。

3. 尝试将机器学习整合到SaaS中,你看到人们常犯的一个常见错误是什么?

我的解决方案是最聪明的解决方案吗?有没有更好的方法来分解并更高效地解决这个问题?

当我们开始识别发言者时,我们直接采用了机器学习方法,但这并不像视频会议提供商的数据那么准确。

此后,我们了解到最好的做法是从会议提供商的元数据开始识别发言者,然后再用智能嵌入模型进行叠加。在这个学习曲线期间,我们浪费了宝贵的时间。如果我们停下来了解还有其他数据源可以投资,帮助我们更高效地加速,我们就不应该使用这个庞大的机器学习解决方案。

要跳出思维定势,不要只是接受别人建立的东西,并认为我有办法让它更好。我们可以通过更好地了解问题来找到更聪明的解决方案吗?

4. 你对机器学习的未来最感兴趣的是什么?

我认为我们正处在另一场革命的中间。对我们来说,通过我们的Wave2Vec模型,看到错误率下降了30%是令人惊讶的。多年来,我们只能每次获得1%的降低,然后在3个月的时间里,我们看到了如此巨大的改进,而我们知道这只是个开始。在学术界,正在发生更大更聪明的事情。这些预训练模型使我们能够做以前无法想象的事情。这非常令人兴奋!

我们还看到很多来自自然语言处理的技术进入其他领域,如语音和视觉,并能够为它们提供动力。

另一个我非常兴奋的事情是生成模型!我们最近与一家名为Bria.ai的公司合作,他们使用了这些令人惊奇的生成对抗网络来创建图像。因此,您可以通过说“去掉眼镜”、“加眼镜”或“加头发”将一张库存照片变成另一张照片,并且变化得非常完美。这样做的想法是我们可以使用它来生成数据。我们可以拍摄不笑的会议参与者的照片,并使其笑起来,以建立微笑检测的数据集。这将是一次变革。您可以将1张图片变成100张图片。这也将适用于语音生成,在服务行业中可能是一个强大的应用。

还有其他想法吗?

–将模型投入生产是具有挑战性的。我认为数据科学团队需要与工程师合作。工程师应该是AI团队的一部分。这将是未来的重要结构转变。

机器学习洞察总监【第二部分:SaaS 版本】 四海 第4张

Martin Ostrovsky,Repustate Inc.创始人/首席执行官和机器学习总监。

背景:Martin对人工智能(AI)、机器学习(ML)和自然语言处理(NLP)充满热情,并负责指导Repustate所有产品的战略和成功,领导跨职能团队负责产品的开发和改进。他为Repustate的全球文本分析API、情感分析、深度搜索和命名实体识别解决方案制定战略、路线图和功能定义。他拥有约克大学的计算机科学学士学位,并在舒利希商学院获得了工商管理硕士学位。

趣闻:我最早使用机器学习的应用是为芭比娃娃玩具。我在舒利希商学院的教授提到,由于对玩具中存在过多铅的担忧,芭比需要监控其品牌声誉。请人手动查阅每个社交帖子和在线文章似乎非常低效和无效。所以我提议创建一个机器学习算法,可以从所有社交媒体和在线渠道中监控人们对他们的看法。这个算法运行顺利。这就是为什么我决定给我的公司取名为Repustate——你的声誉的“状态”。🤖

Repustate:领先的企业级文本分析服务提供商。

1. 最喜欢的机器学习商业应用是什么?

我最喜欢的机器学习应用是网络安全。

网络安全对于任何公司(无论政府还是非政府)的数据来说都是最关键的部分。机器学习帮助识别网络威胁,打击网络犯罪,包括网络欺凌,并能更快地应对安全漏洞。机器学习算法可以快速分析用户数据,识别最可能的漏洞和潜在的恶意软件和间谍软件应用程序。它们可以发现终端入口模式中的畸变,并将其识别为潜在的数据泄露。

2. 你最大的机器学习挑战是什么?

最大的机器学习挑战是阿拉伯语的音频转文本转录。有一些系统可以解析阿拉伯语,但它们缺乏准确性。阿拉伯语是26个国家的官方语言,有2.47亿母语人口和2900万非母语人口。它是一种复杂的语言,拥有丰富的词汇和许多方言。

如果要从阿拉伯文本中获取准确的见解,情感挖掘工具需要直接阅读阿拉伯语数据,因为否则翻译会导致细微差别。将文本翻译成英语或其他语言可能会完全改变阿拉伯语中的词义,甚至是词根。这就是为什么算法需要在阿拉伯数据集上进行训练,并使用专用的阿拉伯语词性标注工具。由于这些挑战,大多数公司至今仍未能提供准确的阿拉伯语音频转文本翻译。

3. 在整合机器学习时你看到人们常犯的一个错误是什么?

企业在尝试整合机器学习时最常见的错误是训练数据集中的数据不足。大多数机器学习模型无法区分好的数据和不足的数据。因此,在大多数情况下,训练数据集被视为相关,并被用作确定结果的先例。这个挑战不仅限于小型或VoAGI规模的企业,大型企业也面临相同的挑战。

无论机器学习的过程是什么,公司都需要确保训练数据集可靠而全面,以实现预期的结果,这需要在机器学习的早期阶段加入人工元素。

然而,通过对准确、全面和持续的训练数据进行彻底的审查,企业可以为成功的机器学习项目打下必要的基础。

4. 在未来的5-10年中,你认为机器学习将产生最大的影响在哪个领域?

在未来的5-10年中,机器学习将对转化医疗保健行业产生最大的影响。

网络医院和连接护理:

通过预测性护理,指挥中心已经准备好实时分析临床和位置数据,以监测医疗网络中的供应和需求情况。通过机器学习,医疗专业人员将能够更快、更高效地发现高风险患者,从而消除系统中的瓶颈。您可以更快地检查可传染疾病的传播情况,采取更好的措施管理流行病,更准确地识别风险患者,特别是遗传疾病的患者等等。

员工和患者的更好体验:

预测性医疗网络有望减少等待时间,改善员工工作流程,并承担日益增长的行政负担。通过从每位患者、诊断和手术中学习,机器学习有望创建适应医院员工和患者的体验。这将改善健康结果,减少临床医生短缺和倦怠,同时使系统具有财务可持续性。


🤗 感谢您加入我们的第二期《ML主任见解》。请继续关注金融、医疗和电子商务领域的ML主任们的更多见解。

非常感谢Omar Rahman、Cao (Danica) Xiao、Raphael Cohen和Martin Ostrovsky对本文的出色见解和参与。我们期待观看你们的持续成功,并将在每一步上为你们加油助威。🎉

如果您或您的团队有兴趣通过Hugging Face专家加速ML路线图,请访问hf.co/support了解更多信息。

Leave a Reply

Your email address will not be published. Required fields are marked *