用整体的心智模型打造人工智能产品

通过跨学科团队进行AI产品的构思、规划和定义的工具

注意：本文是“剖析AI应用”系列文章的第一篇，介绍了一种AI系统的心智模型。该模型是跨学科AI和产品团队讨论、规划和定义AI产品以及与业务部门协调的工具。它旨在汇集产品经理、UX设计师、数据科学家、工程师和其他团队成员的观点。本文介绍了心智模型，而未来的文章将展示如何将其应用于具体的AI产品和功能。

通常，公司会认为他们只需要雇佣AI专家，让他们发挥技术魔力，就可以将AI纳入他们的产品中。这种方法会导致集成谬误：即使这些专家和工程师制作出了出色的模型和算法，它们的输出往往仅限于操场、沙盒和演示，从未真正成为产品的完整组成部分。多年来，我见过许多数据科学家和工程师对他们在技术上出色的AI实现没有出现在面向用户的产品中感到非常沮丧。相反，它们具有尖端实验的光荣地位，给内部利益相关者留下了他们正在跟随AI浪潮的印象。现在，随着ChatGPT在2022年的出版以来，AI普及无处不在，公司再也不能将AI作为一种“指路明灯”的特性来展示他们的技术能力。

为什么集成AI如此困难？原因有几个：

团队通常只关注AI系统的一个方面。这甚至导致了数据中心、模型中心和人类中心等不同阵营的出现。虽然每个阵营都提供了令人兴奋的研究视角，但一个真实的产品需要将数据、模型和人机交互结合成一个连贯的系统。
AI开发是一项高度协作的工作。在传统软件开发中，你与后端和前端组件之间有一个相对明确的二分法。在AI中，你不仅需要在团队中添加更多多样化的角色和技能，还需要确保不同方面之间的密切合作。你的AI系统的不同组件将以亲密的方式相互交互。例如，如果你正在开发一个虚拟助手，你的UX设计师将需要了解提示工程，以创建自然的用户流程。你的数据标注员需要了解你的品牌和虚拟助手的“性格特点”，以创建一致且符合定位的训练数据，而你的产品经理则需要了解和审查数据管道的架构，以确保它满足用户的治理关注。
在构建AI时，公司经常低估了设计的重要性。虽然AI始于后端，但良好的设计对于使其在生产中发挥作用至关重要。AI设计推动传统UX的界限。你提供的许多功能并不是在界面上直接可见的，而是“隐藏”在模型中，你需要教育和引导用户以最大化这些好处。此外，现代基础模型是一种可以产生有毒、错误和有害输出的东西，所以你需要设置额外的防护措施来降低这些风险。所有这些可能需要你团队上新的技能，如提示工程和会话设计。有时，这也意味着做一些违反直觉的事情，比如低估价值以管理用户的期望，并增加摩擦来给他们更多的控制和透明度。
AI炒作给公司带来了压力。许多公司通过实施未经客户和市场需求验证的方案，本末倒置。偶尔加入AI这个词可以帮助你将自己定位为进步和创新的企业，但从长远来看，你需要用实际机会支撑你的炒作和实验。这可以通过基于市场机会与技术潜力的明确映射，实现业务和技术之间的紧密协调来实现。

在本文中，我们将构建一个集成了这些不同方面的AI系统的心智模型（参见图1）。它鼓励构建者进行整体思考，对目标产品有清晰的理解，并随着新的见解和输入进行更新。该模型可以用作简化协作、协调AI团队内外不同视角并基于共享视觉构建成功产品的工具。它不仅适用于新的、以AI驱动的产品，还适用于将AI功能纳入现有产品中。

接下来的几个部分将简要描述每个组成部分，重点关注与AI产品相关的部分。我们将从商业角度开始，即市场机会和价值，然后深入探讨用户体验和技术。为了说明这个模型，我们将以一个辅助生成营销内容的副驾驶员为例。本文不会详细讨论每个组件，敬请期待本系列更多文章以及即将出版的《产品经理的人工智能》一书。

1. 机会

随着人工智能的各种强大功能，您可能迫不及待地想要开始构建。然而，为了构建出用户需要和喜爱的产品，您应该根据市场机会来支持您的开发。在理想的情况下，机会来自于告诉我们他们的需求或者想法的客户[1]。这些可以是未满足的需求、痛点或者渴望。您可以在现有的客户反馈中寻找这些信息，例如产品评论和销售团队的笔记。此外，不要忘记作为产品潜在用户的自己——如果您正在解决自己曾经遇到过的问题，这种信息优势是一个额外的优势。除此之外，您还可以使用调查和访谈等工具进行积极的客户研究。

例如，我不需要走得太远就能看到创业公司和大型公司在内容营销方面面临的困扰。我自己也有过这样的经历——随着竞争的加剧，以个人、定期以及（！）高质量内容来发展思想领导力变得越来越重要。同时，对于一个小而忙碌的团队来说，总是会有一些看起来比写每周博客文章更重要的事情。我在我的网络中也经常遇到那些难以建立一致的内容营销例行程序的人。这些“局部的”，可能带有偏见的观察可以通过超越自己的网络进行的调查加以验证，并确认解决方案在更广泛的市场上的可行性。

现实世界的情况会稍微复杂一些，客户并不总是会主动向您提出新的、经过良好构思的机会。相反，如果您伸出触角，机会将从多个方向到达，例如：

市场定位：AI是时尚的——对于已经建立起来的企业来说，可以用它来加强企业作为创新、高科技、未来可靠等形象。例如，它可以将现有的营销机构升级为AI驱动的服务，并使其与竞争对手区分开来。然而，不要为了AI而AI。这个定位技巧需要谨慎应用，并与其他机会结合使用——否则，您可能会失去可信度。
竞争对手：当竞争对手采取行动时，他们很可能已经进行了相关的研究和验证。观察他们一段时间后——他们的发展是否成功？利用这些信息来优化您自己的解决方案，采用成功的部分，并排除错误。例如，假设您正在观察一个提供完全自动化的营销内容生成服务的竞争对手。用户单击一个“大红按钮”，AI就会开始撰写和发布内容。经过一些研究，您了解到用户不愿使用这个产品，因为他们希望对过程保持更多的控制，并为写作贡献自己的专业知识和个性。毕竟，写作也与自我表达和个人创造力有关。现在是您前进的时候了，您可以使用一个功能丰富、可配置的多功能工具来塑造您的内容，它提高了用户的效率，同时允许他们在需要时“注入”自己的特色。
法规：如技术颠覆和全球化等巨大趋势迫使监管机构加强要求。法规带来了压力，也是机会的可靠来源。例如，假设一项法规要求每个人都严格将AI生成的内容作为广告发布。那些已经使用AI内容生成工具的公司将会就此展开内部讨论，他们是否希望这样做。其中许多公司会避免这样做，因为他们希望保持真正的思想领导力形象，而不是制作明显由AI生成的样板文件。假设您很聪明，选择了一种增强型解决方案，使用户拥有足够的控制权，以便他们可以仍然成为正式的文本“作者”。随着新的限制出台，您将免于受影响，并能够迅速利用这项法规，而那些采用完全自动化解决方案的竞争对手则需要时间从挫折中恢复过来。
推动技术：新兴技术和现有技术的重大突破，例如2022-2023年的生成式人工智能浪潮，可以开启新的做事方式，或将现有应用推向一个新的水平。假设您过去十年一直经营一个传统的营销机构。现在，您可以开始将AI的技巧和解决方案引入到您的业务中，增加员工的效率，用现有资源为更多客户提供服务，并增加利润。您可以建立在自己已有的专业知识、声誉和（希望是良好的）客户基础上，因此引入AI增强功能可能会比新手更加顺利和少风险。

最后，在现代产品世界中，机会通常不那么明确和正式，可以通过实验证实，这加快了你的发展。因此，在以产品为导向的增长中，团队成员可以提出自己的假设，而不需要严格基于数据的论证。这些假设可以以逐步的方式进行制定，例如修改提示或更改一些用户体验元素的本地布局，这使得它们易于实施、部署和测试。通过消除为每个新建议提供先验数据的压力，这种方法利用了所有团队成员的直觉和想象力，同时强制验证建议。假设你的内容生成顺利进行，但你越来越多地听到关于缺乏AI透明度和可解释性的抱怨。你决定实施一个额外的透明度级别，并向用户展示用于生成一篇内容的具体文档。你的团队将这个功能与一组用户进行测试，并发现他们很高兴使用它来追溯原始信息来源。因此，你决定将其建立在核心产品中，以增加使用和满意度。

2. 价值

为了理解和传达您的AI产品或功能的价值，您首先需要将其映射到一个用例 – 它将解决的特定业务问题 – 并找出投资回报率（ROI）。这将迫使您将注意力从技术转移到解决方案的用户端益处上。ROI可以从不同的维度进行衡量。对于AI，其中一些维度包括：

提高效率：AI可以提高个人、团队和整个公司的生产力。例如，对于内容生成，您可能会发现，与通常需要4-5个小时写一篇博客文章相比[2]，现在您只需要1-2个小时，并将节省的时间用于其他任务。效率的提高通常与成本的节约相辅相成，因为执行同样数量的工作所需的人力资源较少。因此，在业务环境中，这个好处对用户和领导层都有吸引力。
更个性化的体验：例如，您的内容生成工具可以要求用户设置其公司的参数，如品牌属性、术语、产品优势等。此外，它还可以跟踪特定作家所做的编辑，并随时间适应其生成内容的独特写作风格。
乐趣和愉悦：在这里，我们进入产品使用的情感方面，也被唐·诺曼称为“本能”层次[3]。B2C营地存在着一整类有趣和娱乐性的产品，如游戏和增强现实。B2B又如何 – 难道您认为B2B产品存在于一个无趣的专业真空中吗？实际上，这个类别可能产生比B2C更强烈的情感反应[4]。例如，写作可以被视为令人满意的自我表达行为，或者是与写作障碍等问题的内心斗争。思考一下您的产品如何增强任务的积极情绪，同时减轻甚至转变其痛苦的方面。
便利性：您的用户需要做什么才能利用AI的魔力？想象一下将您的内容生成副驾驶集成到MS Office、Google Docs和Notion等流行的协作工具中。用户将能够在不离开他们的数字“家园”的舒适环境中访问您产品的智能和高效能力。因此，您最小化了用户需要付出的努力来体验产品的价值并继续使用它，这反过来提高了用户获取和采用。

一些AI的好处 – 例如效率 – 可以直接量化为ROI。对于像便利性和愉悦感这样不太明显的收益，您需要考虑用户满意度等代理指标。请记住，以最终用户价值的角度思考不仅可以缩小用户和产品之间的差距。作为一个受欢迎的副作用，它可以减少您在公共沟通中的技术细节。这将防止您意外地邀请到不需要的竞争对手。

最后，您应该在早期考虑的价值的一个基本方面是可持续性。您的解决方案如何影响社会和环境？在我们的例子中，自动或增强的内容生成可能会取代和消除大规模的人力工作量。您可能不希望成为一个整个工作类别的潜在杀手 – 毕竟，这不仅会引发伦理问题，还会引发那些工作岗位受到威胁的用户的抵抗。思考一下您如何解决这些担忧。例如，您可以教育用户如何高效利用他们的新闲暇时间来设计更复杂的营销策略。这些策略可以为您提供一个有竞争力的壕沟，即使其他竞争对手追赶上了自动内容生成。

3. 数据

对于任何类型的人工智能和机器学习，您需要收集和准备数据，以便反映实际输入并为模型提供足够的学习信号。如今，我们看到了一种数据中心的人工智能趋势——一种远离无休止的调整和优化模型的人工智能理念，专注于修复输入到这些模型中的数据中的众多问题。当您开始时，有不同的方法来获取一个合适的数据集：

您可以使用现有的数据集。这可以是标准的机器学习数据集，也可以是具有不同初始目的的数据集，您可以为自己的任务进行调整。有一些经典数据集，比如IMDB电影评论数据集用于情感分析，以及MNIST数据集用于手写字符识别。还有一些更奇特和令人兴奋的选择，比如Illegal Fishing和Dog Breed Identification，以及Kaggle等数据集中心的无数用户创建的数据集。您能找到一个适合您特定任务并完全满足您要求的数据集的机会相当低，大多数情况下，您还需要使用其他方法来丰富您的数据。
您可以手动注释或创建数据以创建正确的学习信号。手动数据注释——例如对文本进行情感评分的注释——是机器学习早期的主要方法。最近，它作为ChatGPT的秘密武器重新受到关注。大量的手动工作被耗费在创建和排名模型对人类偏好的响应上。这种技术也被称为来自人类反馈的强化学习（RLHF）。如果您有必要的资源，可以使用它们来为更具体的任务创建高质量的数据，比如生成营销内容。注释可以在内部进行，也可以使用外部提供者或众包服务，如亚马逊的Mechanical Turk。无论如何，大多数公司都不愿意花费大量资源来手动创建RLHF数据，而会考虑一些技巧来自动创建数据。
因此，您可以使用数据增强方法向现有数据集添加更多示例。对于像情感分析这样的简单任务，您可以在文本中引入一些额外的噪声，更换几个词等等。对于更开放的生成任务，目前对于使用大型模型（例如基础模型）进行自动训练数据生成有很多热情。一旦您确定了最佳的数据增强方法，您就可以轻松地扩展它以达到所需的数据集大小。

在创建数据时，您面临着质量和数量之间的权衡。您可以手动注释较少的数据以获得高质量的数据，或者将预算用于开发用于自动数据增强的技巧和诀窍，以引入额外的噪声。如果您选择手动注释，您可以在内部进行，并塑造详细和高质量的文化，或者将工作外包给匿名人士。众包通常具有较低的质量，因此您可能需要进行更多的注释以弥补噪声。如何找到理想的平衡点？这里没有现成的配方——最终，您将通过不断的训练和增强数据来找到理想的数据组合。一般来说，当对模型进行预训练时，它需要从零开始获取知识，这只能通过更多数量的数据来实现。另一方面，如果您想对现有的大型模型进行微调并进行最后的专业化调整，您可能会更注重质量而不是数量。在这种情况下，使用详细指南对小型数据集进行受控手动注释可能是最佳解决方案。

4. 算法

数据是您的模型将学习的原始材料，希望您能编制一个具有代表性和高质量的数据集。现在，您人工智能系统的实际超能力——从现有数据中学习并推广到新数据的能力——存在于算法中。就核心人工智能模型而言，有三个主要选项可供您使用：

提示现有模型。 GPT系列的高级LLM（大型语言模型），如ChatGPT和GPT-4，以及Anthropic和AI21 Labs等其他提供者的模型，可通过API进行推理。通过提示，您可以直接与这些模型交流，包括在提示中包含领域和任务特定的信息。这可以包括要使用的特定内容，类似任务的示例（少样本提示）以及模型需要遵循的指令。例如，如果您的用户希望生成有关新产品功能的博客文章，您可以要求他们提供有关该功能的一些核心信息，例如其优势和用途，如何使用它，发布日期等等。然后，您的产品将这些信息填充到一个精心设计的提示模板中，并要求LLM生成文本。提示对于快速启动预训练模型非常有用。然而，您通过提示构建的防御体系将很快变得薄弱——在中期，您需要一种更具有可持续竞争优势的模型策略。
微调预训练模型。这种方法使得人工智能在过去几年中变得如此受欢迎。随着越来越多的预训练模型可用，并且像Huggingface这样的门户网站提供模型库以及与模型一起使用的标准代码，微调正在成为尝试和实施的首选方法。当您使用预训练模型时，您可以受益于其他人已经为数据、训练和评估模型进行的投资，该模型已经对语言和世界的许多内容“了解”。您所需要做的就是使用特定于任务的数据集对模型进行微调，这个数据集可以比最初用于预训练的数据集小得多。例如，对于营销内容生成，您可以收集一组在吸引力方面表现良好的博客文章，并反向工程这些文章的指令。从这些数据中，您的模型将学习成功文章的结构、流程和风格。微调是使用开源模型的方法，但OpenAI和Cohere等LLM API提供者也越来越多地提供微调功能。特别是对于开源轨道，您仍然需要考虑模型选择的问题、训练和部署更大模型的成本开销以及模型的维护和更新计划。
从头开始训练您的机器学习模型。一般来说，这种方法适用于较简单但高度特定的问题，对于这些问题，您具有特定的专业知识或合适的数据集。内容的生成并不完全属于这个类别——它需要先进的语言能力才能让您起步，而这只能在训练大量数据后才能获得。对于诸如特定类型文本的情感分析等较简单的问题，通常可以使用像逻辑回归这样的已建立的机器学习方法来解决，这些方法在计算上比复杂的深度学习方法更便宜。当然，还有一种中间地带，即对于某些特定领域的概念提取等相当复杂的问题，您可能需要考虑从头开始训练一个深度神经网络。

除了训练之外，评估对于成功使用机器学习至关重要。适当的评估指标和方法不仅对于自信地推出您的人工智能功能至关重要，而且还将作为进一步优化的明确目标，以及内部讨论和决策的共同基础。虽然精确度、召回率和准确度等技术指标可以提供一个良好的起点，但最终您将希望寻找反映您的人工智能为用户提供真实价值的指标。

5. 用户体验

人工智能产品的用户体验是一个引人入胜的主题——毕竟，用户对于与一个可以提升并潜在超越他们智能的人工智能“合作”有着很高的期望和担忧。这种人工智能合作的设计需要一个深思熟虑和明智的发现和设计过程。其中一个关键考虑因素是您希望为产品授予的自动化程度——请注意，完全自动化并不总是理想的解决方案。下图说明了自动化连续性：

让我们来看看每个级别：

在第一阶段，人类完成所有工作，不进行任何自动化。尽管围绕人工智能的炒作，现代公司中的大多数知识密集型任务仍然在这个级别上进行，为自动化提供了巨大的机会。例如，那些抵制AI驱动工具并坚信写作是一门高度手动和独特的工艺的内容创作者就在这里工作。
在辅助AI的第二阶段，用户完全控制任务执行，并手动完成大部分工作，但AI工具可以帮助他们节省时间并弥补他们的弱点。例如，在紧急截止日期的博客文章中，使用Grammarly或类似工具进行最后的语言检查可以成为一个受欢迎的时间节省工具。它可以消除需要您宝贵的时间和注意力的手动修订，可能仍然会留下错误和疏忽——毕竟，人非圣贤，孰能无过。
在增强智能方面，人工智能是人类智能的伙伴，从而发挥两个世界的优势。与辅助AI相比，机器在您的过程中有更多发言权，并承担更多责任，如构思、生成和编辑草稿以及最终的语言检查。用户仍然需要参与工作、做出决策并执行任务的部分。用户界面应清楚地指示人与AI之间的劳动分配，突出错误潜力，并提供执行的透明度。简而言之，通过迭代和改进，“增强”体验引导用户实现期望的结果。
最后，我们有完全自动化——对于AI极客、哲学家和专家来说，这是一个引人入胜的想法，但通常不是现实产品的最佳选择。完全自动化意味着您提供了一个“大红按钮”来启动流程。一旦AI完成，用户将面对最终输出，然后要么接受，要么放弃。他们无法控制其中发生的任何事情。正如您可以想象的那样，此处的用户体验选项相当有限，因为几乎没有互动性。成功的责任主要落在您的技术同事身上，他们需要确保输出的质量异常高。

在设计方面，AI产品需要特殊对待。标准的图形界面是确定性的，允许您预见用户可能采取的所有可能路径。相比之下，大型AI模型是概率的和不确定的——它们展示了一系列令人惊叹的能力，但也存在风险，例如有毒、错误和有害的输出。从外部来看，您的AI界面可能看起来很简单，因为您产品的很多能力直接存在于模型中。例如，一个LLM可以解释提示、生成文本、搜索信息、总结信息、采用特定的风格和术语、执行指令等等。即使您的用户界面只是一个简单的聊天或提示界面，也不要忽视这个潜力——为了引导用户取得成功，您需要明确和实际。让用户了解您的AI模型的能力和限制，让他们能够轻松发现和修复AI产生的错误，并教导他们自行迭代以获得最佳输出。通过强调信任、透明度和用户教育，您可以让用户与AI合作。虽然深入研究新兴的AI设计学科超出了本文的范围，但我强烈建议您不仅从其他AI公司，还从设计的其他领域（如人机交互）寻找灵感。您很快就会发现一系列重复出现的设计模式，例如自动完成、提示建议和AI通知，您可以将其整合到自己的界面中，以最大程度地发挥数据和模型的优势。

此外，为了实现出色的设计，你可能需要为你的团队添加新的设计技能。例如，如果你正在构建一个用于优化营销内容的聊天应用程序，你将与一个对话设计师合作，负责处理对话流程和聊天机器人的“个性”。如果你正在构建一个需要通过可用选项全面教育和引导用户的丰富增强产品，一个内容设计师可以帮助你构建合适的信息架构，并为用户添加适量的引导和提示。

最后，要对意外保持开放态度。AI设计可以让你重新思考关于用户体验的原始概念。例如，许多UX设计师和产品经理被训练要尽量减少延迟和摩擦，以使用户体验更加顺畅。然而，在AI产品中，你可以暂停这场斗争，并同时利用它们。延迟和等待时间对于教育用户非常有用，例如，通过解释AI当前正在做的事情，并指示可能的下一步操作。对话和通知弹出窗口等中断可以引入摩擦，以加强人工智能与人类的合作伙伴关系，并提高用户的透明度和控制权。

6. 非功能性需求

除了数据、算法和用户体验之外，所谓的非功能性需求（NFRs），如准确性、延迟、可扩展性、可靠性和数据管理，确保用户真正获得预期的价值。NFRs的概念来自软件开发，但在AI领域尚未系统地被考虑。通常，这些需求是在用户研究、构思、开发和操作AI能力的过程中临时而随意地被提出的。

你应该尽早了解和定义你的NFRs，因为不同的NFRs将在你的旅程的不同阶段出现。例如，隐私需要从数据选择的最初步骤开始考虑。准确性在用户开始在线使用你的系统时最敏感，可能会因为意外输入而使系统不堪重负。可扩展性是一个战略性考虑因素，当你的业务扩大用户数量和/或请求或提供的功能范围时，它就会发挥作用。

在NFRs方面，你不能全都拥有。以下是你需要平衡的一些典型权衡：

提高准确性的一种最初方法是使用更大的模型，这将影响延迟。
将生产数据“原样”用于进一步优化可能对学习效果最好，但可能违反隐私和匿名规则。
更可扩展的模型是通才，这会影响它们在公司或用户特定任务上的准确性。

你如何优先考虑不同的需求将取决于可用的计算资源、你的UX概念（包括自动化程度）以及AI支持的决策的影响。

要点

以最终目标为出发点：不要假设仅仅依靠技术就能完成工作；你需要清晰地规划将AI集成到用户界面产品中，并向用户介绍其益处、风险和局限性。
市场对齐：优先考虑市场机会和客户需求来指导AI开发。不要急于推动由炒作驱动的AI实施，而没有市场验证。
用户价值：以效率、个性化、便利性和其他价值维度来定义、量化和传达AI产品的价值。
数据质量：专注于数据质量和相关性，以有效地训练AI模型。尽量使用小而高质量的数据进行微调，使用更大的数据集进行从头开始训练。
算法/模型选择：为你的用例选择合适的级别（提示、微调、从头开始训练），并仔细评估其性能。随着你在产品中获得必要的专业知识和信心，你可能希望切换到更高级的模型策略。
以用户为中心的设计：在设计AI产品时考虑用户需求和情感，平衡自动化和用户控制。注意概率AI模型的“不可预测性”，并引导用户与之合作并从中受益。
协作设计：通过强调信任、透明度和用户教育，你可以使用户与AI合作。
非功能性需求：在开发过程中考虑准确性、延迟、可扩展性和可靠性等因素，并尽早评估其中的权衡。
协作合作：促进AI专家、设计师、产品经理和其他团队成员之间的紧密合作，以从跨学科的智慧中获益，并成功集成你的AI。

参考文献

[1] Teresa Torres (2021). Continuous Discovery Habits: Discover Products that Create Customer Value and Business Value.

[2] Orbit Media (2022). New Blogging Statistics: What Content Strategies Work in 2022? We asked 1016 Bloggers.

[3] Don Norman (2013). The Design of Everyday Things.

[4] Google, Gartner and Motista (2013). From Promotion to Emotion: Connecting B2B Customers to Brands.