Press "Enter" to skip to content

“在部署生成 AI 方面,企业面临的选择:开源模型还是专有模型”

兴趣激增的生成AI领域在2023年中旬已经出现了350多家公司[1],其价值主张从基础模型到特定用例不一而足。众多供应商的选择范围广泛,这就需要企业在考虑实施这种新兴技术时做出充分明智的决策,标准不应仅仅局限于品牌定位或相对定价。本文主要讨论这个多因素方法中的一个维度:采用开源或专有的语言学习模型(LLM)。

图1展示了生成AI市场的主要参与者,分为开源和闭源(即专有)产品。在大型科技企业中,谷歌、微软(Open AI)和亚马逊拥有专有产品,而Meta(Facebook)和NVIDIA则提供开源模型。那些已经大量使用科技巨头的服务(如云存储或分析产品)的企业,可能会决定继续使用当前的供应商,以从可扩展、无缝集成生成AI到现有生态系统中获益。对于竞争格局的其余部分,开源空间主要由Anthropic、Inflection和Cohere等公司主导,而Hugging Face、Mistral AI和Stabilitiy.ai则主导闭源领域。

那些已经使用科技巨头服务的企业可能决定继续使用当前的供应商,以从生成AI的集成中获益。

图1:提供开源和闭源Gen AI模型的主要参与者

选择开源还是专有Gen AI模型的标准

每个企业在考虑选择供应商部署生成AI时,都需要采取细致的方法来计算自己的投资回报率(ROI)。需要考虑的差异不仅限于开源和闭源之间,还包括这两个类别内部。图2提供了相关因素的综述。

定价

基本上,开源是免费的,但可能会有与额外许可证或服务相关的费用,这些不属于其核心产品。闭源供应商的定价政策存在很大差异,因为市场仍在了解所产生的价值。最常见的定价结构是基于输入和输出令牌的大小(基本上是文本的长度)。另一种方法是基于调用次数,而不考虑文本的长度。谷歌使用前者,而微软有一种更复杂的混合方法。亚马逊尚未详细披露其定价结构。

最常见的定价结构是基于输入和输出令牌的大小。

灵活性

灵活性的考虑是双重的。首先是可定制性的水平,在这方面开源具备优势,因为用户可以自行决定如何利用它。闭源产品在这方面可能有所不同,例如,亚马逊和微软在企业使用的基础模型方面比谷歌更具多样性。其次是供应商锁定的问题。对于开放的访问模型,从一个来源迁移到另一个来源可能很容易,因为没有合同限制,但目前还没有清楚的办法可以切换到闭源实例。

灵活性的考虑是双重的:定制水平和供应商锁定问题。

透明度

开源模型自然更加透明,因为对其性能的审查是众包的。潜在漏洞的信息也能够很快被察觉和广泛共享,而对于专有模型来说,这些数据可能不会被提供。例如,与其他科技巨头相比,亚马逊目前提供的有关其模型性能的信息最少。

人才

从无需访问费用的开源模型中节省下来的费用可能会被更多的人力成本抵消。部署开源模型需要更多的人才,无论是数量还是专业程度都需要更高。首先,这种技能目前并不常见,因为技术本身还处于起步阶段,需求是前所未有的。其次,这些工作的薪资水平较高,因此对于招聘和保留人才来说是昂贵的。另一方面,对于专有产品的客户来说,一个较小的数据科学和开发人员团队具备AI的广义知识可能就足够了。

没有开源模型的访问费用有可能会被更大的人力成本抵消。

支持

对于闭源模型,代码和基础设施的开发和维护更加流畅,并且会作为提供给企业的一部分进行打包。专门的客户服务也很可能是闭源提供者的一个特色,提供故障排除等帮助,这是开源选项一般所缺乏的。

上市速度

虽然开源模型本身很快可访问,但由于闭源模型有整齐打包、用户友好的界面,部署速度可能较慢。这,再加上招聘过程耗时,可能导致开源总体上市时间较慢。

性能

平均而言,专有模型被认为比开源模型性能更好,尽管这个差距随着时间的推移正在缩小。这一差距主要是因为,平均而言,开源提供者可能没有所需的大量资源来通过迭代方法获得这样的竞争优势,因为训练大规模语言模型是昂贵的,需要大量存储和密集计算。事实上,到2023年第三季度,前五个开源初创公司的资金约为6.7亿美元,而闭源公司的资金约为200亿美元[2]。

图2:在选择开源和闭源Gen AI产品时需要考虑的因素

到2023年第三季度,前五个开源初创公司的资金约为6.7亿美元,而闭源公司的资金约为200亿美元。

还有两个需要考虑的因素是隐私和知识产权。开源很少有数据隐私和泄露问题,因为它是在企业内部采用的。然而,大多数闭源提供者会将企业数据进行围栏保护,以防止其被用于进一步训练他们的模型。隐私差异更多取决于特定供应商的合同条款,而不是两个考虑的分类。

由于使用数据训练语言模型的知识产权的监管尚未确定,因此无论是开源还是专有模型,都存在较高的法规风险。而对Gen AI提供商的客户的影响取决于每个参与者制定的规定,与其是开源还是闭源无关。

鉴于选择开源和专有模型可能会对企业产生重大影响,综合和及时地权衡利弊是至关重要的。

来源:[1] Dealroom,[2] CB Insights

免责声明:本个人博客中表达的观点和意见仅代表作者个人,不代表任何组织或公司的观点。未包含任何私有或专有信息。

由于这是原创作品,请告知任何错误或遗漏。

照片来源:Roozbeh Eslami
Leave a Reply

Your email address will not be published. Required fields are marked *