Press "Enter" to skip to content

面对生成式人工智能,StackOverflow如何适应

StackOverflow是软件开发人员在编程支持方面最常用的平台,最近经历了一段艰难的时期。尽管回答了69%的问题,StackOverflow的流量却在下降。Similarweb的数据显示,他们的流量同比下降了14%(StackOverflow表示实际下降接近5%)。然而,这一趋势主要是由于像ChatGPT和GitHub Copilot这样的AI编码产品的出现所解释的。这些产品具有有意义的代码编写能力,因此至少在某种程度上能够提供与StackOverflow相当的编程支持。具有讽刺意味的是,这些AI产品背后的几个大型语言模型(LLMs)是使用从StackOverflow获取的数据进行训练的。

公司在这些发展中受到了相当严厉的媒体报道。《商业内幕》在他们的文章《LLM之死》中写道:

欢迎来到AI世界中的互联网未来。像Stack Overflow和维基百科这样的在线社区一度是专家和好奇浏览者聚集在一起自由分享信息的中心。现在,这些数字会议场所正在被大型科技公司掠夺,以获取人类数据来训练他们的大型语言模型。

这个生成AI繁荣带来的新产品正在使这些在线论坛的未来蒙上了阴影。这些聊天机器人清晰、自动、常常友好地回答问题,因此人们不需要与其他人交流获取信息。

在所有这些关注中,StackOverflow保持稳定,并明确了应对这一挑战的双管齐下的方法:

  1. 几周前,他们宣布将向使用该平台的5000万个问题和答案进行模型训练的大型AI开发人员收费(我们之前在数据抓取文章中对此问题进行了深入挖掘)。
  2. 上周,他们推出了OverflowAI产品,这是一套真正有用的生成AI功能,可以帮助他们开启第二个阶段——我们今天将重点关注此部分。

在本文中,我们将深入探讨以下内容:

  • AI代码编写工具对StackOverflow的影响。
  • OverflowAI的功能。
  • 从StackOverflow战略中看到的潜在趋势。

AI代码编写工具对StackOverflow的影响

市场上有几种AI代码编写和编辑工具。这些要么是独立产品(如OpenAI Codex、ChatGPT、Google Bard),要么是内置在现有平台中的产品(如GitHub Copilot、Replit Ghostwriter、Amazon CodeWhisperer)。它们具有广泛的功能,包括代码生成、代码编辑、自动完成和调试。

具有本地分发的产品(如GitHub Copilot)具有很大的优势,因为它们可以在程序员已经使用的环境中无缝操作,而且我们将看到更多的产品尝试连接到现有环境中。例如,CodeGPT有一个插件,允许开发人员在Visual Studio Code(一种流行的代码编辑工具)内使用该产品。

现有的AI代码编写工具在某些任务上表现出色。例如,这个Reddit帖子收集了几位Web开发人员对GitHub Copilot的反馈意见 – 总体上的主题是该产品在一些情况下很有用,这些情况下开发人员需要编写全新的代码而不想浪费时间从头开始编写。即使对于这些情况,它的表现也常常是好与坏。

原因并不令人意外。从概念上讲,大型语言模型(LLMs)接收大量的数据,并根据这个结构生成输出:在特定的上下文中,对于你所问的问题,最有可能的词/文本是什么?它本质上是根据词与词之间的概率计算并生成输出。尽管如此,鉴于这些模型的训练数据量,对于更一般的ChatGPT用例(如起草电子邮件或摘要页面),结果令人印象深刻。但是需要记住的是,语言模型在设计上具有有限的分析/数学能力。换句话说,当你问模型“2+2等于多少?”时,它可能会给出正确答案,但不是因为它懂数学,而是因为它在训练数据中看到过这个文本模式。

同样,在代码生成方面,模型并不真正“了解”编程的基本概念,而是根据大量的文本数据进行训练后预测结果。这就是上面提到的GitHub Copilot反馈的结果 – 它有时擅长生成你所需的基本代码,但它理解代码、调试和提供解释的能力是有限的。这种情况会随着时间的推移而改善,但很难说它是否会达到高准确性/高可靠性的水平。

StackOverflow CEO Prashanth Chandrasekar的简要描述如下:

现代LLM系统的一个问题是,它们会以与正确答案相同的自信度提供错误答案,并且如果它们认为这些答案符合用户所寻求的模式,它们会“产生幻觉”地提供事实和数据。

在某个时候,您将需要了解您正在构建的内容。您可能不得不对其进行调试,却不知道刚刚构建了什么,而通过捷径跳过学习过程是很难的。

这是StackOverflow的机会——他们的流量下降可能是永久性的,并且程序员很可能不再经常访问StackOverflow以获取更简单的问题的答案(例如,他们可能不再为现成的排序算法访问StackOverflow)。但是,产品能够发挥作用的地方是:1)提供对于语言模型可能无法回答的更复杂问题的高准确度/高可靠性答案,以及2)针对模型以前没有训练数据的新技术/问题领域的问题提供答案。OverflowAI旨在直接利用这一机会。

OverflowAI的功能

它们押注于三个关键方面——直接回答问题、在开发环境内可用性以及增强企业知识。

OverflowAI搜索问答形式直接回答用户的问题(类似于ChatGPT),但同时提供指向实际StackOverflow帖子的链接。除了帮助建立信任,这也为用户提供了在AI提供的答案不能完全解决用户问题时深入了解的机会。这在简单问题时给出直接答案的同时,也为复杂问题引导用户探索更多路径之间提供了微妙的平衡。

Overflow AI搜索

如果用户对回答不满意,他们可以输入类似聊天界面的界面来提出跟进问题。如果没有满意的答案,他们可以要求StackOverflow代表他们起草问题,准备在问答论坛上发布。这种体验还可以避免用户问的问题已经被先前回答过的情况。

自动生成问题草稿

该产品还通过在Visual Studio Code上提供扩展功能来加强可用性。这有助于StackOverflow通过让开发人员在他们的编码环境中获取答案(而不是必须切换上下文并从浏览器中搜索)来更有效地与本地集成的编码助手竞争。

Visual Studio Code中的扩展

此外,对于企业客户,OverflowAI正在创建能够将公司内部各种信息源(内部问答、维基页面、文档存储库)插入其中,以为开发人员提供一个统一的问答体验。能够利用内部和StackOverflow数据,并且更重要的是,在问答式界面中轻松地将其展示出来,可以极大地提高工程组织的生产力。他们还计划推出Slack集成作为无缝接口来展示这一功能。

从StackOverflow战略中看到的潜在趋势

StackOverflow并不是一家公共公司——他们由Prosus公司拥有,而Prosus公司则是一个更大的控股公司Naspers的一部分,Naspers公司是上市公司。因此,很难获得清晰的收入数据,但Prosus于2022年5月发布的一份报告提供了一些线索:

  • 该公司在2022年实现了大约8900万美元的收入,其中企业产品StackOverflow for Teams和Reach产品(广告和雇主品牌推广)的收入各占一半。
  • 从2021年到2022年,StackOverflow for Teams的收入增长了69%,而Reach产品的收入下降了12%(可能存在影响2022年收入的其他因素,例如招聘速度较慢)。

StackOverflow所有者Prosus的收入数据(2022年5月报告)。

这些收入数据与OverflowAI产品的功能相结合,清晰地指出了StackOverflow在生成式人工智能领域(这些趋势也可以延伸到其他问答平台)的发展趋势:

  • 他们的广告业务与流量直接相关,正在下降。这不一定是危机,只是指向了一个更广泛的趋势。由于消费者能直接获得简单问题的答案(这是好事),因此很可能会有更少的目光/页面浏览量,从而使广告成为了收入的次要来源。
  • StackOverflow将继续成为困难问题答案的宝贵来源,并且随着公司对生成式人工智能的推动,问题和答案的数量将继续增长。此外,如果StackOverflow能够保持内容引擎运行,平台上的内容质量将得到提高,因为重复/简单的问题将不再是最大量的内容。
  • StackOverflow将加倍努力构建能够为用户提供最大价值的体验(如OverflowAI搜索和Visual Studio Code扩展),并专注于那些愿意为这些卓越体验付费的产品线(例如…… StackOverflow for Teams)。
  • 数据许可计划将加速发展,他们会向AI公司收费以训练他们的数据。

所有这些趋势都指向了StackOverflow成功转型为公司下一个阶段的方向,公司已经做出了正确的产品/业务投资,以应对潜在的中断。此外,他们还提供了有价值的社区服务,并为其他问答平台提供了一个可借鉴的蓝本。总体而言,我对他们的发展方向感到乐观,相信这将在未来引发一个蓬勃发展的内容生态系统。

Leave a Reply

Your email address will not be published. Required fields are marked *