Press "Enter" to skip to content

“StackOverflow的转变:从扰乱到机遇”

OverFlowAI将公司的核心资产暴露在可用的界面中,并创建了一个gen AI循环来创建新内容

Pakata Goh在Unsplash上的照片

随着像GPT4这样的高效模型超强化生成AI,数据专业人员如何为他们所在的组织提供长期价值正在发生变化。真正的价值将不仅来自于在房间里技术上最有竞争力的人,而且要能够塑造这如何影响产品和业务结果。这包括能够指导您的组织朝着正确的数据策略发展,并塑造数据产品如何无缝地与产品体验融合。本文对StackOverflow的转型分析作为一个引人注目的案例研究。

StackOverflow是软件开发人员最常用的编程支持平台,最近经历了一段艰难的时期。如果您以前没有使用过StackOverflow,它是一个类似Quora / Reddit的问答论坛,您可以在其中提问与编程相关的问题。我已经多年没有写过生产质量的代码了,但在我写代码的时候,StackOverflow是令人难以置信的。例如,如果您在编译代码时遇到最奇怪的错误并得到一个令您无法理解的错误信息,您会将其输入到谷歌搜索中。往往情况下,您会找到一个StackOverflow页面,其中有人提出了相同的问题并得到了答案。更少的情况下,您会找到另一个和您有完全相同奇怪问题的人,但没有得到答案-在这种情况下,祝您好运。具体而言,StackOverflow上69%的问题得到了回答,这是非常令人印象深刻的。

StackOverflow主页

然而,最近StackOverflow的流量一直在下降。Similarweb的数据显示他们的流量同比下降了14%(StackOverflow表示接近5%)。尽管如此,这一趋势是向下的,主要是由于ChatGPT和GitHub Copilot等AI编程产品的出现。这些产品具有有意义的编码能力,因此能够提供编程支持,至少在某种程度上和StackOverflow一样好。具有讽刺意味的是,这些AI产品背后的几个大型语言模型(LLMs)是使用抓取的StackOverflow数据进行训练的。

公司在媒体上受到了相当严厉的关注。《商业内幕》在他们的文章《被大型语言模型淘汰》中写道:

欢迎来到AI世界中的互联网未来。像Stack Overflow和维基百科这样的在线社区作为专家和好奇者聚集在一起自由分享信息的中心蓬勃发展。现在,这些数字会议场所正在被大型科技公司掠夺,以获取人类数据来训练他们的大型语言模型。

从这一生成AI繁荣中出现的新产品让这些在线论坛的未来变得不确定。聊天机器人可以清晰、自动地回答问题,而且通常还很愉快-所以人们不需要与其他人交流获取信息。

在这一关注中,StackOverflow保持了稳定的态度,并阐明了他们应对这一挑战的双重方法:

  1. 几周前,他们宣布将开始向使用该平台的5000多万问题和答案进行模型训练的大型AI开发人员收费(我们在之前的数据抓取文章中深入讨论了这个问题)
  2. 上周,他们推出了OverflowAI产品,这是一套实际有用的生成AI功能,可以帮助他们开启第二局-我们今天将重点关注这个

在本文中,我们将深入探讨:

  • AI代码编写工具对StackOverflow的影响
  • OverflowAI的功能
  • 从StackOverflow战略中的潜在趋势

AI代码编写工具对StackOverflow的影响

目前市场上有几种AI代码编写和编辑工具可用。这些工具可以是独立产品(如OpenAI Codex、ChatGPT、Google Bard),也可以是已经集成在现有平台内的产品(如GitHub Copilot、Replit Ghostwriter、Amazon CodeWhisperer)。它们具有广泛的功能,包括代码生成、代码编辑、自动补全和调试。

具有本地发布(如GitHub Copilot)的产品具有很大的优势,因为它们可以在程序员已经使用的环境中无缝运行,我们将看到更多的产品试图插入现有环境。例如,CodeGPT有一个插件,允许开发人员从Visual Studio Code(一种流行的代码编辑工具)中使用该产品。

现有的AI代码编写工具在某些任务上表现出色。例如,这个Reddit帖子收集了几位Web开发者对GitHub Copilot的反馈意见 – 总的主题是该产品在开发人员需要编写新代码但不想花时间从头开始时非常有用。即使在这些情况下,通常也是偶尔命中。

这个原因并不令人意外。从概念上讲,大型语言模型(LLM)接收大量数据,并根据以下构造生成输出:在特定上下文中,对于您提出的问题,最有可能的单词/文本是跟随前一个单词的。它本质上是根据这个概率计算一个单词跟随另一个单词的概率,并根据此生成输出。尽管有这个构造,考虑到这些模型的训练数据量,对于更一般的ChatGPT用例(如起草电子邮件或总结页面),结果令人印象深刻。但是重要的是要记住,语言模型的设计使其具有有限的分析/数学能力。换句话说,当您问模型“2+2等于多少”时,它可能给出正确答案 – 不是因为它懂数学,而是因为它在训练数据中曾经看到过那个文本模式。

同样地,在代码生成方面,模型并不真正“了解”编程背后的概念,而是根据大量文本数据的训练来预测结果。这就是上面提到的GitHub Copilot的反馈结果 – 它有时擅长生成您需要的基本代码,但它对于实际理解代码、调试和提供解释的能力是有限的。这将随着时间的推移而改善,但很难说它是否会达到高准确性/高可靠性的水平。

StackOverflow首席执行官Prashanth Chandrasekar简明扼要地描述了这一点:

现代LLM系统的一个问题是,它们以与正确答案相同的自信度提供错误答案,并且如果它们认为这符合用户所寻求的答案模式,它们将“产生”事实和数字。

在某个时候,您将需要知道您正在构建什么。您可能需要调试它,却不知道刚刚构建了什么,而通过采取捷径无法跳过学习之旅。

这就是StackOverflow的机会 – 他们的流量下降可能是永久性的,并且程序员可能不再经常访问StackOverflow寻求简单问题的解答(例如,他们可能不再访问StackOverflow获取现成的排序算法)。但是,该产品可以发光的地方是:1)为语言模型可能无法回答的更复杂问题提供高准确性/高可靠性的答案,2)为模型以前没有训练数据的新技术/问题空间提供答案。OverflowAI旨在直接利用这个机会。

OverflowAI的功能

他们押注的三个关键方面是 – 直接回答问题,可在开发环境中使用,以及加强企业的知识。

OverflowAI搜索问答格式直接回答用户的问题(类似于ChatGPT),但同时提供实际StackOverflow帖子的链接。除了帮助建立信任,这还为用户提供了在AI提供的答案无法完全解决用户问题的情况下深入了解的机会。这在简单问题时给出直接答案的同时,也引导用户在困难问题上进行更深入的探索。

OverflowAI搜索(来源:来自OverflowAI演示视频的截图)

如果用户对响应不满意,他们可以进入类似聊天的界面提出后续问题。如果没有一个答案令人满意,他们可以要求StackOverflow代表他们起草一个问题,准备发布到问答论坛。这种体验还可以避免用户在提问时遇到的情况,即他们的问题以前已经有人回答过。

自动生成问题草稿(来源:从OverflowAI演示视频中截取)

此产品还通过通过Visual Studio Code扩展程序的方式,将所有这些功能可用于提高可用性。这有助于StackOverflow通过让开发人员可以从编码环境中获取答案(而不是必须切换上下文并从浏览器中搜索)来更有效地与原生集成的编码助手竞争。

Visual Studio Code中的扩展程序(来源:从OverflowAI演示视频中截取)

此外,对于企业客户,OverflowAI正在创建能够将公司内部的各种信息源(内部问答、Wiki页面、文档存储库)插入其中,以为开发人员提供一个统一的问答体验。能够利用内部和StackOverflow数据,并且更重要的是在问答类型的界面中轻松展示这些数据,对工程组织来说可以提高生产力。他们还计划推出一个Slack集成,作为一个无缝的界面来展示这些功能。

OverflowAI产品方法的令人印象深刻之处在于,它将公司的核心资产(对困难问题的回答)以一种高度可用的界面展示给用户(无论是在Slack还是在开发环境中),从而创建了一个循环,用户可以利用生成的AI提交新问题。

StackOverflow不完全是一家上市公司-他们隶属于Prosus,而Prosus又隶属于一个更大的控股公司Naspers,Naspers是一家上市公司。因此,很难获得干净的收入数据,但Prosus于2022年5月发布的一份报告提供了一些信息:

  • 公司在2022年实现了大约8900万美元的收入,其中企业产品StackOverflow for Teams和Reach产品(广告和雇主品牌)各占一半
  • 从2021年到2022年,StackOverflow for Teams的收入增长了69%,而Reach产品的收入下降了12%(2022年可能有其他影响收入的因素,例如招聘速度减慢)
StackOverflow所有者Prosus的收入数据(2022年5月报告)

这些收入数据结合OverflowAI产品的功能,指出了StackOverflow在生成式AI领域发展的一些明显趋势(这些趋势也可以扩展到其他问答平台):

  1. 他们的广告业务,其成功与流量直接相关,正在下降。这并不一定是可怕的,只是指向一个更广泛的趋势-由于消费者直接获得更简单问题的答案(这是好事),因此可能会有更少的目光/页面浏览量,因此广告成为一个不太重要的收入来源。
  2. StackOverflow将继续成为困难问题答案的宝贵来源,并且随着公司推动生成式AI来自动起草/提交问题,问题和答案的数量将继续增长。此外,如果StackOverflow可以使内容引擎运行,这个平台上内容的质量也很可能会提高,因为重复/简单问题将不再是最高数量的内容。
  3. StackOverflow将继续加倍努力构建能够为用户提供最大价值的体验(如OverflowAI搜索和Visual Studio Code扩展程序),并专注于客户愿意为这些卓越体验付费的产品线(例如StackOverflow for Teams)
  4. 数据许可计划,即他们向AI公司收取数据训练费用,将加速发展

所有趋势都指向一个方向,即StackOverflow正在成功转型为公司的下一个阶段,并且该公司已经做出了正确的产品/业务投资,以应对潜在的中断。此外,他们还提供了有价值的社区服务,并为其他问答平台提供了一个可利用的指南。总体而言,我对他们的发展方向持乐观态度,并认为这将在未来引发一个蓬勃发展的内容生态系统。

🚀 如果你喜欢这篇文章,考虑订阅我的每周通讯。每周我都会发布一篇深度分析,涉及当前科技话题和产品战略,阅读时间约为10分钟。祝好,Viggy。

Leave a Reply

Your email address will not be published. Required fields are marked *