Press "Enter" to skip to content

‘ChatGPT的发布是否影响了开放数据的产出?研究人员调查了LLM的流行如何导致StackOverflow上的内容大幅减少’

‘ChatGPT的发布是否影响了开放数据的产出?研究人员调查了LLM的流行如何导致StackOverflow上的内容大幅减少’ 四海 第1张‘ChatGPT的发布是否影响了开放数据的产出?研究人员调查了LLM的流行如何导致StackOverflow上的内容大幅减少’ 四海 第2张

大型语言模型(LLMs)在每次更新和发布新版本时都越来越受欢迎。像BERT、GPT和PaLM这样的LLMs在自然语言处理和自然语言理解领域展示了巨大的能力。由OpenAI开发的著名聊天机器人ChatGPT基于GPT 3.5和GPT 4的变压器架构,并被超过一百万用户使用。由于它具有模仿人类特性,它引起了从研究人员和开发人员到学生的所有人的注意。它可以高效地生成独特的内容,像人类一样回答问题,总结长篇文字段落,完成代码示例,翻译语言等等。

ChatGPT已经证明在各种主题上向用户提供信息非常出色,使它们成为传统网页搜索和在线寻求他人帮助的潜在替代品。但是也存在一种限制,即如果用户继续私下与大规模语言模型进行互动,公开可访问的人类生成数据和知识资源的数量可能会大幅减少。这种开放数据的减少可能会使未来模型的训练数据变得困难,因为可能会有较少的免费可用信息。

为了进一步研究这个问题,一组研究人员对Stack Overflow上的活动进行了调查,以确定ChatGPT的发布如何影响开放数据的产生。Stack Overflow是一个著名的面向计算机程序员的问答网站,它是一个很好的案例研究,可以研究当存在多个语言模型时用户行为和贡献。该团队对如何随着ChatGPT等LLMs的普及而导致类似StackOverflow等网站上的内容大幅减少进行了深入研究。

经过评估,该团队得出了一些有趣的结论。与ChatGPT访问受限的中国和俄罗斯竞争对手以及类似的数学论坛相比,Stack Overflow的活动明显减少。团队预测,在OpenAI的ChatGPT发布后,Stack Overflow每周帖子数量将下降16%。同时,ChatGPT对减少Stack Overflow活动的影响随着时间的推移而增加,这表明随着用户对该模型的特性越来越熟悉,他们开始越来越多地依赖它获取信息,进一步限制了对该网站的贡献。

该团队得出了三个关键发现,具体如下。

  1. 减少的发布活动:ChatGPT发布后,Stack Overflow的帖子数量,即问题和答案的数量,减少了。使用差异法计算了活动减少并与其他四个问答平台进行了比较。ChatGPT发布后的六个月内,Stack Overflow的帖子活动量最初下降了约16%,然后增长到约25%。
  1. 帖子投票数没有改变 – 自ChatGPT发布以来,Stack Overflow上的帖子收到的投票数(包括赞成和反对)没有显着变化,尽管帖子活动有所下降,这表明ChatGPT不仅替代了低质量的帖子,还替代了高质量的文章。
  1. 对不同编程语言的影响:ChatGPT对Stack Overflow上讨论的各种编程语言产生了不同的影响。与全球网站平均水平相比,一些语言(如Python和JavaScript)的帖子活动减少得更为明显。帖子活动的相对下降也受到GitHub上编程语言的普及程度的影响。

作者总结了广泛使用LLMs和随之而来的远离Stack Overflow等网站可能会限制用户和未来模型从中学习的开放数据的数量的影响,并且尽管在解决某些编程问题方面可能会提高效率,但对于互联网上的知识的可访问性和共享以及AI生态系统的长期可持续性都会产生影响。

Leave a Reply

Your email address will not be published. Required fields are marked *