Press "Enter" to skip to content

OpenAI推出GPTBot:一个用于自动从整个互联网上提取数据的网络爬虫

OpenAI推出GPTBot:一个用于自动从整个互联网上提取数据的网络爬虫 四海 第1张OpenAI推出GPTBot:一个用于自动从整个互联网上提取数据的网络爬虫 四海 第2张

OpenAI通过引入一种名为GPTBot的新型网络爬虫工具,回应了在采集公共网站上的数据时出现的隐私和知识产权问题。这项技术旨在透明地收集公共网络数据,并将其用于训练他们的AI模型,一切都在OpenAI的旗帜下进行。

GPTBot的用户代理旨在收集有助于改进未来AI模型的数据。在此过程中,GPTBot将省略需要付费的来源。然而,需要注意的是,一些收集到的数据可能无意中包含可识别的信息或文本,从而违反了OpenAI的政策。

OpenAI认识到需要为网站管理员提供有关GPTBot平台访问的选项。授予访问权限被视为在提高AI模型的准确性、增强其功能和加强安全措施方面的一种合作方式。与此相反,OpenAI还为那些不希望将其网站包含在GPTBot数据收集工作中的人提供了一套程序。该指南包括将GPTBot指令整合到网站的robots.txt文件中,并配置其访问特定内容段。

为了更加透明,OpenAI已发布了与GPTBot活动相关的IP地址范围。此举不仅有助于识别机器人的行为,还提供了必要时阻止其访问的手段。

这些透明度举措突显了OpenAI对AI模型运营商所面临的批评的回应,这些运营商被指控在未经明确同意的情况下收集数据。普遍的观点认为,该行业的做法可能侵犯了知识产权和隐私保护,通过未经适当授权从公共网站收集内容。这反过来促使AI实体提供更全面的选择加入和退出机制,允许网站所有者和数据保管人对其内容的使用发表意见。

在相关发展中,Kickstarter的筹款平台最近引入了AI项目规定。这些规定包括一个重要要求,即利用外部数据源的项目必须提供来自源网站的适当许可协议和获得的同意的证据。未能履行此义务的项目将无资格在Kickstarter上列出。

预计在接下来的一周,OpenAI将进行一次重大改革,其中包括将基础ChatGPT层转换为GPT-4。此外,对Code Interpreter插件的增强将包括支持上传多个文件到提示,反映了OpenAI对持续改进和创新的承诺。

Leave a Reply

Your email address will not be published. Required fields are marked *