Press "Enter" to skip to content

“遇见百川-13B:中国的开源大语言模型,与OpenAI匹敌”

“遇见百川-13B:中国的开源大语言模型,与OpenAI匹敌” 四海 第1张“遇见百川-13B:中国的开源大语言模型,与OpenAI匹敌” 四海 第2张

中国搜索引擎搜狗的创始人王小川通过其公司百川智能发布了一款名为百川-13B的新型巨型语言模型。目前,该模型仅限程序员和研究人员进行商业使用。搜狗创始人王小川最近在微博上发布了一条消息称“中国需要自己的OpenAI”。这位中国商人在其初创公司百川智能发布了下一代大型语言模型百川-13B之后,离实现自己的愿景又近了一步。百川智能在三个月前推出,并迅速吸引了一批愿意投资5000万美元的投资者。由于创始人在计算机科学方面的非凡技能,他的组织现在被视为中国最有前途的巨型语言模型创造者之一。

百川-13B采用了与GPT和大部分国内中文变体相同的Transformer设计。除了在中文和英文数据上进行训练外,它的130亿个参数(用于文本生成和分析的变量)都是双语的。该模型是开源的,可以用于赢利,并且是使用GitHub上的数据构建的。

在百川-7B取得成功之后,百川智能科技推出了百川-13B,这是一个商业可用的开源大型语言模型,具有130亿个参数。在受人尊敬的中文和英文规范中,它胜过了同等规模的竞争对手。此次发布包括基准(百川-13B-Base)和对话(百川-13B-Chat)两个版本。

特点

  • 百川-13B在百川-7B的基础上将参数数量增加到130亿,并在高质量语料库上训练了1.4万亿个标记,比LLaMA-13B多40%。在开源的13B规模下,它是训练数据最多的模型。它采用了ALiBi位置编码和4096字节的上下文窗口,并且可以同时处理中文和英文。
  • 预训练模型用于开发者的基础版本,而具有对话功能的对齐模型更受常规用户的青睐。因此,这个开源版本中包括了具有强大对话功能、可直接使用并仅需几行代码即可部署的对齐模型(百川-13B-Chat)。
  • 研究人员还提供了int8和int4量化版本,这些版本在推理方面更加高效,以鼓励广泛的用户使用。它们可以在像Nvidia 3090这样的消费级显卡上实现,但非量化版本需要更强大的硬件支持。
  • 公众使用免费,无限制转售或修改:如果开发者通过邮件申请官方商业许可,他们可以免费使用百川-13B进行商业目的。

百川-13B使用了大约14亿个标记进行训练。据OpenAI称,ChatGPT-3据说是在3000亿个标记上进行训练的。百川团队在三个月内扩大了一倍,成员达到了50人,并在上个月公开展示了他们的模型百川-7B,该模型具有70亿个参数。两天前发布的百川-13B版本是最基本的版本。现在,已经获得合法授权的研究人员和程序员可以免费使用它进行商业用途。该模型是否会正式发布供广泛使用的未来尚待发现。

基础模型百川-13B现在对已获得必要法律许可的研究人员和程序员免费提供,并且可以在像Nvidia的3090显卡之类的消费级硬件上运行,这一点尤其值得注意,考虑到最近美国对中国人工智能芯片制造商的限制。

百川智能科技的研究人员确认,他们的团队尚未为任何平台(包括iOS、Android、Web等)创建基于百川-13B的应用程序。我们敦促用户不要将百川-13B模型用于非法或有害的目的,如危害国家或社会安全。同时,我们鼓励用户在没有必要的安全审计和备案的情况下不要将百川-13B模型用于互联网服务。我们指望每个人遵守这个规则,将技术进步限制在法律范围内。

Leave a Reply

Your email address will not be published. Required fields are marked *