免费尝试大型语言模型

众所周知,大型语言模型通常占用大量空间。而且,即使在不久之前,它们也只能供高端硬件所有者使用,或者至少供那些支付云服务费用甚至每次API调用费用的人使用。如今,情况正在改变。在本文中,我将展示如何在Google Colab中完全免费运行LangChain Python库、FAISS向量数据库以及Mistral-7B模型,并进行一些有趣的实验。
组件
TDS上有很多关于在Python中使用大型语言模型的文章,但很多时候很难复现这些文章中的内容。例如,许多关于使用LangChain库的示例使用了一个名为OpenAI的类,其中的第一个参数是OPENAI_API_KEY(猜猜是什么意思?)。其他一些关于RAG(检索增强生成)和向量数据库的示例使用了Weaviate;在打开他们的网站后,我们首先看到的就是“定价”。在这里,我将使用一组完全免费的开源库:
- LangChain。它是一个用于开发由语言模型提供支持的应用程序的Python框架。它也是与模型无关的,相同的代码可以在不同的模型上重用。
- FAISS(Facebook人工智能相似度搜索)。它是一个用于高效相似度搜索和稠密向量存储的库,我将用它来进行检索增强生成。
- Mistral 7B是一个拥有73亿参数的大型语言模型(根据Apache 2.0许可证发布),根据作者的说法,在所有基准测试中,它的性能超过了130亿参数的Llama2。它也可以在HuggingFace上使用,所以使用起来非常简单。
- 最后但同样重要的是,Google Colab也是这个测试的重要部分。它提供免费访问由CPU、16GB NVIDIA Tesla T4甚至80GB NVIDIA A100驱动的Python笔记本。
现在,让我们开始吧。
安装
首先,我们需要打开Google Colab并创建一个新的笔记本。我们可以在第一个单元格中使用pip
来安装所需的库: