如何仅需几个步骤在您的设备上运行Alpaca GPT-4是步骤备上GPT-3.5的升级版

2024-06-29 08:21:18 [百科] 来源：避面尹邢网

如何仅需几个步骤在您的何仅设备上运行Alpaca-LoRA？

译文作者：布加迪 2023-06-20 09:00:00人工智能本文介绍了类似ChatGPT的平台Alpaca-LoRA以及如何在您的设备上运行它。

译者 | 布加迪

审校 | 重楼

如何仅需几个步骤在您的设备上运行Alpaca GPT-4是步骤备上GPT-3.5的升级版

ChatGPT是步骤备上一种人工智能（AI）语言模型，近几个月备受关注。运行它有两个流行的何仅版本：GPT-3.5和GPT-4。GPT-4是步骤备上GPT-3.5的升级版，生成的运行答案更准确。但是何仅ChatGPT存在的主要问题是它不是开源的，也就是步骤备上说，不允许用户查看和修改其源代码。运行这导致了许多问题，何仅比如定制、步骤备上隐私和AI民主化。运行

如何仅需几个步骤在您的设备上运行Alpaca GPT-4是步骤备上GPT-3.5的升级版

我们需要这样一种AI语音聊天机器人：可以像ChatGPT一样工作，何仅但又是步骤备上免费开源的，而且消耗的运行CPU资源更少。本文介绍的Alpaca LoRA就是这样一种AI模型。看完本文后，您就比较了解它，而且可以使用Python在本地机器上运行它。下面不妨先讨论一下什么是Alpaca AoRA。

Alpaca LoRA的定义

Alpaca是由斯坦福大学的研究小组开发的一种AI语言模型。它使用Meta的大规模语言模型LLaMA。它使用OpenAI的GPT（text- davincii -003）来微调拥有70亿个参数的LLaMA模型。它可供学术界和研究界免费使用，对计算资源的要求很低。

该团队从LLaMA 7B模型入手，用1万亿token对其进行预训练。他们从175个由人工编写的指令输出对开始，让ChatGPT的API使用这些指令输出对生成更多对。他们收集了52000个样本对话，用来进一步微调其LLaMA模型。

LLaMA模型有几个版本，即70亿个参数、130亿个参数、300亿个参数和650亿个参数。Alpaca可扩展到70亿个参数、130亿个参数、300亿个参数和650亿个参数的模型。

图1 Aplaca 7B架构

Alpaca- LoRA是Stanford Alpaca的小型版，耗电量更少，可以在Raspberry Pie等低端设备上运行。Alpaca-LoRA使用低秩自适应（LoRA）来加快大型模型的训练，同时消耗更少的内存。

Alpaca LoRA的Python实现

我们将创建一个Python环境在本地机器上运行Alpaca-Lora。您需要一个GPU来运行这个模型。它无法在CPU上运行（或者输出很缓慢）。如果您使用70亿个参数模型，需要至少12GB的内存。如果使用130亿参数或300亿参数模型，需要更高的内存。

如果您没有GPU，可以在Google Colab中执行相同的步骤。文末附上了Colab链接。

我们将遵循Alpaca-LoRA的这个GitHub代码存储库。

1. 创建虚拟环境

我们将在虚拟环境中安装所有库。这一步不是强制性的，而是推荐的。以下命令适用于Windows操作系统。（这一步对于Google Colab来说并非必需）。

创建venv的命令：$ py -m venv激活它的命令：$ .\venv\Scripts\activate禁用它的命令：$ deactivate

2. 克隆GitHub代码存储库

现在，我们将克隆Alpaca LoRA的代码存储库。

$ git clone https://github.com/tloen/alpaca-lora.git$ cd .\alpaca-lora\安装库：$ PIP install -r .\requirements.txt

3.训练

名为finettune.py的python文件含有LLaMA模型的超参数，比如批处理大小、轮次数量和学习率（LR），您可以调整这些参数。运行finetune.py不是必须的。否则，执行器文件从tloen/alpaca-lora-7b读取基础模型和权重。

$ python finetune.py \ --base_model 'decapoda-research/llama-7b-hf' \ --data_path 'yahma/alpaca-cleaned' \ --output_dir './lora-alpaca' \ --batch_size 128 \ --micro_batch_size 4 \ --num_epochs 3 \ --learning_rate 1e-4 \ --cutoff_len 512 \ --val_set_size 2000 \ --lora_r 8 \ --lora_alpha 16 \ --lora_dropout 0.05 \ --lora_target_modules '[q_proj,v_proj]' \ --train_on_inputs \ --group_by_length

4. 运行模型

名为generate.py的python文件将从tloen/alpaca-lora-7b读取Hugging Face模型和LoRA权重。它使用Gradio运行用户界面，用户可以在文本框中写入问题，并在单独的文本框中接收输出。

注意：如果您在Google Colab中进行处理，请在generate.py文件的launch()函数中标记share=True。它将在公共URL上运行界面。否则，它将在localhost http://0.0.0.0:7860上运行。

$ python generate.py --load_8bit --base_model 'decapoda-research/llama-7b-hf' --lora_weights 'tloen/alpaca-lora-7b'

输出：

它有两个URL，一个是公共的，另一个在本地主机上运行。如果您使用Google Colab，公共链接可以访问。

5. Docker化应用程序

如果您想要将应用程序导出到某个地方或面临一些依赖项问题，可以在Docker容器中Docker化应用程序。Docker是一个创建应用程序不可变映像的工具。然后可以共享该映像，并将其转换回成应用程序，该应用程序可在容器中运行，拥有所有必要的库、工具、代码和运行时环境。您可以从这里下载Docker for Windows：https://docs.docker.com/desktop/install/windows-install/。

注意：如果您使用Google Colab，可以跳过此步骤。

构建容器映像：

$ docker build -t alpaca-lora

运行容器：

$ docker run --gpus=all --shm-size 64g -p 7860:7860 -v ${ HOME}/.cache:/root/.cache --rm alpaca-lora generate.py \ --load_8bit \ --base_model 'decapoda-research/llama-7b-hf' \ --lora_weights 'tloen/alpaca-lora-7b'

它将在https://localhost:7860上运行您的应用程序。