在本地部署ChatGLM模型。

简介

官网链接：

https://github.com/THUDM/ChatGLM-6B
https://github.com/THUDM/ChatGLM2-6B

部署`ChatGLM2-6B`

创建python环境

conda create -n py310-cuda003 python=3.10
pip install -r requirements.txt

下载模型

pip install --upgrade huggingface_hub
运行python
from huggingface_hub import snapshot_download
snapshot_download(repo_id="THUDM/chatglm2-6b")

部署

git clone https://github.com/THUDM/ChatGLM2-6B
python cli_demo.py

API部署

pip install fastapi uvicorn
python api.py

使用以下命令测试 API：

curl -X POST "http://127.0.0.1:8000" -H 'Content-Type: application/json' -d '{"prompt": "你好", "history": []}'

显存不足

若显存不足，可以使用加上 -int4 的模型：

tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b-int4", trust_remote_code=True)
model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4", trust_remote_code=True).cuda()

参考资料

如何优雅的下载huggingface-transformers模型
HuggingFace官网下载模型文档

简介

部署ChatGLM2-6B

创建python环境

下载模型

部署

API部署

显存不足

参考资料

部署`ChatGLM2-6B`