Update README.md
This commit is contained in:
parent
af2fc45585
commit
7422d118e8
|
@ -112,6 +112,13 @@ python trans_batch_demo.py
|
|||
python vllm_cli_demo.py
|
||||
```
|
||||
|
||||
+ 在 GLM-4-9B-Chat 模型上使用带有 Lora adapter 的 vLLM
|
||||
```python
|
||||
# vllm_cli_demo.py
|
||||
# 添加 LORA_PATH = ''
|
||||
```
|
||||
|
||||
|
||||
+ 自行构建服务端,并使用 `OpenAI API` 的请求格式与 GLM-4-9B-Chat 模型进行对话。本 demo 支持 Function Call 和 All Tools功能。
|
||||
|
||||
启动服务端:
|
||||
|
@ -126,12 +133,6 @@ python openai_api_server.py
|
|||
python openai_api_request.py
|
||||
```
|
||||
|
||||
### 在 GLM-4-9B-Chat 模型上使用带有 Lora adapter 的 vLLM
|
||||
|
||||
```shell
|
||||
python vllm_cli_lora_demo.py
|
||||
```
|
||||
|
||||
## 压力测试
|
||||
|
||||
用户可以在自己的设备上使用本代码测试模型在 transformers后端的生成速度:
|
||||
|
|
Loading…
Reference in New Issue