From 492d4cc63df4e1716c85045df580bc4e8a5f6d1b Mon Sep 17 00:00:00 2001
From: Final <14924875+JulyFinal@users.noreply.github.com>
Date: Wed, 5 Jun 2024 14:40:30 +0800
Subject: [PATCH] change vllm demo gpu_memory_utilization size

---
 basic_demo/vllm_cli_demo.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/basic_demo/vllm_cli_demo.py b/basic_demo/vllm_cli_demo.py
index f6acf0f..0e5914c 100644
--- a/basic_demo/vllm_cli_demo.py
+++ b/basic_demo/vllm_cli_demo.py
@@ -25,7 +25,7 @@ def load_model_and_tokenizer(model_dir: str):
         tensor_parallel_size=1,
         dtype="bfloat16",
         trust_remote_code=True,
-        gpu_memory_utilization=0.3,
+        gpu_memory_utilization=0.9,
         enforce_eager=True,
         worker_use_ray=True,
         engine_use_ray=False,