Spaces:

YongdongWang
/

DART-LLM-Multi-Model

Sleeping

yongdong commited on Jul 5

Commit

9d3765e

1 Parent(s): 51982fa

perf: use safetensors for faster model loading.

Files changed (1) hide show

app.py CHANGED Viewed

@@ -73,14 +73,16 @@ def load_model_on_gpu():
             device_map="auto",
             torch_dtype=torch.float16,
             trust_remote_code=True,
-            low_cpu_mem_usage=True
         )
         # Load LoRA adapter
         model = PeftModel.from_pretrained(
             base_model,
             LORA_MODEL,
-            torch_dtype=torch.float16
         )
         model.eval()

             device_map="auto",
             torch_dtype=torch.float16,
             trust_remote_code=True,
+            low_cpu_mem_usage=True,
+            use_safetensors=True
         )
         # Load LoRA adapter
         model = PeftModel.from_pretrained(
             base_model,
             LORA_MODEL,
+            torch_dtype=torch.float16,
+            use_safetensors=True
         )
         model.eval()