Spaces:

6Genix
/

MultiAgent-XAI-Demo

Sleeping

App Files Files Community

6Genix commited on Jan 14

Commit

10965a9

1 Parent(s): eb857d5

Removed Hugging Face pipeline dependency and implemented direct model loading for DeepSeek-V3 using AutoTokenizer and AutoModelForCausalLM. Improved fallback robustness and error handling for model operations.

Browse files

Files changed (1) hide show

app.py +36 -71

app.py CHANGED Viewed

@@ -1,12 +1,7 @@
 import streamlit as st
-try:
-    from transformers import pipeline
-    USE_PIPELINE = True
-except ImportError:
-    from transformers import AutoTokenizer, AutoModelForCausalLM
-    import torch
-    USE_PIPELINE = False
 ##############################################################################
 #                          LOAD MODELS
@@ -14,59 +9,33 @@ except ImportError:
 @st.cache_resource
 def load_model_engineer():
-    if USE_PIPELINE:
-        try:
-            # Engineer: DeepSeek-V3 via pipeline
-            engineer_pipeline = pipeline(
-                "text-generation",
-                model="unsloth/DeepSeek-V3",
-                trust_remote_code=True
-            )
-            return engineer_pipeline
-        except Exception as e:
-            st.error(f"Pipeline failed to load for Engineer: {str(e)}")
-            raise
-    else:
-        try:
-            # Fallback: Load model directly with fp16 precision
-            tokenizer = AutoTokenizer.from_pretrained("unsloth/DeepSeek-V3", trust_remote_code=True)
-            model = AutoModelForCausalLM.from_pretrained(
-                "unsloth/DeepSeek-V3",
-                trust_remote_code=True
-            )
-            model = model.half().to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))
-            return tokenizer, model
-        except Exception as e:
-            st.error(f"Direct model loading failed for Engineer: {str(e)}")
-            raise
 @st.cache_resource
 def load_model_analyst():
-    if USE_PIPELINE:
-        try:
-            # Analyst: DeepSeek-V3 via pipeline
-            analyst_pipeline = pipeline(
-                "text-generation",
-                model="unsloth/DeepSeek-V3",
-                trust_remote_code=True
-            )
-            return analyst_pipeline
-        except Exception as e:
-            st.error(f"Pipeline failed to load for Analyst: {str(e)}")
-            raise
-    else:
-        try:
-            # Fallback: Load model directly with fp16 precision
-            tokenizer = AutoTokenizer.from_pretrained("unsloth/DeepSeek-V3", trust_remote_code=True)
-            model = AutoModelForCausalLM.from_pretrained(
-                "unsloth/DeepSeek-V3",
-                trust_remote_code=True
-            )
-            model = model.half().to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))
-            return tokenizer, model
-        except Exception as e:
-            st.error(f"Direct model loading failed for Analyst: {str(e)}")
-            raise
 # Load models
 try:
@@ -84,20 +53,16 @@ def generate_response(prompt, model, max_sentences=2):
     Generate a concise response based on the provided prompt.
     """
     try:
-        if USE_PIPELINE:
-            outputs = model(prompt, max_new_tokens=50, temperature=0.6, top_p=0.8)
-            response = outputs[0]["generated_text"].strip()
-        else:
-            tokenizer, model = model
-            inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-            outputs = model.generate(
-                inputs["input_ids"],
-                max_new_tokens=50,
-                temperature=0.6,
-                top_p=0.8,
-                pad_token_id=tokenizer.pad_token_id
-            )
-            response = tokenizer.decode(outputs[0], skip_special_tokens=True).strip()
         # Limit to max_sentences by splitting and rejoining
         return " ".join(response.split(".")[:max_sentences]) + "."
     except Exception as gen_error:

 import streamlit as st
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
 ##############################################################################
 #                          LOAD MODELS
 @st.cache_resource
 def load_model_engineer():
+    try:
+        # Engineer: DeepSeek-V3 loaded directly
+        tokenizer = AutoTokenizer.from_pretrained("unsloth/DeepSeek-V3", trust_remote_code=True)
+        model = AutoModelForCausalLM.from_pretrained(
+            "unsloth/DeepSeek-V3",
+            trust_remote_code=True
+        )
+        model = model.half().to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))
+        return tokenizer, model
+    except Exception as e:
+        st.error(f"Direct model loading failed for Engineer: {str(e)}")
+        raise
 @st.cache_resource
 def load_model_analyst():
+    try:
+        # Analyst: DeepSeek-V3 loaded directly
+        tokenizer = AutoTokenizer.from_pretrained("unsloth/DeepSeek-V3", trust_remote_code=True)
+        model = AutoModelForCausalLM.from_pretrained(
+            "unsloth/DeepSeek-V3",
+            trust_remote_code=True
+        )
+        model = model.half().to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))
+        return tokenizer, model
+    except Exception as e:
+        st.error(f"Direct model loading failed for Analyst: {str(e)}")
+        raise
 # Load models
 try:
     Generate a concise response based on the provided prompt.
     """
     try:
+        tokenizer, model = model
+        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+        outputs = model.generate(
+            inputs["input_ids"],
+            max_new_tokens=50,
+            temperature=0.6,
+            top_p=0.8,
+            pad_token_id=tokenizer.pad_token_id
+        )
+        response = tokenizer.decode(outputs[0], skip_special_tokens=True).strip()
         # Limit to max_sentences by splitting and rejoining
         return " ".join(response.split(".")[:max_sentences]) + "."
     except Exception as gen_error: