Spaces:

mohbay
/

mub_chat

Running

App Files Files Community

mohbay commited on 14 days ago

Commit

dd5222e

verified ·

1 Parent(s): 82e94a1

Upload 7 files

Browse files

Files changed (8) hide show

.gitattributes +1 -0
app.py +241 -0
mub_chroma_db/a5d21a48-3163-487e-b370-3b741d2ed362/data_level0.bin +3 -0
mub_chroma_db/a5d21a48-3163-487e-b370-3b741d2ed362/header.bin +3 -0
mub_chroma_db/a5d21a48-3163-487e-b370-3b741d2ed362/length.bin +3 -0
mub_chroma_db/a5d21a48-3163-487e-b370-3b741d2ed362/link_lists.bin +3 -0
mub_chroma_db/chroma.sqlite3 +3 -0
requirements.txt +6 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+mub_chroma_db/chroma.sqlite3 filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,241 @@

+"""
+MUB Chatbot - Hugging Face Spaces
+Simple deployment using pre-built ChromaDB database
+"""
+import gradio as gr
+import os
+import logging
+import chromadb
+from sentence_transformers import SentenceTransformer
+import google.generativeai as genai
+from typing import List, Dict
+# Configure logging
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+# Configure Gemini API
+GEMINI_API_KEY = os.environ.get('GEMINI_API_KEY', 'AIzaSyDCDNMzNnPJC49Y4LNspi1a04OrVwGYqVQ')
+genai.configure(api_key=GEMINI_API_KEY)
+# Global RAG instance
+rag_instance = None
+class SimpleRAG:
+    """Simple RAG using pre-built ChromaDB."""
+    def __init__(self, db_path="./mub_chroma_db"):
+        self.db_path = db_path
+        self.embedding_dim = 512
+        # Load embedding model
+        logger.info("Loading embedding model...")
+        self.embedding_model = SentenceTransformer(
+            "Omartificial-Intelligence-Space/Arabert-all-nli-triplet-Matryoshka"
+        )
+        # Load existing ChromaDB
+        logger.info(f"Loading ChromaDB from {db_path}...")
+        self.chroma_client = chromadb.PersistentClient(path=db_path)
+        self.collection = self.chroma_client.get_collection(name="mub_info")
+        logger.info(f"Loaded {self.collection.count()} documents")
+    def embed_text(self, text: str) -> List[float]:
+        """Generate embedding for text."""
+        embedding = self.embedding_model.encode(text, convert_to_numpy=True).tolist()
+        return embedding[:self.embedding_dim]  # Truncate to 512
+    def search(self, query: str, n_results: int = 5) -> List[Dict]:
+        """Search for relevant documents."""
+        query_embedding = self.embed_text(query)
+        results = self.collection.query(
+            query_embeddings=[query_embedding],
+            n_results=n_results
+        )
+        formatted_results = []
+        if results['metadatas'] and len(results['metadatas']) > 0:
+            for idx, metadata in enumerate(results['metadatas'][0]):
+                formatted_results.append({
+                    'text': results['documents'][0][idx],
+                    'section': metadata['section'],
+                    'type': metadata['type'],
+                    'distance': results['distances'][0][idx] if results['distances'] else None
+                })
+        return formatted_results
+def get_rag():
+    """Get or create RAG instance."""
+    global rag_instance
+    if rag_instance is None:
+        logger.info("Initializing RAG system...")
+        rag_instance = SimpleRAG()
+        logger.info("RAG system ready!")
+    return rag_instance
+def format_sources(search_results):
+    """Format search results as markdown."""
+    if not search_results:
+        return ""
+    sources_md = "\n\n---\n### 📚 Sources:\n\n"
+    for idx, result in enumerate(search_results[:3], 1):
+        relevance = round(100 - result['distance'] / 3, 1)
+        sources_md += f"**{idx}. {result['section']}** (Relevance: {relevance}%)\n"
+        sources_md += f"- Type: {result['type']}\n"
+        preview = result['text'][:150] + "..." if len(result['text']) > 150 else result['text']
+        sources_md += f"- Preview: {preview}\n\n"
+    return sources_md
+def generate_response(user_message, context, language='en'):
+    """Generate response using Gemini."""
+    if language == 'ar':
+        system_prompt = """أنت مساعد ذكي لجامعة المقاصد في بيروت (MUB).
+مهمتك: الإجابة على أسئلة الطلاب والزوار حول الجامعة بناءً على المعلومات المتوفرة.
+قواعد:
+- استخدم المعلومات من السياق أدناه
+- إذا لم تجد إجابة دقيقة، قل ذلك بوضوح
+- كن مهذباً ومفيداً
+- أجب باللغة العربية بوضوح ودقة
+"""
+    else:
+        system_prompt = """You are an intelligent assistant for Makassed University of Beirut (MUB).
+Your task: Answer questions from students and visitors about the university based on available information.
+Rules:
+- Use information from the context below
+- If you don't find an exact answer, say so clearly
+- Be polite and helpful
+- Answer in English clearly and accurately
+"""
+    full_prompt = f"""{system_prompt}
+CONTEXT:
+{context}
+USER QUESTION: {user_message}
+Provide a helpful, accurate answer based on the context above."""
+    try:
+        model = genai.GenerativeModel('gemini-2.0-flash-exp')
+        response = model.generate_content(full_prompt)
+        if response and response.text:
+            return response.text.strip()
+        else:
+            return "عذراً، لم أتمكن من إنشاء إجابة." if language == 'ar' else "Sorry, couldn't generate a response."
+    except Exception as e:
+        logger.error(f"Gemini error: {e}")
+        return "عذراً، حدث خطأ." if language == 'ar' else "Sorry, an error occurred."
+def chat(message, history, language):
+    """Main chat function."""
+    try:
+        rag = get_rag()
+        # Search
+        search_results = rag.search(message, n_results=5)
+        # Format context
+        context_parts = []
+        lang_code = 'ar' if language == 'العربية' else 'en'
+        if lang_code == 'ar':
+            context_parts.append("المعلومات من جامعة المقاصد:")
+        else:
+            context_parts.append("Information from Makassed University:")
+        for idx, result in enumerate(search_results, 1):
+            context_parts.append(f"\n--- Source {idx} ---")
+            context_parts.append(result['text'])
+        context = "\n".join(context_parts)
+        # Generate response
+        bot_response = generate_response(message, context, lang_code)
+        # Add sources
+        sources = format_sources(search_results)
+        full_response = bot_response + sources
+        return full_response
+    except Exception as e:
+        logger.error(f"Chat error: {e}")
+        return "عذراً، حدث خطأ." if language == 'العربية' else "Sorry, an error occurred."
+# Create interface
+with gr.Blocks(title="MUB Chatbot", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("""
+    # 🎓 Makassed University of Beirut (MUB) Chatbot
+    Ask me anything about Makassed University!
+    أسألني عن جامعة المقاصد!
+    """)
+    language = gr.Radio(
+        choices=["English", "العربية"],
+        value="English",
+        label="Language / اللغة"
+    )
+    chatbot = gr.Chatbot(
+        height=500,
+        show_label=False,
+    )
+    with gr.Row():
+        msg = gr.Textbox(
+            placeholder="Type your question... / اكتب سؤالك...",
+            show_label=False,
+            scale=9
+        )
+        submit = gr.Button("Send", scale=1, variant="primary")
+    gr.Examples(
+        examples=[
+            ["What is Makassed University?"],
+            ["What are the tuition fees?"],
+            ["Tell me about nursing programs"],
+            ["ما هي جامعة المقاصد؟"],
+            ["ما هي رسوم الدراسة؟"],
+        ],
+        inputs=msg,
+    )
+    gr.Markdown("""
+    ---
+    **About:** AI chatbot powered by RAG + Google Gemini
+    **Data:** Official MUB documentation
+    **Note:** For official information, contact the university directly.
+    """)
+    def respond(message, chat_history, lang):
+        bot_response = chat(message, chat_history, lang)
+        chat_history.append((message, bot_response))
+        return "", chat_history
+    msg.submit(respond, [msg, chatbot, language], [msg, chatbot])
+    submit.click(respond, [msg, chatbot, language], [msg, chatbot])
+# Launch
+if __name__ == "__main__":
+    demo.queue()
+    demo.launch()

mub_chroma_db/a5d21a48-3163-487e-b370-3b741d2ed362/data_level0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:979645b77d03863c3e0d13b438fd14402cd3461b77f01909ef009c350fef3e15
+size 218800

mub_chroma_db/a5d21a48-3163-487e-b370-3b741d2ed362/header.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c8a407226e15554f8aa5e2dc70831bc8e464bd1433ac370e1dc9bef7e839d5a
+size 100

mub_chroma_db/a5d21a48-3163-487e-b370-3b741d2ed362/length.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6580663486b6b4f8d8c8dc9abbaa995dc3aec03c7d2d8e6250c834988239797
+size 400

mub_chroma_db/a5d21a48-3163-487e-b370-3b741d2ed362/link_lists.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855
+size 0

mub_chroma_db/chroma.sqlite3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a60c8c692121bbd6ede35370d1e76322b8fe9a7206769e5e577d03790ca44cd
+size 1073152

requirements.txt ADDED Viewed

	@@ -0,0 +1,6 @@

+# Hugging Face Spaces - MUB Chatbot Requirements
+gradio>=4.0.0
+chromadb>=0.4.22
+sentence-transformers>=2.2.2
+google-generativeai>=0.3.0