Spaces:

helmfridsson
/

citrus

Runtime error

App Files Files Community

tomas.helmfridsson commited on Jul 24, 2025

Commit

1e5b35e

1 Parent(s): f9a8906

update 43 42 worked but short answer

Browse files

Files changed (1) hide show

app.py +82 -98

app.py CHANGED Viewed

@@ -1,148 +1,132 @@
-# ── app.py ─────────────────────────────────────────────────────────
-import os, logging, math, textwrap
 import gradio as gr
-from transformers import pipeline
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.vectorstores import FAISS
 from langchain_huggingface.embeddings import HuggingFaceEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-# ── KONFIGURATION ─────────────────────────────────────────
 DOCS_DIR       = "document"
 INDEX_DIR      = "faiss_index"
 EMB_MODEL      = "KBLab/sentence-bert-swedish-cased"
 LLM_MODEL      = "tiiuae/falcon-rw-1b"
-CHUNK_SIZE     = 500
-CHUNK_OVERLAP  = 50
-MAX_NEW_TOKENS = 128          # svarlängd
-CTX_TOKEN_MAX  = 900          # för att stanna under modell‑begränsningen 1 024
-K              = 10           # hur många chunkar vi hämtar
 DEFAULT_TEMP   = 0.3
-# ── LOGGING ──────────────────────────────────────────────
-logging.basicConfig(level=logging.INFO, format="%(asctime)s  %(levelname)s  %(message)s")
-logger = logging.getLogger(__name__)
-# ── 1) Index (bygg eller ladda) ─────────────────────────
 emb = HuggingFaceEmbeddings(model_name=EMB_MODEL)
 if os.path.isdir(INDEX_DIR):
-    logger.info(f"🔄 Laddar FAISS‑index från `{INDEX_DIR}`")
     vs = FAISS.load_local(INDEX_DIR, emb)
 else:
-    logger.info("⚙️ Bygger FAISS‑index från PDF‑filer …")
-    splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE,
-                                              chunk_overlap=CHUNK_OVERLAP)
-    docs, files = [], []
     for fn in os.listdir(DOCS_DIR):
         if fn.lower().endswith(".pdf"):
-            pages  = PyPDFLoader(os.path.join(DOCS_DIR, fn)).load()
-            chunks = splitter.split_documents(pages)
             for c in chunks:
                 c.metadata["source"] = fn
-            docs.extend(chunks)
-            files.append(fn)
-    vs = FAISS.from_documents(docs, emb)
-    vs.save_local(INDEX_DIR)
-    logger.info(f"✅ Sparade index ({len(files)} PDF, {len(docs)} chunkar)")
 retriever = vs.as_retriever(search_kwargs={"k": K})
-# ── 2) LLM‑pipeline ─────────────────────────────────────
-logger.info("🚀 Initierar text‑genererings‑pipeline …")
-gen_pipe = pipeline("text-generation",
-                    model=LLM_MODEL,
-                    device=-1,
-                    max_new_tokens=MAX_NEW_TOKENS)
-logger.info("✅ LLM klar")
-# ── 3) Hjälpfunktioner ──────────────────────────────────
-def truncate_tokens(text: str, max_tokens: int = CTX_TOKEN_MAX) -> str:
-    """Väldigt enkel token‑approx (1 token ≈4 tecken)"""
-    approx_tokens = len(text) // 4
-    if approx_tokens <= max_tokens:
-        return text
-    slice_len = max_tokens * 4
-    return text[:slice_len]
-def test_retrieval(query: str) -> str:
-    docs = retriever.get_relevant_documents(query)
-    if not docs:
-        return "🚫 Inga träffar"
-    out = []
-    for i, d in enumerate(docs, 1):
-        src     = d.metadata.get("source", "okänd")
-        snippet = d.page_content.replace("\n", " ")[:160]
-        out.append(f"{i}. ({src}) …{snippet}…")
-    return "\n\n".join(out)
-# ── 4) Chat‑funktionen (exakt 3 param, 2 retur) ─────────
-def chat_fn(query: str, temperature: float, history: list[dict]):
-    history = history or []
-    history.append({"role": "user", "content": query})
-    # Hämtar K chunkar
-    docs = retriever.get_relevant_documents(query)
-    if not docs:
-        ans = "🚫 Hittade inget relevant innehåll i dokumenten."
-        history.append({"role": "assistant", "content": ans})
-        return history, history
-    # Bygg kontext och trimma
-    context = "\n\n---\n\n".join(d.page_content for d in docs)
-    context = truncate_tokens(context, CTX_TOKEN_MAX)
-    prompt = textwrap.dedent(f"""
         Du är en hjälpsam assistent som svarar på svenska.
-        Kontext (ur PDF‑dokument):
         {context}
         Fråga: {query}
         Svar (svenska):""").strip()
-    logger.info(f"📝 Prompt‑längd≈{len(prompt)} tecken, temp={temperature}")
     try:
-        resp = gen_pipe(prompt,
-                        temperature=float(temperature),
-                        max_new_tokens=MAX_NEW_TOKENS,
-                        pad_token_id=2,
-                        eos_token_id=2,
-                        do_sample=True,
-                        return_full_text=False)[0]["generated_text"]
     except Exception as e:
-        logger.exception("Fel vid generering")
-        resp = f"❌ Fel: {e}"
-    src_hint = docs[0].metadata.get("source", "okänd")
-    history.append({"role": "assistant",
-                    "content": f"**(Källa: {src_hint})**\n\n{resp}"})
     return history, history
-# ── 5) Bygg Gradio‑UI ──────────────────────────────────
 with gr.Blocks() as demo:
-    gr.Markdown("# 📚 svensk RAG‑chat\nStäll frågor till dina PDF‑filer")
-    gr.Markdown(f"**PDF‑filer i index:** {', '.join(os.listdir(DOCS_DIR)) or 'inga'}")
     with gr.Row():
-        test_in  = gr.Textbox(label="Snabb‑retrieval (ingen AI)", lines=1)
-        test_btn = gr.Button("🔎 Testa")
-        test_out = gr.Textbox(label="Chunkar")
     with gr.Row():
-        q_in   = gr.Textbox(placeholder="Ex: Vad står det om krav?", label="Fråga")
         temp   = gr.Slider(0, 1, value=DEFAULT_TEMP, step=0.05, label="Temperatur")
-        send   = gr.Button("📨 Skicka")
     chat      = gr.Chatbot(type="messages", label="Chat")
     chat_hist = gr.State([])
-    # Kopplingar
-    test_btn.click(test_retrieval, inputs=[test_in], outputs=[test_out])
-    send.click(chat_fn, inputs=[q_in, temp, chat_hist], outputs=[chat, chat_hist])
 if __name__ == "__main__":
-    demo.launch(share=True)

+# ── app.py ───────────────────────────────────────────────────────────
+import os, logging, textwrap
 import gradio as gr
+from transformers import pipeline, AutoTokenizer
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_community.vectorstores import FAISS
 from langchain_huggingface.embeddings import HuggingFaceEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+# ── KONFIG ───────────────────────────────────────────────────────────
 DOCS_DIR       = "document"
 INDEX_DIR      = "faiss_index"
 EMB_MODEL      = "KBLab/sentence-bert-swedish-cased"
 LLM_MODEL      = "tiiuae/falcon-rw-1b"
+CHUNK_SIZE     = 400
+CHUNK_OVERLAP  = 40
+CTX_TOK_MAX    = 750          # sparar marginal till fråga + svar
+MAX_NEW_TOKENS = 128
+K              = 10
 DEFAULT_TEMP   = 0.3
+# ── LOGGING ──────────────────────────────────────────────────────────
+logging.basicConfig(level=logging.INFO, format="%(asctime)s %(levelname)s %(message)s")
+log = logging.getLogger(__name__)
+# ── 1) Index (bygg eller ladda) ─────────────────────────────────────
 emb = HuggingFaceEmbeddings(model_name=EMB_MODEL)
 if os.path.isdir(INDEX_DIR):
+    log.info(f"🔄 Laddar index från {INDEX_DIR}")
     vs = FAISS.load_local(INDEX_DIR, emb)
 else:
+    splitter = RecursiveCharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=CHUNK_OVERLAP)
+    docs, pdfs = [], []
     for fn in os.listdir(DOCS_DIR):
         if fn.lower().endswith(".pdf"):
+            chunks = splitter.split_documents(PyPDFLoader(os.path.join(DOCS_DIR, fn)).load())
             for c in chunks:
                 c.metadata["source"] = fn
+            docs.extend(chunks); pdfs.append(fn)
+    vs = FAISS.from_documents(docs, emb); vs.save_local(INDEX_DIR)
+    log.info(f"✅ Byggt index – {len(pdfs)} PDF / {len(docs)} chunkar")
 retriever = vs.as_retriever(search_kwargs={"k": K})
+# ── 2) LLM‑pipeline & tokenizer ─────────────────────────────────────
+log.info("🚀 Initierar LLM …")
+gen_pipe  = pipeline("text-generation", model=LLM_MODEL, device=-1, max_new_tokens=MAX_NEW_TOKENS)
+tokenizer = AutoTokenizer.from_pretrained(LLM_MODEL)
+log.info("✅ LLM klar")
+# ── 3) Hjälpfunktioner ──────────────────────────────────────────────
+def build_prompt(query: str, docs):
+    """
+    Tar så många chunkar som ryms i CTX_TOK_MAX token
+    """
+    context_parts = []
+    total_ctx_tok = 0
+    for d in docs:
+        tok_len = len(tokenizer.encode(d.page_content))
+        if total_ctx_tok + tok_len > CTX_TOK_MAX:
+            break
+        context_parts.append(d.page_content)
+        total_ctx_tok += tok_len
+    context = "\n\n---\n\n".join(context_parts)
+    return textwrap.dedent(f"""\
         Du är en hjälpsam assistent som svarar på svenska.
+        Kontext (hämtat ur PDF‑dokument):
         {context}
         Fråga: {query}
         Svar (svenska):""").strip()
+def test_retrieval(q):  # snabb‑test utan AI
+    docs = retriever.invoke(q)
+    return "\n\n".join([f"{i+1}. ({d.metadata['source']}) {d.page_content[:160]}…" for i, d in enumerate(docs)]) or "🚫 Inga träffar"
+def chat_fn(q, temp, history):
+    history = history or []
+    history.append({"role": "user", "content": q})
+    docs = retriever.invoke(q)
+    if not docs:
+        history.append({"role": "assistant", "content": "🚫 Hittade inget relevant."})
+        return history, history
+    prompt = build_prompt(q, docs)
+    log.info(f"Prompt tokens={len(tokenizer.encode(prompt))}  temp={temp}")
     try:
+        ans = gen_pipe(
+            prompt,
+            temperature=float(temp),
+            max_new_tokens=MAX_NEW_TOKENS,
+            pad_token_id=tokenizer.eos_token_id,
+            eos_token_id=tokenizer.eos_token_id,
+            do_sample=True,
+            return_full_text=False
+        )[0]["generated_text"]
     except Exception as e:
+        log.exception("Genererings‑fel")
+        ans = f"❌ Fel: {e}"
+    src_hint = docs[0].metadata["source"]
+    history.append({"role": "assistant", "content": f"**(Källa: {src_hint})**\n\n{ans}"})
     return history, history
+# ── 4) Gradio UI ────────────────────────────────────────────────────
 with gr.Blocks() as demo:
+    gr.Markdown("# 📚 Svensk RAG‑chat")
+    gr.Markdown(f"**PDF‑filer:** {', '.join(os.listdir(DOCS_DIR)) or '–'}")
     with gr.Row():
+        q_test = gr.Textbox(label="🔎 Test Retrieval")
+        b_test = gr.Button("Testa")
+        o_test = gr.Textbox(label="Chunkar")
     with gr.Row():
+        q_in   = gr.Textbox(label="Fråga", placeholder="Ex: Vad handlar dokumenten om?")
         temp   = gr.Slider(0, 1, value=DEFAULT_TEMP, step=0.05, label="Temperatur")
+        b_send = gr.Button("Skicka")
     chat      = gr.Chatbot(type="messages", label="Chat")
     chat_hist = gr.State([])
+    b_test.click(test_retrieval, inputs=[q_test], outputs=[o_test])
+    b_send.click(chat_fn, inputs=[q_in, temp, chat_hist], outputs=[chat, chat_hist])
 if __name__ == "__main__":
+    demo.launch(share=True)   # ta bort share=True om du vill hålla den privat