Spaces:

cwinkler
/

bgh

Running

App Files Files Community

cwinkler commited on 8 days ago

Commit

28db3d5

verified ·

1 Parent(s): 01a64ac

Upload 7 files

Browse files

Files changed (8) hide show

.gitattributes +1 -0
app.py +101 -0
chroma_langchain/4b6fff2a-e7df-4306-8325-d78eab7960b5/data_level0.bin +3 -0
chroma_langchain/4b6fff2a-e7df-4306-8325-d78eab7960b5/header.bin +3 -0
chroma_langchain/4b6fff2a-e7df-4306-8325-d78eab7960b5/length.bin +3 -0
chroma_langchain/4b6fff2a-e7df-4306-8325-d78eab7960b5/link_lists.bin +3 -0
chroma_langchain/chroma.sqlite3 +3 -0
requirements.txt +7 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+chroma_langchain/chroma.sqlite3 filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,101 @@

+# app.py — Hugging Face Space (Gradio) using a prebuilt Chroma index
+# Embeddings: nomic-ai/nomic-embed-text-v1.5 (HF), trust_remote_code=True, normalize_embeddings=True
+import os
+import gradio as gr
+# Silence Chroma telemetry noise
+os.environ["CHROMA_TELEMETRY_DISABLED"] = "1"
+from chromadb.config import Settings
+from langchain_chroma import Chroma
+from langchain_community.embeddings import HuggingFaceEmbeddings
+# -------- Config (can be overridden via Space "Variables") --------
+PERSIST_DIR = os.getenv("PERSIST_DIR", "./chroma_langchain")     # path to your committed Chroma index
+EMB_MODEL   = os.getenv("EMB_MODEL", "nomic-ai/nomic-embed-text-v1.5")
+TOPK_DEF    = int(os.getenv("TOPK", "5"))
+# Embedding function for query text — must match the model used to build the index
+EMBEDDINGS = HuggingFaceEmbeddings(
+    model_name=EMB_MODEL,
+    model_kwargs={"trust_remote_code": True},
+    encode_kwargs={"normalize_embeddings": True},
+)
+def load_vector_store():
+    """
+    Load the persisted Chroma collection with the embedding function for query-time encoding.
+    Returns (vs, error_message_or_None)
+    """
+    try:
+        vs = Chroma(
+            persist_directory=PERSIST_DIR,
+            embedding_function=EMBEDDINGS,
+            client_settings=Settings(anonymized_telemetry=False),
+        )
+        # sanity check (forces collection open)
+        _ = vs._collection.count()
+        return vs, None
+    except Exception as e:
+        # Helpful diagnostics: list available collections
+        try:
+            import chromadb
+            client = chromadb.PersistentClient(
+                path=PERSIST_DIR, settings=Settings(anonymized_telemetry=False)
+            )
+            existing = [c.name for c in client.list_collections()]
+        except Exception:
+            existing = []
+        msg = (
+            f"Failed to load Chroma store at '{PERSIST_DIR}'. "
+            f"Existing collections: {existing or '—'}. "
+            "Check that the index folder is present in the Space and the collection name matches."
+        )
+        return None, f"{msg}\n\nDetails: {e}"
+VS, LOAD_ERR = load_vector_store()
+def search(query: str, k: int = TOPK_DEF):
+    if LOAD_ERR:
+        return f"⚠️ {LOAD_ERR}"
+    q = (query or "").strip()
+    if not q:
+        return "Please enter a query."
+    try:
+        results = VS.similarity_search_with_score(q, k=int(k))
+    except Exception as e:
+        return f"Search failed: {e}"
+    if not results:
+        return "No results."
+    lines = [f"### Top {len(results)} results"]
+    for i, (doc, score) in enumerate(results, 1):
+        meta = doc.metadata or {}
+        src = meta.get("source") or meta.get("file_path") or "(no source)"
+        snippet = (doc.page_content[:800] + "…") if len(doc.page_content) > 800 else doc.page_content
+        lines.append(f"**[{i}]**  \nSimilarity: `{score:.4f}`\n\n> {snippet}")
+    lines.append("\n> **Disclaimer:** Models can produce incorrect or misleading statements. Verify with sources.")
+    return "\n\n".join(lines)
+with gr.Blocks(title="Semantische Suchmaschine für BGH Leitsätzen v0.1") as demo:
+    gr.Markdown(
+        """
+        ## Semantische Suchmaschine für BGH Leitsätzen v0.1
+        Datensatz: Leitsätze von 87 Entscheidungen des 2. BGH Senats
+        **Wie es funktioniert:** Ermöglicht die semantische Suche im Datensatz und gibt die Entscheidungen geöordnet nach Ähnlichkeitswerten zurück.
+        **Versuche bespielsweise:**
+        - `Ist eine Partnerschaft zwischen einem Tierarzt und einem Betriebswirt zulässig?` → erwartetes Aktenzeichen **II ZB 6/21**
+        *Disclaimer:* Models may produce incorrect or misleading statements. Verify with sources.
+        """
+    )
+    with gr.Row():
+        q = gr.Textbox(label="Query", placeholder="Is partial priority allowed under EPC?")
+        k = gr.Slider(1, 20, value=TOPK_DEF, step=1, label="Top-K")
+    out = gr.Markdown()
+    gr.Button("Search").click(fn=search, inputs=[q, k], outputs=[out])
+demo.launch()

chroma_langchain/4b6fff2a-e7df-4306-8325-d78eab7960b5/data_level0.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23add52afbe7588391f32d3deffb581b2663d2e2ad8851aba7de25e6b3f66761
+size 32120000

chroma_langchain/4b6fff2a-e7df-4306-8325-d78eab7960b5/header.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8c7f00b4415698ee6cb94332eff91aedc06ba8e066b1f200e78ca5df51abb57
+size 100

chroma_langchain/4b6fff2a-e7df-4306-8325-d78eab7960b5/length.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b56dc2a9efbf97230f629eef146503c7fe46a2bb0a57dfc90e6ff3d9231af35a
+size 40000

chroma_langchain/4b6fff2a-e7df-4306-8325-d78eab7960b5/link_lists.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855
+size 0

chroma_langchain/chroma.sqlite3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52db109ad2e66225fb70611dd4671c6edf7ca0e331cac91d79e495ae67f36f4d
+size 917504

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+gradio
+chromadb
+langchain-chroma
+langchain-community
+sentence-transformers
+huggingface-hub
+einops