Spaces:

Salimtoama15
/

tweet-UI

Sleeping

App Files Files Community

Salimtoama15 commited on Aug 9

Commit

61b06dc

verified ·

1 Parent(s): a9383ab

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -9

app.py CHANGED Viewed

@@ -8,7 +8,7 @@ SAMPLE_SIZE = int(os.getenv("SAMPLE_SIZE", "5000"))
 RANDOM_STATE = 42
 DEFAULT_INPUT = "I am so happy with this product"
-# -------- Text cleaning --------
 def clean_text(text: str) -> str:
     text = text.lower()
     text = re.sub(r"http\S+", "", text)
@@ -18,6 +18,9 @@ def clean_text(text: str) -> str:
     text = re.sub(r"\s+", " ", text).strip()
     return text
 # -------- Load sample data once --------
 @functools.lru_cache(maxsize=1)
 def load_sample_df():
@@ -57,9 +60,8 @@ def ensure_corpus_embeddings(model_name: str, texts: list[str]):
         return _CORPUS_CACHE[model_name]
     model_id = EMBEDDERS[model_name]
     model = load_sentence_model(model_id)
-    emb = model.encode(
-        texts, show_progress_bar=False, convert_to_numpy=True, normalize_embeddings=True
-    )
     _CORPUS_CACHE[model_name] = emb
     return emb
@@ -71,7 +73,8 @@ def top3_for_each_model(user_input: str, selected_models: list[str]):
         try:
             model = load_sentence_model(EMBEDDERS[name])
             corpus_emb = ensure_corpus_embeddings(name, texts)
-            q = model.encode([clean_text(user_input)], show_progress_bar=False, normalize_embeddings=True)
             sims = cosine_similarity(q, corpus_emb)[0]
             top_idx = sims.argsort()[-3:][::-1]
             for rank, i in enumerate(top_idx, start=1):
@@ -84,7 +87,7 @@ def top3_for_each_model(user_input: str, selected_models: list[str]):
                 })
         except Exception as e:
             rows.append({
-                "Model": name, "Rank": "-", "Similarity": "-",
                 "Tweet (clean)": f"[Error: {e}]", "Tweet (orig)": ""
             })
     out = pd.DataFrame(rows, columns=["Model","Rank","Similarity","Tweet (clean)","Tweet (orig)"])
@@ -104,8 +107,8 @@ def generate_and_pick_best(prompt: str, n_sequences: int, max_length: int, tempe
     scorer_id = EMBEDDERS[scorer_model_name]
     scorer = load_sentence_model(scorer_id)
-    q = scorer.encode([prompt], show_progress_bar=False, normalize_embeddings=True)
-    cand_vecs = scorer.encode(candidates, show_progress_bar=False, normalize_embeddings=True)
     sims = cosine_similarity(q, cand_vecs)[0]
     best_idx = int(sims.argmax())
     table = pd.DataFrame({
@@ -135,7 +138,7 @@ Type a tweet, get similar tweets from Sentiment140, and generate a new one.
         )
     run_btn = gr.Button("🔎 Find Top‑3 Similar Tweets")
-    table_out = gr.Dataframe(interactive=False)  # simple & compatible
     run_btn.click(top3_for_each_model, inputs=[test_input, models], outputs=table_out)

 RANDOM_STATE = 42
 DEFAULT_INPUT = "I am so happy with this product"
+# -------- Helpers --------
 def clean_text(text: str) -> str:
     text = text.lower()
     text = re.sub(r"http\S+", "", text)
     text = re.sub(r"\s+", " ", text).strip()
     return text
+def _l2norm(x: np.ndarray) -> np.ndarray:
+    return x / (np.linalg.norm(x, axis=1, keepdims=True) + 1e-12)
 # -------- Load sample data once --------
 @functools.lru_cache(maxsize=1)
 def load_sample_df():
         return _CORPUS_CACHE[model_name]
     model_id = EMBEDDERS[model_name]
     model = load_sentence_model(model_id)
+    emb = model.encode(texts, show_progress_bar=False, convert_to_numpy=True)
+    emb = _l2norm(emb)
     _CORPUS_CACHE[model_name] = emb
     return emb
         try:
             model = load_sentence_model(EMBEDDERS[name])
             corpus_emb = ensure_corpus_embeddings(name, texts)
+            q = model.encode([clean_text(user_input)], show_progress_bar=False, convert_to_numpy=True)
+            q = _l2norm(q)
             sims = cosine_similarity(q, corpus_emb)[0]
             top_idx = sims.argsort()[-3:][::-1]
             for rank, i in enumerate(top_idx, start=1):
                 })
         except Exception as e:
             rows.append({
+                "Model": name, "Rank": "-", "Similarity": "-",
                 "Tweet (clean)": f"[Error: {e}]", "Tweet (orig)": ""
             })
     out = pd.DataFrame(rows, columns=["Model","Rank","Similarity","Tweet (clean)","Tweet (orig)"])
     scorer_id = EMBEDDERS[scorer_model_name]
     scorer = load_sentence_model(scorer_id)
+    q = scorer.encode([prompt], show_progress_bar=False, convert_to_numpy=True); q = _l2norm(q)
+    cand_vecs = scorer.encode(candidates, show_progress_bar=False, convert_to_numpy=True); cand_vecs = _l2norm(cand_vecs)
     sims = cosine_similarity(q, cand_vecs)[0]
     best_idx = int(sims.argmax())
     table = pd.DataFrame({
         )
     run_btn = gr.Button("🔎 Find Top‑3 Similar Tweets")
+    table_out = gr.Dataframe(interactive=False)
     run_btn.click(top3_for_each_model, inputs=[test_input, models], outputs=table_out)