Spaces:

Salimtoama15
/

tweet-UI

Sleeping

App Files Files Community

Salimtoama15 commited on Aug 9

Commit

81179cf

verified ·

1 Parent(s): 61a3f6e

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -14

app.py CHANGED Viewed

@@ -1,16 +1,17 @@
 import os, re, functools, numpy as np, pandas as pd
 import gradio as gr
 from datasets import load_dataset
 from sklearn.metrics.pairwise import cosine_similarity
 # -------- Config --------
-SAMPLE_SIZE = int(os.getenv("SAMPLE_SIZE", "5000"))
 RANDOM_STATE = 42
 DEFAULT_INPUT = "I am so happy with this product"
 # -------- Helpers --------
 def clean_text(text: str) -> str:
-    text = text.lower()
     text = re.sub(r"http\S+", "", text)
     text = re.sub(r"@\w+", "", text)
     text = re.sub(r"#\w+", "", text)
@@ -33,16 +34,18 @@ def _l2norm(x: np.ndarray) -> np.ndarray:
         x = x.reshape(1, -1)
     return x / (np.linalg.norm(x, axis=1, keepdims=True) + 1e-12)
-# -------- Load sample data once --------
 @functools.lru_cache(maxsize=1)
 def load_sample_df():
-    ds = load_dataset("sentiment140", split="train")
     df = ds.to_pandas()
     df = df.dropna(subset=["text", "sentiment"]).copy()
     df["text_length"] = df["text"].str.len()
     df = df[(df["text_length"] >= 5) & (df["text_length"] <= 280)].copy()
     df["clean_text"] = df["text"].apply(clean_text)
-    df = df.sample(min(SAMPLE_SIZE, len(df)), random_state=RANDOM_STATE).reset_index(drop=True)
     return df[["text", "clean_text"]]
 # -------- Lazy model loaders --------
@@ -68,7 +71,7 @@ EMBEDDERS = {
 _CORPUS_CACHE = {}
 def _encode_norm(model, texts):
-    """Encode with any sentence-transformers version and return (n,d) L2-normalized numpy."""
     out = model.encode(texts, show_progress_bar=False)
     out = _to_numpy(out)
     return _l2norm(out)
@@ -81,6 +84,7 @@ def ensure_corpus_embeddings(model_name: str, texts: list):
     _CORPUS_CACHE[model_name] = emb
     return emb
 def top3_for_each_model(user_input: str, selected_models: list):
     df = load_sample_df()
     texts = df["clean_text"].tolist()
@@ -107,7 +111,7 @@ def top3_for_each_model(user_input: str, selected_models: list):
             })
     return pd.DataFrame(rows, columns=["Model","Rank","Similarity","Tweet (clean)","Tweet (orig)"])
-# -------- Generator + scoring (with progress) --------
 def generate_and_pick_best(prompt: str, n_sequences: int, max_length: int,
                            temperature: float, scorer_model_name: str,
                            progress=gr.Progress()):
@@ -166,9 +170,9 @@ Type a tweet, get similar tweets from Sentiment140, and generate a new one.
     gr.Markdown("## 📝 Generate Tweets and Pick the Best")
     with gr.Row():
-        n_seq = gr.Slider(3, 15, value=8, step=1, label="Number of candidates")
-        max_len = gr.Slider(30, 120, value=60, step=1, label="Max length (new tokens)")
-        temp = gr.Slider(0.5, 1.5, value=0.9, step=0.05, label="Temperature")
         scorer_model = gr.Dropdown(list(EMBEDDERS.keys()), value="MiniLM (fast)", label="Scorer embedding")
     gen_btn = gr.Button("✨ Generate & Score")
@@ -182,8 +186,4 @@ Type a tweet, get similar tweets from Sentiment140, and generate a new one.
         outputs=[best_txt, best_score, gen_table],
     )
-    gr.Markdown("---")
-    gr.Markdown("## 🖼️ Project Photo (optional)")
-    photo = gr.Image(label="Upload your project photo (jpg/png)", type="filepath")
 demo.queue(max_size=32).launch()

+# app.py
 import os, re, functools, numpy as np, pandas as pd
 import gradio as gr
 from datasets import load_dataset
 from sklearn.metrics.pairwise import cosine_similarity
 # -------- Config --------
+SAMPLE_SIZE = int(os.getenv("SAMPLE_SIZE", "3000"))  # small by default for CPU Spaces
 RANDOM_STATE = 42
 DEFAULT_INPUT = "I am so happy with this product"
 # -------- Helpers --------
 def clean_text(text: str) -> str:
+    text = (text or "").lower()
     text = re.sub(r"http\S+", "", text)
     text = re.sub(r"@\w+", "", text)
     text = re.sub(r"#\w+", "", text)
         x = x.reshape(1, -1)
     return x / (np.linalg.norm(x, axis=1, keepdims=True) + 1e-12)
+# -------- Load sample data once (FAST: only a slice) --------
 @functools.lru_cache(maxsize=1)
 def load_sample_df():
+    # Load only a slice (e.g., first 3000 rows) instead of the full 1.6M
+    ds = load_dataset("sentiment140", split=f"train[:{SAMPLE_SIZE}]")
     df = ds.to_pandas()
     df = df.dropna(subset=["text", "sentiment"]).copy()
     df["text_length"] = df["text"].str.len()
     df = df[(df["text_length"] >= 5) & (df["text_length"] <= 280)].copy()
     df["clean_text"] = df["text"].apply(clean_text)
+    df = df.sample(frac=1.0, random_state=RANDOM_STATE).reset_index(drop=True)
     return df[["text", "clean_text"]]
 # -------- Lazy model loaders --------
 _CORPUS_CACHE = {}
 def _encode_norm(model, texts):
+    """Encode compatibly across sentence-transformers versions; return L2-normalized numpy (n,d)."""
     out = model.encode(texts, show_progress_bar=False)
     out = _to_numpy(out)
     return _l2norm(out)
     _CORPUS_CACHE[model_name] = emb
     return emb
+# -------- Retrieval --------
 def top3_for_each_model(user_input: str, selected_models: list):
     df = load_sample_df()
     texts = df["clean_text"].tolist()
             })
     return pd.DataFrame(rows, columns=["Model","Rank","Similarity","Tweet (clean)","Tweet (orig)"])
+# -------- Generation + scoring (with progress) --------
 def generate_and_pick_best(prompt: str, n_sequences: int, max_length: int,
                            temperature: float, scorer_model_name: str,
                            progress=gr.Progress()):
     gr.Markdown("## 📝 Generate Tweets and Pick the Best")
     with gr.Row():
+        n_seq = gr.Slider(1, 8, value=4, step=1, label="Number of candidates")
+        max_len = gr.Slider(20, 80, value=40, step=1, label="Max length (new tokens)")
+        temp = gr.Slider(0.7, 1.3, value=0.9, step=0.05, label="Temperature")
         scorer_model = gr.Dropdown(list(EMBEDDERS.keys()), value="MiniLM (fast)", label="Scorer embedding")
     gen_btn = gr.Button("✨ Generate & Score")
         outputs=[best_txt, best_score, gen_table],
     )
 demo.queue(max_size=32).launch()