model_trace

Runtime error

App Files Files Community

Ahmed Ahmed commited on Jul 26

Commit

f02d36b

1 Parent(s): 3a2ac99

no more dynamic updates

Browse files

Files changed (2) hide show

app.py +50 -37
src/display/formatting.py +2 -2

app.py CHANGED Viewed

@@ -1,5 +1,4 @@
 import gradio as gr
-from gradio_leaderboard import Leaderboard
 import pandas as pd
 from huggingface_hub import snapshot_download, create_repo
 from huggingface_hub.utils import RepositoryNotFoundError
@@ -21,24 +20,26 @@ from src.envs import API, EVAL_RESULTS_PATH, RESULTS_REPO, TOKEN, OWNER
 from src.populate import get_leaderboard_df
 from src.evaluation.dynamic_eval import run_dynamic_perplexity_eval
-def init_leaderboard(dataframe):
-    if dataframe is None:
-        raise ValueError("Leaderboard DataFrame is None.")
-    print("\n=== Initializing Leaderboard ===", flush=True)
-    print(f"DataFrame shape: {dataframe.shape}", flush=True)
-    print(f"DataFrame columns: {dataframe.columns.tolist()}", flush=True)
-    return Leaderboard(
-        value=dataframe,
-        select_columns=[c.name for c in fields(AutoEvalColumn) if not c.hidden],
-        search_columns=[AutoEvalColumn.model.name],
-        hide_columns=[c.name for c in fields(AutoEvalColumn) if c.hidden],
-        filter_columns=[
-            AutoEvalColumn.model_type.name,
-            AutoEvalColumn.precision.name,
-        ],
-    )
 def run_perplexity_test(model_name, revision, precision):
     """Run perplexity evaluation on demand."""
@@ -47,7 +48,7 @@ def run_perplexity_test(model_name, revision, precision):
     import gradio as gr
     if not model_name:
-        return "Please enter a model name."
     try:
         # Use stderr for more reliable logging in HF Spaces
@@ -62,24 +63,22 @@ def run_perplexity_test(model_name, revision, precision):
         sys.stderr.flush()
         if success:
-            sys.stderr.write("Evaluation succeeded - results saved to dataset\n")
             sys.stderr.flush()
-            return f"""✅ **Perplexity evaluation completed successfully!**
 **Model**: {model_name}
 **Perplexity Score**: {result:.4f}
-🎉 **Results have been saved to the dataset.**
-📋 **To see your results in the leaderboard:**
-1. Click on the **🏅 Leaderboard** tab above
-2. Refresh the page (Ctrl+R or Cmd+R)
-3. Your model should now appear in the rankings!
-💡 **Note**: Due to technical limitations with the leaderboard component, results cannot be updated dynamically. The refresh is necessary to see the latest rankings."""
         else:
-            return f"❌ **Evaluation failed**: {result}"
     except Exception as e:
         error_msg = str(e)
@@ -87,7 +86,7 @@ def run_perplexity_test(model_name, revision, precision):
         sys.stderr.write(f"Critical error in run_perplexity_test: {error_msg}\n")
         sys.stderr.write(f"Traceback: {traceback_str}\n")
         sys.stderr.flush()
-        return f"❌ **Critical error**: {error_msg}"
 # Initialize results repository and directory
 try:
@@ -117,8 +116,8 @@ except Exception as e:
     # Ensure local directory exists even if repo operations fail
     os.makedirs(EVAL_RESULTS_PATH, exist_ok=True)
-# Get initial leaderboard data
-LEADERBOARD_DF = get_leaderboard_df(EVAL_RESULTS_PATH, COLS, BENCHMARK_COLS)
 # Create the Gradio interface
 demo = gr.Blocks(css=custom_css)
@@ -127,8 +126,14 @@ with demo:
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
-        with gr.TabItem("🏅 Leaderboard", elem_id="leaderboard-tab", id=0):
-            leaderboard = init_leaderboard(LEADERBOARD_DF)
         with gr.TabItem("📝 About", elem_id="about-tab", id=1):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
@@ -151,10 +156,18 @@ with demo:
                     test_button = gr.Button("🚀 Run Perplexity Test", variant="primary")
                     result = gr.Markdown()
             gr.Markdown("""
             ### Tips:
             - **Check stderr logs** in HF Spaces for detailed debugging information
-            - **After evaluation completes**, click the 🏅 Leaderboard tab and refresh the page to see results
             - **Example models to test**: `openai-community/gpt2`, `EleutherAI/gpt-neo-1.3B`, `openai-community/gpt2-large`
             - **Lower perplexity scores = better performance** (better at predicting text)
@@ -162,13 +175,13 @@ with demo:
             1. Enter a model name from Hugging Face Hub
             2. Click "Run Perplexity Test"
             3. Wait for evaluation to complete (may take a few minutes for large models)
-            4. Go to 🏅 Leaderboard tab and refresh the page to see your results!
             """)
             test_button.click(
                 run_perplexity_test,
                 [model_name, revision, precision],
-                [result]
             )
 demo.queue(default_concurrency_limit=5).launch()

 import gradio as gr
 import pandas as pd
 from huggingface_hub import snapshot_download, create_repo
 from huggingface_hub.utils import RepositoryNotFoundError
 from src.populate import get_leaderboard_df
 from src.evaluation.dynamic_eval import run_dynamic_perplexity_eval
+def create_results_dataframe():
+    """Create and return the results DataFrame for display"""
+    df = get_leaderboard_df(EVAL_RESULTS_PATH, COLS, BENCHMARK_COLS)
+    if df is None or df.empty:
+        # Return empty DataFrame with proper columns
+        return pd.DataFrame(columns=["Model", "Perplexity", "Average Score", "Type", "Precision"])
+    # Select and rename columns for display
+    display_df = df[[
+        AutoEvalColumn.model.name,
+        "Perplexity",  # This matches the task column name from Tasks.task0.value.col_name
+        AutoEvalColumn.average.name,
+        AutoEvalColumn.model_type.name,
+        AutoEvalColumn.precision.name,
+    ]].copy()
+    # Rename columns for better display
+    display_df.columns = ["Model", "Perplexity", "Average Score", "Type", "Precision"]
+    return display_df
 def run_perplexity_test(model_name, revision, precision):
     """Run perplexity evaluation on demand."""
     import gradio as gr
     if not model_name:
+        return "Please enter a model name.", gr.update()
     try:
         # Use stderr for more reliable logging in HF Spaces
         sys.stderr.flush()
         if success:
+            sys.stderr.write("Evaluation succeeded - updating results table\n")
             sys.stderr.flush()
+            # Get updated results
+            updated_df = create_results_dataframe()
+            success_msg = f"""✅ **Perplexity evaluation completed successfully!**
 **Model**: {model_name}
 **Perplexity Score**: {result:.4f}
+🎉 **Results have been saved and the table below has been updated!**"""
+            return success_msg, gr.update(value=updated_df)
         else:
+            return f"❌ **Evaluation failed**: {result}", gr.update()
     except Exception as e:
         error_msg = str(e)
         sys.stderr.write(f"Critical error in run_perplexity_test: {error_msg}\n")
         sys.stderr.write(f"Traceback: {traceback_str}\n")
         sys.stderr.flush()
+        return f"❌ **Critical error**: {error_msg}", gr.update()
 # Initialize results repository and directory
 try:
     # Ensure local directory exists even if repo operations fail
     os.makedirs(EVAL_RESULTS_PATH, exist_ok=True)
+# Get initial results data
+RESULTS_DF = create_results_dataframe()
 # Create the Gradio interface
 demo = gr.Blocks(css=custom_css)
     gr.Markdown(INTRODUCTION_TEXT, elem_classes="markdown-text")
     with gr.Tabs(elem_classes="tab-buttons") as tabs:
+        with gr.TabItem("🏅 Results", elem_id="results-tab", id=0):
+            gr.Markdown("## Model Evaluation Results")
+            results_table = gr.DataFrame(
+                value=RESULTS_DF,
+                headers=["Model", "Perplexity", "Average Score", "Type", "Precision"],
+                interactive=False,
+                wrap=False
+            )
         with gr.TabItem("📝 About", elem_id="about-tab", id=1):
             gr.Markdown(LLM_BENCHMARKS_TEXT, elem_classes="markdown-text")
                     test_button = gr.Button("🚀 Run Perplexity Test", variant="primary")
                     result = gr.Markdown()
+            gr.Markdown("## Live Results")
+            live_results_table = gr.DataFrame(
+                value=RESULTS_DF,
+                headers=["Model", "Perplexity", "Average Score", "Type", "Precision"],
+                interactive=False,
+                wrap=False
+            )
             gr.Markdown("""
             ### Tips:
             - **Check stderr logs** in HF Spaces for detailed debugging information
+            - **Results will update automatically** in the table above after evaluation completes
             - **Example models to test**: `openai-community/gpt2`, `EleutherAI/gpt-neo-1.3B`, `openai-community/gpt2-large`
             - **Lower perplexity scores = better performance** (better at predicting text)
             1. Enter a model name from Hugging Face Hub
             2. Click "Run Perplexity Test"
             3. Wait for evaluation to complete (may take a few minutes for large models)
+            4. Results will appear automatically in the table above!
             """)
             test_button.click(
                 run_perplexity_test,
                 [model_name, revision, precision],
+                [result, live_results_table]
             )
 demo.queue(default_concurrency_limit=5).launch()

src/display/formatting.py CHANGED Viewed

@@ -3,8 +3,8 @@ def model_hyperlink(link, model_name):
 def make_clickable_model(model_name):
-    link = f"https://huggingface.co/{model_name}"
-    return model_hyperlink(link, model_name)
 def styled_error(error):

 def make_clickable_model(model_name):
+    # Just return the plain model name without HTML formatting
+    return model_name
 def styled_error(error):