Spaces:

Vedag812
/

email_spam

Sleeping

App Files Files Community

Vedag812 commited on Oct 6, 2025

Commit

4d007d4

verified ·

1 Parent(s): e10bc93

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -59

app.py CHANGED Viewed

@@ -64,13 +64,16 @@ vectorizer_path = "tfidf_vectorizer.joblib"
 model = joblib.load(model_path)
 vectorizer = joblib.load(vectorizer_path)
-# Session statistics
-session_stats = {"total": 0, "spam": 0, "not_spam": 0, "history": []}
 # Spam indicators
 SPAM_KEYWORDS = ['win', 'winner', 'congratulations', 'free', 'urgent', 'click', 'verify',
                  'account', 'suspended', 'prize', 'lottery', 'cash', 'credit', 'loan']
 def analyze_email(message):
     """Detailed email analysis"""
     analysis = {}
@@ -78,7 +81,10 @@ def analyze_email(message):
     # Basic stats
     analysis['word_count'] = len(message.split())
     analysis['char_count'] = len(message)
-    analysis['has_urls'] = bool(re.search(r'http\S+|www\S+', message))
     analysis['has_email'] = bool(re.search(r'\S+@\S+', message))
     # Suspicious patterns
@@ -102,7 +108,7 @@ def highlight_spam_words(message, keywords):
 def classify_email(message):
     if not message.strip():
-        return "<div style='color:gray;'>Empty message</div>", "", ""
     try:
         # Get analysis
@@ -113,19 +119,7 @@ def classify_email(message):
         vec = vectorizer.transform([cleaned])
         pred = model.predict(vec)[0]
-        # Update stats
-        session_stats['total'] += 1
-        if pred == 1:
-            session_stats['spam'] += 1
-            result_type = "Spam"
-        else:
-            session_stats['not_spam'] += 1
-            result_type = "Not Spam"
-        session_stats['history'].append({
-            'message': message[:50] + '...' if len(message) > 50 else message,
-            'result': result_type
-        })
         # Result card
         if pred == 1:
@@ -150,7 +144,7 @@ def classify_email(message):
             <table style='width:100%; border-collapse: collapse;'>
                 <tr><td style='padding:5px;'><b>Word Count:</b></td><td>{analysis['word_count']}</td></tr>
                 <tr><td style='padding:5px;'><b>Character Count:</b></td><td>{analysis['char_count']}</td></tr>
-                <tr><td style='padding:5px;'><b>Contains URLs:</b></td><td>{'⚠️ Yes' if analysis['has_urls'] else '✓ No'}</td></tr>
                 <tr><td style='padding:5px;'><b>Contains Emails:</b></td><td>{'Yes' if analysis['has_email'] else 'No'}</td></tr>
                 <tr><td style='padding:5px;'><b>ALL CAPS Words:</b></td><td>{analysis['all_caps_words']}</td></tr>
                 <tr><td style='padding:5px;'><b>Exclamation Marks:</b></td><td>{analysis['exclamation_marks']}</td></tr>
@@ -158,10 +152,23 @@ def classify_email(message):
         </div>
         """
         # Highlighted message with spam keywords
         if analysis['spam_keywords']:
             keywords_html = f"""
-            <div style='background-color:#fff3cd; padding:15px; border-radius:8px; margin-top:10px; border-left:4px solid #ff9800;'>
                 <h3 style='margin-top:0; color:#333;'>⚠️ Suspicious Keywords Found</h3>
                 <p style='margin:5px 0;'><b>Keywords:</b> {', '.join(analysis['spam_keywords'])}</p>
                 <div style='background-color:white; padding:10px; border-radius:5px; margin-top:10px; font-size:14px; line-height:1.6;'>
@@ -172,40 +179,15 @@ def classify_email(message):
         else:
             keywords_html = ""
-        return result_html, details_html, keywords_html
     except Exception as e:
         print(f"Prediction error: {e}")
-        return "<div style='color:gray;'>Error during classification</div>", "", ""
 def get_statistics():
     """Generate statistics dashboard"""
-    if session_stats['total'] == 0:
-        return "<div style='text-align:center; color:gray; padding:20px;'>No emails checked yet</div>"
-    spam_pct = (session_stats['spam'] / session_stats['total']) * 100
-    not_spam_pct = (session_stats['not_spam'] / session_stats['total']) * 100
-    stats_html = f"""
-    <div style='background: linear-gradient(135deg, #667eea 0%, #764ba2 100%); padding:20px; border-radius:10px; color:white;'>
-        <h2 style='margin-top:0; text-align:center;'>📈 Session Statistics</h2>
-        <div style='display:grid; grid-template-columns: repeat(3, 1fr); gap:15px; margin-top:15px;'>
-            <div style='background-color:rgba(255,255,255,0.2); padding:15px; border-radius:8px; text-align:center;'>
-                <div style='font-size:32px; font-weight:bold;'>{session_stats['total']}</div>
-                <div style='font-size:14px;'>Total Checked</div>
-            </div>
-            <div style='background-color:rgba(255,77,77,0.3); padding:15px; border-radius:8px; text-align:center;'>
-                <div style='font-size:32px; font-weight:bold;'>{session_stats['spam']}</div>
-                <div style='font-size:14px;'>Spam ({spam_pct:.1f}%)</div>
-            </div>
-            <div style='background-color:rgba(77,255,77,0.3); padding:15px; border-radius:8px; text-align:center;'>
-                <div style='font-size:32px; font-weight:bold;'>{session_stats['not_spam']}</div>
-                <div style='font-size:14px;'>Legitimate ({not_spam_pct:.1f}%)</div>
-            </div>
-        </div>
-    </div>
-    """
-    return stats_html
 def process_bulk_emails(file):
     """Process bulk emails from file"""
@@ -298,24 +280,25 @@ with gr.Blocks(css=css, theme=gr.themes.Soft(), title="Enhanced Email Spam Class
                     output_label = gr.HTML(label="📊 Result")
             analysis_output = gr.HTML(label="📋 Analysis Details")
             keywords_output = gr.HTML(label="🔎 Keyword Highlights")
             gr.Examples(
                 examples=examples,
                 inputs=input_text,
-                outputs=[output_label, analysis_output, keywords_output],
                 fn=classify_email
             )
             submit_btn.click(
                 fn=classify_email,
                 inputs=input_text,
-                outputs=[output_label, analysis_output, keywords_output]
             )
             input_text.submit(
                 fn=classify_email,
                 inputs=input_text,
-                outputs=[output_label, analysis_output, keywords_output]
             )
         # Bulk Processing Tab
@@ -334,14 +317,6 @@ with gr.Blocks(css=css, theme=gr.themes.Soft(), title="Enhanced Email Spam Class
                 inputs=file_input,
                 outputs=[bulk_output, download_output]
             )
-        # Statistics Tab
-        with gr.Tab("📈 Statistics"):
-            stats_display = gr.HTML()
-            refresh_btn = gr.Button("🔄 Refresh Statistics", variant="primary")
-            refresh_btn.click(fn=get_statistics, outputs=stats_display)
-            demo.load(fn=get_statistics, outputs=stats_display)
 if __name__ == "__main__":
     demo.launch()

 model = joblib.load(model_path)
 vectorizer = joblib.load(vectorizer_path)
 # Spam indicators
 SPAM_KEYWORDS = ['win', 'winner', 'congratulations', 'free', 'urgent', 'click', 'verify',
                  'account', 'suspended', 'prize', 'lottery', 'cash', 'credit', 'loan']
+def extract_urls(message):
+    """Extract all URLs from the message"""
+    url_pattern = r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+'
+    urls = re.findall(url_pattern, message)
+    return urls
 def analyze_email(message):
     """Detailed email analysis"""
     analysis = {}
     # Basic stats
     analysis['word_count'] = len(message.split())
     analysis['char_count'] = len(message)
+    # Extract URLs
+    analysis['urls'] = extract_urls(message)
+    analysis['has_urls'] = len(analysis['urls']) > 0
     analysis['has_email'] = bool(re.search(r'\S+@\S+', message))
     # Suspicious patterns
 def classify_email(message):
     if not message.strip():
+        return "<div style='color:gray;'>Empty message</div>", "", "", ""
     try:
         # Get analysis
         vec = vectorizer.transform([cleaned])
         pred = model.predict(vec)[0]
+        result_type = "Spam" if pred == 1 else "Not Spam"
         # Result card
         if pred == 1:
             <table style='width:100%; border-collapse: collapse;'>
                 <tr><td style='padding:5px;'><b>Word Count:</b></td><td>{analysis['word_count']}</td></tr>
                 <tr><td style='padding:5px;'><b>Character Count:</b></td><td>{analysis['char_count']}</td></tr>
+                <tr><td style='padding:5px;'><b>Contains URLs:</b></td><td>{'⚠️ Yes (' + str(len(analysis['urls'])) + ')' if analysis['has_urls'] else '✓ No'}</td></tr>
                 <tr><td style='padding:5px;'><b>Contains Emails:</b></td><td>{'Yes' if analysis['has_email'] else 'No'}</td></tr>
                 <tr><td style='padding:5px;'><b>ALL CAPS Words:</b></td><td>{analysis['all_caps_words']}</td></tr>
                 <tr><td style='padding:5px;'><b>Exclamation Marks:</b></td><td>{analysis['exclamation_marks']}</td></tr>
         </div>
         """
+        # URLs detected
+        if analysis['urls']:
+            urls_html = f"""
+            <div style='background-color:#fff3cd; padding:15px; border-radius:8px; margin-top:10px; border-left:4px solid #ff9800;'>
+                <h3 style='margin-top:0; color:#333;'>🔗 URLs Detected</h3>
+                <div style='background-color:white; padding:10px; border-radius:5px; font-size:14px;'>
+                    {'<br>'.join(['<a href="' + url + '" target="_blank" style="color:#d32f2f; word-break:break-all;">' + url + '</a>' for url in analysis['urls']])}
+                </div>
+            </div>
+            """
+        else:
+            urls_html = ""
         # Highlighted message with spam keywords
         if analysis['spam_keywords']:
             keywords_html = f"""
+            <div style='background-color:#ffebee; padding:15px; border-radius:8px; margin-top:10px; border-left:4px solid #f44336;'>
                 <h3 style='margin-top:0; color:#333;'>⚠️ Suspicious Keywords Found</h3>
                 <p style='margin:5px 0;'><b>Keywords:</b> {', '.join(analysis['spam_keywords'])}</p>
                 <div style='background-color:white; padding:10px; border-radius:5px; margin-top:10px; font-size:14px; line-height:1.6;'>
         else:
             keywords_html = ""
+        return result_html, details_html, urls_html, keywords_html
     except Exception as e:
         print(f"Prediction error: {e}")
+        return "<div style='color:gray;'>Error during classification</div>", "", "", ""
 def get_statistics():
     """Generate statistics dashboard"""
+    return ""
 def process_bulk_emails(file):
     """Process bulk emails from file"""
                     output_label = gr.HTML(label="📊 Result")
             analysis_output = gr.HTML(label="📋 Analysis Details")
+            urls_output = gr.HTML(label="🔗 URLs Found")
             keywords_output = gr.HTML(label="🔎 Keyword Highlights")
             gr.Examples(
                 examples=examples,
                 inputs=input_text,
+                outputs=[output_label, analysis_output, urls_output, keywords_output],
                 fn=classify_email
             )
             submit_btn.click(
                 fn=classify_email,
                 inputs=input_text,
+                outputs=[output_label, analysis_output, urls_output, keywords_output]
             )
             input_text.submit(
                 fn=classify_email,
                 inputs=input_text,
+                outputs=[output_label, analysis_output, urls_output, keywords_output]
             )
         # Bulk Processing Tab
                 inputs=file_input,
                 outputs=[bulk_output, download_output]
             )
 if __name__ == "__main__":
     demo.launch()