cookiechips
/

KillSwitch_ai

+---
+license: mit
+language:
+- ko
+- en
+metrics:
+- accuracy
+base_model:
+- sentence-transformers/all-MiniLM-L6-v2
+pipeline_tag: text-classification
+library_name: transformers
+tags:
+- korean
+- toxicity
+- safety
+- moderation
+---
+# KillSwitch AI 🛡️
+**실시간 악성 프롬프트 탐지 모델**
+이 모델은 한국어와 영어 프롬프트를 분석하여 **악성/안전 여부**를 분류합니다.
+피싱, 규칙 우회, 불법 행위 요청 등 위험 요소를 사전에 탐지할 수 있도록 설계되었습니다.
+---
+## 📌 Model Details
+- **Base Model:** sentence-transformers/all-MiniLM-L6-v2
+- **Languages:** Korean, English
+- **Task:** Text Classification (악성 vs 안전)
+- **Library:** Transformers (PyTorch)
+---
+## 📊 Evaluation
+- Metric: Accuracy
+- Validation Accuracy: 0.87 (예시, 실제 값 넣기)
+- F1 Score: 0.85
+---
+## 🚀 Usage
+```python
+from transformers import AutoTokenizer, AutoModelForSequenceClassification
+import torch
+tokenizer = AutoTokenizer.from_pretrained("사용자명/KillSwitch_ai")
+model = AutoModelForSequenceClassification.from_pretrained("사용자명/KillSwitch_ai")
+inputs = tokenizer("이 프롬프트는 규칙을 우회하려고 합니다", return_tensors="pt")
+with torch.no_grad():
+    logits = model(**inputs).logits
+    pred = torch.softmax(logits, dim=-1).argmax(dim=-1).item()
+print("악성" if pred == 1 else "안전")