Llama3-8B 機密データ検出 LoRAアダプター

日本語テキストにおける機密データの有無を判定するため、Llama 3-8B-InstructをLoRA(Low-Rank Adaptation)でファインチューニングしたモデルです。

Model Details

Model Description

このモデルは日本語の文章を入力として受け取り、その中に機密情報が含まれているかどうかを「はい」または「いいえ」で回答する分類タスクに特化されています。個人情報、企業秘密、未公開財務情報などの検出に使用できます。

  • Developed by: 大阪国際工科専門職大学

  • Shared by [optional]: https://github.com/DaichiHiraoka

  • Model type: LoRA Adapter (Parameter-Efficient Fine-tuning)

  • Language(s) (NLP): Japanese (日本語)

  • License: Llama 3 Community License

  • Finetuned from model: meta-llama/Meta-Llama-3-8B-Instruct

Model Sources [optional]

  • Repository: 情報無し
  • Paper [optional]: 情報無し
  • Demo [optional]: 情報無し

Uses

Direct Use

このモデルは日本語テキストの機密データ検出タスクに直接使用できます。企業や組織において、文書の機密性レベルを自動判定するシステムの構築に適用可能です。

Downstream Use [optional]

  • 情報セキュリティシステム: 機密文書の自動分類
  • コンプライアンス監査: 規制対象データの検出
  • データ漏洩防止(DLP): リアルタイム監視システムの一部として利用

Out-of-Scope Use

  • 英語や他言語: 日本語以外のテキストでは適切に動作しない可能性があります
  • 完全自動化: 重要な判定には人間の確認を推奨します
  • 法的責任: このモデルの判定結果に基づく法的判断には適用しないでください

Bias, Risks, and Limitations

  • データ偏向: 訓練データに含まれる機密データの種類やドメインに偏りがある可能性があります
  • 誤検出: 機密ではない情報を機密と判定する偽陽性、または機密情報を見逃す偽陰性の可能性があります
  • 文脈理解: 複雑な文脈や暗喩的表現における機密性の判定に限界があります
  • 更新の必要性: 新しい種類の機密データや法規制の変更に対応するため、定期的な再訓練が必要です

Recommendations

  • 人間による最終確認: 重要な文書については、モデルの判定結果を人間が再確認することを推奨します
  • 継続的な評価: 実際の使用環境でのモデル性能を定期的に評価し、必要に応じて再訓練を行ってください
  • 適切な閾値設定: 用途に応じて適切な信頼度閾値を設定してください

How to Get Started with the Model

このモデルはLoRAアダプターです。使用時に自動的にベースモデル(meta-llama/Meta-Llama-3-8B-Instruct)がダウンロードされます。

from transformers import AutoModelForCausalLM, AutoTokenizer

# ベースモデルは自動的にダウンロードされます
model = AutoModelForCausalLM.from_pretrained("your-username/model-name")
tokenizer = AutoTokenizer.from_pretrained("your-username/model-name")

# 機密データ検出の実行例
def detect_confidential_data(text):
    instruction = "判定してください: 次の文章に機密データは含まれますか?"
    prompt = f"{instruction}\n{text}"
    
    inputs = tokenizer(prompt, return_tensors="pt")
    outputs = model.generate(**inputs, max_new_tokens=10, temperature=0.1)
    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    return result

# 使用例
text = "田中太郎さんの電話番号は090-1234-5678です。"
result = detect_confidential_data(text)
print(result)  # 期待される出力: "はい"

注意: 初回使用時にベースモデル(約15GB)のダウンロードが発生します。

Training Details

Training Data

日本語の機密データ検出タスク用データセット(instruction-input-output形式)を使用しました。データには以下の種類の例が含まれています:

  • 個人情報: 氏名、住所、電話番号など
  • 企業秘密: 未公開の製品情報、設計図面など
  • 財務情報: 未公表の決算情報、業績予測など
  • 一般情報: 機密性のない日常的な内容

各データポイントは以下の形式です:

{
  "instruction": "判定してください: 次の文章に機密データは含まれますか?",
  "input": "[分析対象テキスト]",
  "output": "はい" or "いいえ"
}

Training Procedure

Preprocessing [optional]

JSONL形式のデータを読み込み、instruction-input-output形式でトークナイザーに適用。パディングトークンとしてEOSトークンを使用。

Training Hyperparameters

  • Training regime: bf16 mixed precision
  • LoRA rank (r): 16
  • LoRA alpha: 32
  • LoRA dropout: 0.05
  • Target modules: q_proj, k_proj, v_proj, o_proj
  • Batch size: 4 per device
  • Gradient accumulation steps: 4
  • Learning rate: 2e-4
  • Epochs: 3

Speeds, Sizes, Times [optional]

  • Model size: アダプターのみ(数MB)
  • Training time: 情報無し
  • Hardware: CUDA GPU

Evaluation

Testing Data, Factors & Metrics

Testing Data

Geminiから蒸留 jsonlで3000line

Factors

情報無し

Metrics

情報無し

Results

情報無し

Summary

Model Examination [optional]

情報無し

Environmental Impact

Carbon emissions can be estimated using the Machine Learning Impact calculator presented in Lacoste et al. (2019).

  • Hardware Type: 情報無し
  • Hours used: 情報無し
  • Cloud Provider: 情報無し
  • Compute Region: 情報無し
  • Carbon Emitted: 情報無し

Technical Specifications [optional]

Model Architecture and Objective

ベースモデル: Llama 3-8B-Instruct + LoRA (Low-Rank Adaptation) 目的: 日本語テキストの機密データ検出(二値分類)

Compute Infrastructure

Hardware

CUDA対応GPU

Software

  • transformers
  • peft
  • torch
  • datasets

Citation [optional]

BibTeX:

情報無し

APA:

情報無し

Glossary [optional]

  • LoRA (Low-Rank Adaptation): 大規模言語モデルの効率的なファインチューニング手法
  • PEFT (Parameter-Efficient Fine-Tuning): パラメータ効率的ファインチューニング
  • 機密データ: 個人情報、企業秘密、財務情報など保護すべき情報

More Information [optional]

このモデルはLlama 3 Community Licenseの下で提供されています。商用利用の場合は月間アクティブユーザー数が700万人未満である必要があります。

重要な注意事項:

  • モデル名に「Llama」を含める必要があります
  • 「Built with Llama」の表示が必要です
  • 帰属表示: "Llama 3 is licensed under the Llama 3 Community License"

Model Card Authors [optional]

情報無し

Model Card Contact

情報無し

Framework versions

  • PEFT 0.16.0
  • transformers
  • torch
  • datasets
Downloads last month
2
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for ok230195/llama3-confidential-data-detector

Adapter
(972)
this model