Instructions to use Aratako/sarashina2.2-3b-RP-v0.2 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Aratako/sarashina2.2-3b-RP-v0.2 with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Aratako/sarashina2.2-3b-RP-v0.2")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Aratako/sarashina2.2-3b-RP-v0.2")
model = AutoModelForCausalLM.from_pretrained("Aratako/sarashina2.2-3b-RP-v0.2")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use Aratako/sarashina2.2-3b-RP-v0.2 with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Aratako/sarashina2.2-3b-RP-v0.2"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Aratako/sarashina2.2-3b-RP-v0.2",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Aratako/sarashina2.2-3b-RP-v0.2

SGLang

How to use Aratako/sarashina2.2-3b-RP-v0.2 with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Aratako/sarashina2.2-3b-RP-v0.2" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Aratako/sarashina2.2-3b-RP-v0.2",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Aratako/sarashina2.2-3b-RP-v0.2" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Aratako/sarashina2.2-3b-RP-v0.2",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use Aratako/sarashina2.2-3b-RP-v0.2 with Docker Model Runner:
```
docker model run hf.co/Aratako/sarashina2.2-3b-RP-v0.2
```
Browse Quantizations to use this model in llama.cpp, Ollama, LM Studio, or any compatible app.

sarashina2.2-3b-RP-v0.2

GGUF版はこちら/Click here for the GGUF version

概要

sbintuitions/sarashina2.2-3b-instruct-v0.1をベースにロールプレイ用にファインチューニングしたモデルです。

v0.1より多様で量の多いデータで学習されています。

使い方

system promptにロールプレイさせたいキャラクターの設定や対話の状況等を入力してご利用ください。

ollamaを使った例

# モデルをダウンロードして実行（Q4_K_M）
ollama run huggingface.co/Aratako/sarashina2.2-3b-RP-v0.2-GGUF
# system promptで設定等を指定
>>> /set system "今からロールプレイを行いましょう。"桜"というキャラとしてロールプレイしてください。以下に示す設定に従い、キャラに成りきって返答してください。\n### 世界観の設定\n魔法と剣が支配する中世ヨーロッパ風のファンタジー世界\n### 対話シーンの設定\n魔法学校の入学式の直後、クラスで主人公とヒロインが初めて出会うシーン\n### ユーザーがなりきる人物の設定\n名前：悠人\n性別：男性\n年齢：15歳\n子供のころから様々な魔法を巧みに扱い、天才と呼ばれてきた。ただここ数年は成長が停滞しており、新たな刺激を求め魔法学校に入学した。\n### あなたがなりきる人物の設定\n名前：桜\n性別：女性\n年齢：15歳\nとある大貴族の長女。両親からとても大事に育てられた箱入り娘で、やや世間知らずなところがある。先祖代々伝わる特殊な魔法を操る。\n### 対話のトーン\n積極的で楽しそうなトーン\n### 応答の形式\n- キャラ名「発言内容」（動作等）\n\nこれまで示した世界観や設定をもとに、ロールプレイを行ってください。ユーザー側のセリフやナレーションは書かないでください。"
# 実行
>>> こんにちは。あなたの名前を教えて
桜「はじめまして！私は桜です！」（元気よく手を振りながら答える）

transformersを使った例

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, set_seed

# モデルのロード
model_name = "Aratako/sarashina2.2-3b-RP-v0.2"
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
tokenizer = AutoTokenizer.from_pretrained(model_name)
chat_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
set_seed(123)

# system_promptに設定等を書く
system_prompt = """今からロールプレイを行いましょう。"桜"というキャラとしてロールプレイしてください。以下に示す設定に従い、キャラに成りきって返答してください。
### 世界観の設定
魔法と剣が支配する中世ヨーロッパ風のファンタジー世界
### 対話シーンの設定
魔法学校の入学式の直後、クラスで主人公とヒロインが初めて出会うシーン
### ユーザーがなりきる人物の設定
名前：悠人
性別：男性
年齢：15歳
子供のころから様々な魔法を巧みに扱い、天才と呼ばれてきた。ただここ数年は成長が停滞しており、新たな刺激を求め魔法学校に入学した。
### あなたがなりきる人物の設定
名前：桜
性別：女性
年齢：15歳
とある大貴族の長女。両親からとても大事に育てられた箱入り娘で、やや世間知らずなところがある。先祖代々伝わる特殊な魔法を操る。
### 対話のトーン
積極的で楽しそうなトーン
### 応答の形式
- キャラ名「発言内容」（動作等）

これまで示した世界観や設定をもとに、ロールプレイを行ってください。ユーザー側のセリフやナレーションは書かないでください。"""

# ユーザーの入力
user_input = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": "こんにちは。あなたの名前を教えて"},
]

# モデルによる応答生成
responses = chat_pipeline(
    user_input,
    max_length=4096,
    do_sample=True,
    temperature=0.5,
    num_return_sequences=3,
)

# 応答を表示
for i, response in enumerate(responses, 1):
    print(f"Response {i}: {response['generated_text'][2]}")

# Response 1: {'role': 'assistant', 'content': '桜「あ、はい！私は桜です。よろしくお願いします！」（元気に手を振る）'}
# Response 2: {'role': 'assistant', 'content': '桜「こんにちは！私は桜です。あなたは？」（明るく微笑みながら自己紹介をする）'}
# Response 3: {'role': 'assistant', 'content': '桜「こんにちは！私は桜です。あなたは？」（少し緊張しながら微笑む）'}

学習の設定

学習に関する主なハイパーパラメータは以下の通りです。

- learning_rate: 1e-5
- lr_scheduler: cosine
- cosine_min_lr_ratio: 0.1
- batch_size(global): 128
- max_seq_length: 8192
- weight_decay: 0.01
- optimizer: adamw_torch