Update README.md
Browse files
README.md
CHANGED
|
@@ -1,199 +1,242 @@
|
|
| 1 |
---
|
| 2 |
library_name: transformers
|
| 3 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 4 |
---
|
| 5 |
|
| 6 |
-
#
|
| 7 |
|
| 8 |
-
|
|
|
|
| 9 |
|
|
|
|
| 10 |
|
|
|
|
| 11 |
|
| 12 |
-
|
|
|
|
|
|
|
| 13 |
|
| 14 |
-
|
|
|
|
| 15 |
|
| 16 |
-
|
|
|
|
|
|
|
|
|
|
| 17 |
|
| 18 |
-
|
| 19 |
|
| 20 |
-
|
| 21 |
-
- **Funded by [optional]:** [More Information Needed]
|
| 22 |
-
- **Shared by [optional]:** [More Information Needed]
|
| 23 |
-
- **Model type:** [More Information Needed]
|
| 24 |
-
- **Language(s) (NLP):** [More Information Needed]
|
| 25 |
-
- **License:** [More Information Needed]
|
| 26 |
-
- **Finetuned from model [optional]:** [More Information Needed]
|
| 27 |
|
| 28 |
-
|
| 29 |
|
| 30 |
-
|
|
|
|
|
|
|
| 31 |
|
| 32 |
-
-
|
| 33 |
-
-
|
| 34 |
-
-
|
|
|
|
|
|
|
| 35 |
|
| 36 |
-
|
| 37 |
|
| 38 |
-
|
|
|
|
|
|
|
| 39 |
|
| 40 |
-
|
| 41 |
|
| 42 |
-
|
|
|
|
| 43 |
|
| 44 |
-
|
| 45 |
|
| 46 |
-
|
| 47 |
|
| 48 |
-
|
|
|
|
| 49 |
|
| 50 |
-
|
| 51 |
|
| 52 |
-
|
| 53 |
|
| 54 |
-
|
|
|
|
| 55 |
|
| 56 |
-
|
| 57 |
|
| 58 |
-
|
| 59 |
|
| 60 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 61 |
|
| 62 |
-
|
| 63 |
|
| 64 |
-
|
| 65 |
|
| 66 |
-
|
| 67 |
|
| 68 |
-
|
| 69 |
|
| 70 |
-
|
|
|
|
|
|
|
| 71 |
|
| 72 |
-
|
| 73 |
|
| 74 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
| 75 |
|
| 76 |
-
|
|
|
|
|
|
|
| 77 |
|
| 78 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
| 79 |
|
| 80 |
-
|
|
|
|
| 81 |
|
| 82 |
-
|
| 83 |
|
| 84 |
-
|
|
|
|
|
|
|
| 85 |
|
| 86 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 87 |
|
| 88 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
| 89 |
|
| 90 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 91 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 92 |
|
| 93 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 94 |
|
| 95 |
-
|
|
|
|
| 96 |
|
| 97 |
-
|
|
|
|
|
|
|
| 98 |
|
| 99 |
-
<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
|
| 100 |
|
| 101 |
-
|
| 102 |
|
| 103 |
-
|
|
|
|
|
|
|
| 104 |
|
| 105 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
| 106 |
|
| 107 |
-
|
| 108 |
|
| 109 |
-
|
| 110 |
|
| 111 |
-
|
|
|
|
| 112 |
|
| 113 |
-
|
|
|
|
| 114 |
|
| 115 |
-
|
|
|
|
|
|
|
| 116 |
|
| 117 |
-
|
| 118 |
|
| 119 |
-
|
| 120 |
|
| 121 |
-
|
| 122 |
|
| 123 |
-
|
| 124 |
|
| 125 |
-
|
| 126 |
|
| 127 |
-
|
| 128 |
|
| 129 |
-
|
|
|
|
|
|
|
| 130 |
|
| 131 |
-
|
|
|
|
|
|
|
| 132 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 133 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 134 |
|
| 135 |
-
|
|
|
|
|
|
|
|
|
|
| 136 |
|
| 137 |
-
|
|
|
|
|
|
|
|
|
|
| 138 |
|
| 139 |
-
|
|
|
|
|
|
|
| 140 |
|
| 141 |
-
|
|
|
|
| 142 |
|
| 143 |
-
|
| 144 |
-
|
| 145 |
-
Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
|
| 146 |
-
|
| 147 |
-
- **Hardware Type:** [More Information Needed]
|
| 148 |
-
- **Hours used:** [More Information Needed]
|
| 149 |
-
- **Cloud Provider:** [More Information Needed]
|
| 150 |
-
- **Compute Region:** [More Information Needed]
|
| 151 |
-
- **Carbon Emitted:** [More Information Needed]
|
| 152 |
-
|
| 153 |
-
## Technical Specifications [optional]
|
| 154 |
-
|
| 155 |
-
### Model Architecture and Objective
|
| 156 |
-
|
| 157 |
-
[More Information Needed]
|
| 158 |
-
|
| 159 |
-
### Compute Infrastructure
|
| 160 |
-
|
| 161 |
-
[More Information Needed]
|
| 162 |
-
|
| 163 |
-
#### Hardware
|
| 164 |
-
|
| 165 |
-
[More Information Needed]
|
| 166 |
-
|
| 167 |
-
#### Software
|
| 168 |
-
|
| 169 |
-
[More Information Needed]
|
| 170 |
-
|
| 171 |
-
## Citation [optional]
|
| 172 |
-
|
| 173 |
-
<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
|
| 174 |
-
|
| 175 |
-
**BibTeX:**
|
| 176 |
-
|
| 177 |
-
[More Information Needed]
|
| 178 |
-
|
| 179 |
-
**APA:**
|
| 180 |
-
|
| 181 |
-
[More Information Needed]
|
| 182 |
-
|
| 183 |
-
## Glossary [optional]
|
| 184 |
-
|
| 185 |
-
<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
|
| 186 |
-
|
| 187 |
-
[More Information Needed]
|
| 188 |
-
|
| 189 |
-
## More Information [optional]
|
| 190 |
-
|
| 191 |
-
[More Information Needed]
|
| 192 |
-
|
| 193 |
-
## Model Card Authors [optional]
|
| 194 |
-
|
| 195 |
-
[More Information Needed]
|
| 196 |
-
|
| 197 |
-
## Model Card Contact
|
| 198 |
-
|
| 199 |
-
[More Information Needed]
|
|
|
|
| 1 |
---
|
| 2 |
library_name: transformers
|
| 3 |
+
datasets:
|
| 4 |
+
- exp-models/Open-Reasoner-Zero-orz-math-57k-collected-Korean
|
| 5 |
+
language:
|
| 6 |
+
- ko
|
| 7 |
+
base_model:
|
| 8 |
+
- naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B
|
| 9 |
---
|
| 10 |
|
| 11 |
+
# HyperCLOVAX-1.5B-Reasoning-RFT
|
| 12 |
|
| 13 |
+
- Base Model: [naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B](https://huggingface.co/naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B)
|
| 14 |
+
- Base Dataset: [exp-models/Open-Reasoner-Zero-orz-math-57k-collected-Korean](https://huggingface.co/datasets/exp-models/Open-Reasoner-Zero-orz-math-57k-collected-Korean)
|
| 15 |
|
| 16 |
+
- Reasoning Format: **๋ณ๋์ ์ถ๋ก ํฌ๋งท ์์**, ์ต์ข
๋ต๋ณ์ //boxed{} ๋ด์ ํ์
|
| 17 |
|
| 18 |
+
- ์์
|
| 19 |
|
| 20 |
+
```
|
| 21 |
+
from vllm import LLM, SamplingParams
|
| 22 |
+
model_name = "werty1248/HyperCLOVAX-1.5B-Reasoning-RFT"
|
| 23 |
|
| 24 |
+
sampling_params = SamplingParams(temperature=0.7, top_p = 0.95, max_tokens = 8192)
|
| 25 |
+
llm = LLM(model=model_name, dtype='auto', max_model_len=16384, tensor_parallel_size = 1)
|
| 26 |
|
| 27 |
+
question = """Janet์ ์ค๋ฆฌ๋ ํ๋ฃจ์ 16๊ฐ์ ์์ ๋ณ์ต๋๋ค.
|
| 28 |
+
๊ทธ๋
๋ ๋งค์ผ ์์นจ์ผ๋ก 3๊ฐ๋ฅผ ๋จน๊ณ , ์น๊ตฌ๋ค์ ์ํด ๋จธํ์ ๊ตฌ์ธ ๋ 4๊ฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
|
| 29 |
+
๋จ์ ๊ณ๋์ ๋งค์ผ ๋์ฐ๋ฌผ ์์ฅ์์ ์ ์ ํ ์ค๋ฆฌ ์ ํ๋๋น 2๋ฌ๋ฌ์ ํ๋งคํฉ๋๋ค.
|
| 30 |
+
๊ทธ๋
๋ ๋งค์ผ ๋์ฐ๋ฌผ ์์ฅ์์ ์ผ๋ง๋ฅผ ๋ฒ๋์?"""
|
| 31 |
|
| 32 |
+
conversation = {"role":"user", "content": question}
|
| 33 |
|
| 34 |
+
outputs = llm.chat([conversation], sampling_params)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 35 |
|
| 36 |
+
print(outputs[0].outputs[0].text)
|
| 37 |
|
| 38 |
+
### ์ถ๋ ฅ ์์
|
| 39 |
+
'''
|
| 40 |
+
### ๋ฌธ์ ์ ์ ๋ฐ ์กฐ๊ฑด ์ ๋ฆฌ
|
| 41 |
|
| 42 |
+
- Janet์ ์ค๋ฆฌ๋ ํ๋ฃจ์ 16๊ฐ์ ์์ ๋ณ์ต๋๋ค.
|
| 43 |
+
- ๋งค์ผ ์์นจ์ผ๋ก 3๊ฐ์ ์์ ๋จน์ต๋๋ค.
|
| 44 |
+
- ๋จธํ์ ๊ตฌ์ธ ๋ 4๊ฐ์ ์์ ์ฌ์ฉํฉ๋๋ค.
|
| 45 |
+
- ๋จ์ ์์ ๋งค์ผ ๋์ฐ๋ฌผ ์์ฅ์์ 2๋ฌ๋ฌ์ ํ๋งคํฉ๋๋ค.
|
| 46 |
+
- ๋งค์ผ ๋์ฐ๋ฌผ ์์ฅ์์ ๋ฒ์ด๋ค์ธ ๊ธ์ก์ ๊ตฌํฉ๋๋ค.
|
| 47 |
|
| 48 |
+
### ๋
ผ๋ฆฌ ๋ฐ ์์ ์ ๊ฐ
|
| 49 |
|
| 50 |
+
1. **ํ๋ฃจ์ ๋ณ๋ ์์ ์**: 16๊ฐ
|
| 51 |
+
2. **์์นจ์ ๋จน๋ ์์ ์**: 3๊ฐ
|
| 52 |
+
3. **๋จธํ์ ๊ตฌ์ธ ๋ ์ฌ์ฉํ๋ ์์ ์**: 4๊ฐ
|
| 53 |
|
| 54 |
+
๋จผ์ , ๋จ์ ์์ ์๋ฅผ ๊ณ์ฐํฉ๋๋ค.
|
| 55 |
|
| 56 |
+
\[ \text{๋จ์ ์์ ์} = \text{ํ๋ฃจ์ ๋ณ๋ ์์ ์} - \text{์์นจ์ ๋จน๋ ์์ ์} - \text{๋จธํ์ ๊ตฌ์ธ ๋ ์ฌ์ฉํ๋ ์์ ์} \]
|
| 57 |
+
\[ \text{๋จ์ ์์ ์} = 16 - 3 - 4 = 9 \]
|
| 58 |
|
| 59 |
+
4. **๋จ์ ์์ ๊ฐ๊ฒฉ**: 2๋ฌ๋ฌ
|
| 60 |
|
| 61 |
+
์ด์ , ๋จ์ 9๊ฐ์ ์์ ํ๋งคํ์ฌ ์ป๋ ์์ต์ ๊ณ์ฐํฉ๋๋ค.
|
| 62 |
|
| 63 |
+
\[ \text{๋์ฐ๋ฌผ ์์ฅ์์ ๋ฒ์ด๋ค์ธ ๊ธ์ก} = \text{๋จ์ ์์ ์} \times \text{์ ๋น ๊ฐ๊ฒฉ} \]
|
| 64 |
+
\[ \text{๋์ฐ๋ฌผ ์์ฅ์์ ๋ฒ์ด๋ค์ธ ๊ธ์ก} = 9 \times 2 = 18 \]
|
| 65 |
|
| 66 |
+
### ์ต์ข
๋ต๋ณ
|
| 67 |
|
| 68 |
+
\[ \boxed{18} \]
|
| 69 |
|
| 70 |
+
Janet์ ๋งค์ผ ๋์ฐ๋ฌผ ์์ฅ์์ 18๋ฌ๋ฌ๋ฅผ ๋ฒ์ด๋ค์
๋๋ค. ์ด๋ ๋จ์ 9๊ฐ์ ์์ 2๋ฌ๋ฌ์ ํ๋งคํ์ฌ ์ป๋ ์์ต์
๋๋ค. ๋ฐ๋ผ์ ์ต์ข
์ ์ผ๋ก Janet์ด ๋งค์ผ ๋์ฐ๋ฌผ ์์ฅ์์ ๋ฒ์ด๋ค์ธ ๊ธ์ก์ 18๋ฌ๋ฌ์
๋๋ค.
|
| 71 |
+
'''
|
| 72 |
|
| 73 |
+
```
|
| 74 |
|
| 75 |
+
### Rejection sampling Fine-Tuning (RFT) with least similar samples
|
| 76 |
|
| 77 |
+
- ๋ชฉํ: ์ต๋ํ **๋ค์ํ ํ์ด ๋ฐฉ๋ฒ**์ ํ์ตํ๊ฒ ๋ง๋๋ ๊ฒ
|
| 78 |
+
1. exp-models/Open-Reasoner-Zero-orz-math-57k-collected-Korean์ ์ง๋ฌธ ์
์ค, MCQA, ์ฆ๋ช
์ ์๊ตฌํ๋ ๋ฌธ์ ์ ์ธ (54,832/56,878๊ฐ)
|
| 79 |
+
2. HyperCLOVAX-1.5B์ CoT ํ๋กฌํํธ๋ฅผ ์ถ๊ฐ(user ์
๋ ฅ์)ํ ํ, **Pass@8** ์์ ํต๊ณผํ ์ง๋ฌธ๋ง ์ถ์ถ (10,433/54,832๊ฐ)
|
| 80 |
+
3. HyperCLOVAX-1.5B(+CoT)๋ก **32ํ ์ถ๊ฐ ์ถ๋ก ** ํ ์ ๋ต์ ๋งํ ๋ต๋ณ๋ง ์ถ์ถ + [Kanana-nano-2.1b](https://huggingface.co/kakaocorp/kanana-nano-2.1b-instruct)(+CoT)๋ก **32ํ ์ถ๊ฐ ์ถ๋ก ** ํ ์ ๋ต์ ๋งํ ๋ต๋ณ๋ง ์ถ์ถ
|
| 81 |
+
- HyperCLOVAX-1.5B CoT Prompt: ```"์ ์ ๊ฐ ์ต์ข
์ ์ผ๋ก ๊ตฌํ๊ณ ์ ํ๋ ๊ฐ์ด ๋ฌด์์ธ์ง ๋ค์ ํ ๋ฒ ์ ์ํ๊ณ , ๋ฌธ์ ์์ ์ ์๋ ์กฐ๊ฑด๋ ๊น๋ํ๊ฒ ์ ๋ฆฌํ์ฌ ์ฌ์์ฑํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ ๋ต์ ๊ตฌํ๊ธฐ ์ํด ๊ตฌ์ฒด์ ์ผ๋ก ๋
ผ๋ฆฌ ๋ฐ ์์์ ์ ๊ฐํ๋ฉฐ ๋ฌธ์ ๋ฅผ ํผ ํ, ์ต์ข
๋ต๋ณ์ \\boxed{} ์์ ์์ฑํฉ๋๋ค.\n\n"```
|
| 82 |
+
- Kanana-2.1b CoT Prompt (๋ง์ง๋ง์ "์ ๋ชฉ ์์ด ๋ด์ฉ๋ง ์ถ๋ ฅํฉ๋๋ค." ์ถ๊ฐ): ```""์ ์ ๊ฐ ์ต์ข
์ ์ผ๋ก ๊ตฌํ๊ณ ์ ํ๋ ๊ฐ์ด ๋ฌด์์ธ์ง ๋ค์ ํ ๋ฒ ์ ์ํ๊ณ , ๋ฌธ์ ์์ ์ ์๋ ์กฐ๊ฑด๋ ๊น๋ํ๊ฒ ์ ๋ฆฌํ์ฌ ์ฌ์์ฑํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋์ ๋ต์ ๊ตฌํ๊ธฐ ์ํด ๊ตฌ์ฒด์ ์ผ๋ก ๋
ผ๋ฆฌ ๋ฐ ์์์ ์ ๊ฐํ๋ฉฐ ๋ฌธ์ ๋ฅผ ํผ ํ, ์ต์ข
๋ต๋ณ์ \\boxed{} ์์ ์์ฑํฉ๋๋ค. ์ ๋ชฉ ์์ด ๋ด์ฉ๋ง ์์ฑํฉ๋๋ค.\n\n"```
|
| 83 |
|
| 84 |
+
#### ์ ๋ต์ ๋งํ ๋ต๋ณ ์ ๋ถํฌ
|
| 85 |
|
| 86 |
+

|
| 87 |
|
| 88 |
+
4. ์ ๋ต์ ๋งํ ๋ต๋ณ์ด 4๊ฐ ์ด๊ณผ์ผ ๊ฒฝ์ฐ, [nlpai-lab/KURE-v1](https://huggingface.co/nlpai-lab/KURE-v1)๋ก ์๋ฒ ๋ฉํ์ฌ **์ํธ๊ฐ cosine ์ ์ฌ๋๊ฐ ๊ฐ์ฅ ๋ฎ์ 4๊ฐ ๋ต๋ณ**๋ง ์ถ์ถ
|
| 89 |
|
| 90 |
+
### ์ต์ข
๋ฐ์ดํฐ ์
|
| 91 |
|
| 92 |
+
- 10,433๊ฐ ์ง๋ฌธ์ ๋ํ 38,037๊ฐ ๋ต๋ณ ๋ฐ์ดํฐ ์
|
| 93 |
+
- Axolotl๋ก ํ์ต (2x A40์์ 2์๊ฐ = 4 GPU Hours)
|
| 94 |
+
- CoT ํ๋กฌํํธ๋ฅผ ์ถ๊ฐํ๊ธด ํ์ผ๋, ํ๊ท ํ ํฐ ์๋ ์งง์(ํ๊ท 300ํ ํฐ ๋ฏธ๋ง)
|
| 95 |
|
| 96 |
+
<details><summary>axolotl config</summary>
|
| 97 |
|
| 98 |
+
```
|
| 99 |
+
base_model: naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B
|
| 100 |
+
model_type: AutoModelForCausalLM
|
| 101 |
+
tokenizer_config: naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B
|
| 102 |
+
tokenizer_type: AutoTokenizer
|
| 103 |
|
| 104 |
+
load_in_8bit: false
|
| 105 |
+
load_in_4bit: false
|
| 106 |
+
strict: false
|
| 107 |
|
| 108 |
+
datasets:
|
| 109 |
+
- path: werty1248/Open-Reasoner-Zero-RFT-full
|
| 110 |
+
field_messages: conversations
|
| 111 |
+
type: chat_template
|
| 112 |
+
chat_template: chatml
|
| 113 |
|
| 114 |
+
dataset_prepared_path: ./data_preparation
|
| 115 |
+
output_dir: /workspace/data
|
| 116 |
|
| 117 |
+
hf_use_auth_token: true
|
| 118 |
|
| 119 |
+
sequence_len: 16384
|
| 120 |
+
sample_packing: true
|
| 121 |
+
pad_to_sequence_len: true
|
| 122 |
|
| 123 |
+
plugins:
|
| 124 |
+
- axolotl.integrations.liger.LigerPlugin
|
| 125 |
+
liger_rope: true
|
| 126 |
+
liger_rms_norm: true
|
| 127 |
+
liger_layer_norm: true
|
| 128 |
+
liger_glu_activation: true
|
| 129 |
+
liger_fused_linear_cross_entropy: true
|
| 130 |
|
| 131 |
+
wandb_project:
|
| 132 |
+
#wandb_entity:
|
| 133 |
+
#wandb_watch:
|
| 134 |
+
wandb_name:
|
| 135 |
+
#wandb_log_model:
|
| 136 |
|
| 137 |
+
gradient_accumulation_steps: 1
|
| 138 |
+
micro_batch_size: 8
|
| 139 |
+
num_epochs: 3
|
| 140 |
+
optimizer: paged_adamw_32bit
|
| 141 |
+
lr_scheduler: cosine
|
| 142 |
+
learning_rate: 3.0e-5
|
| 143 |
|
| 144 |
+
train_on_inputs: false
|
| 145 |
+
group_by_length: false
|
| 146 |
+
bf16: auto
|
| 147 |
+
fp16:
|
| 148 |
+
tf32: false
|
| 149 |
|
| 150 |
+
gradient_checkpointing: true
|
| 151 |
+
early_stopping_patience:
|
| 152 |
+
resume_from_checkpoint:
|
| 153 |
+
local_rank:
|
| 154 |
+
logging_steps: 1
|
| 155 |
+
xformers_attention:
|
| 156 |
+
flash_attention: true
|
| 157 |
|
| 158 |
+
warmup_ratio: 0.1
|
| 159 |
+
eval_table_size:
|
| 160 |
|
| 161 |
+
deepspeed: ./deepspeed_configs/zero3_bf16.json
|
| 162 |
+
```
|
| 163 |
+
</details>
|
| 164 |
|
|
|
|
| 165 |
|
| 166 |
+
# Evaluation
|
| 167 |
|
| 168 |
+
- HRM8K ์ค 4๊ฐ
|
| 169 |
+
- temperature=0.7, top_p = 0.95, max_tokens = 8192
|
| 170 |
+
- max_tokens ๋ด์ //boxed{} ์์ฑ ์คํจ ์, ์ถ๋ ฅ ๊ฒฐ๊ณผ ๋ง์ง๋ง์ ```"\n\n์ต์ข
์ ๋ต: \\boxed{"``` ๋ฅผ ์ฝ์
ํ ๋ค์ inference๋ฅผ ์ํ
|
| 171 |
|
| 172 |
+
| Name | GSM8K | MATH | KSM | OMNI_MATH |
|
| 173 |
+
| --- | --- | --- | --- | --- |
|
| 174 |
+
| werty1248/HyperCLOVAX-1.5B-Reasoning-RFT | 56.56 | 33.80 | 4.62 | 12.26 |
|
| 175 |
+
| werty1248/HyperCLOVAX-1.5B-Reasoning-RFT (CoT) | 54.74 | 33.00 | 3.85 | 12.52 |
|
| 176 |
+
| naver-hyperclovax/HyperCLOVAX-SEED-Text-Instruct-1.5B (CoT) | 46.63 | 29.91 | 5.18 | 11.47 |
|
| 177 |
|
| 178 |
+
# ํน์ด์ฌํญ
|
| 179 |
|
| 180 |
+
### ํ์ต ๋ฐ์ดํฐ ์์ฑ
|
| 181 |
|
| 182 |
+
#### Pass@k ๋น์ฉ
|
| 183 |
+
- ํ์ต ๋ฐ์ดํฐ ์์ฑ ๋น์ฉ(1x 3090์ผ๋ก ์ต์ 40์๊ฐ ์ด์)์ด ํ์ต ๋น์ฉ(2x A40์ผ๋ก 2์๊ฐ)๋ณด๋ค ํจ์ฌ ๋์ (์๋ ๋ชฉํ๋ Pass@16 ํํฐ๋ง์ด์์ผ๋ ํฌ๊ธฐ)
|
| 184 |
|
| 185 |
+
#### Least Similarity Sampling
|
| 186 |
+
- **ํ์ด๊ฐ ํ๋ ธ๋๋ฐ ๋ต๋ง ๋ง์ถ ๊ฒฝ์ฐ**๊ฐ ์๊ธฐ๋ฉด, ๋ค๋ฅธ ์ฌ๋ฐ๋ฅธ ํ์ด๋ค๊ณผ ๋ฎ์ ์ ์ฌ๋๋ฅผ ๊ฐ์ ธ ๊ฑฐ์ ํ์ ์ ์ผ๋ก ์ํ๋ง๋๋ ๋ฌธ์ ์์. ๋ณ๋ ํํฐ๋งํ์ง ์์.
|
| 187 |
|
| 188 |
+
### ์ถ๋ ฅ
|
| 189 |
+
- **ํ๊ท ์๋ต ๊ธธ์ด๊ฐ 753 token**(GSM8K ๊ธฐ์ค) ์ ๋๋ก, reasoning ๋ชจ๋ธ๋ณด๋ค ์งง์ ํธ (์์ง Reasoning ํ์ต์ ํ์ง ์์๊ธฐ ๋๋ฌธ)
|
| 190 |
+
- ```</think>``` ์ ๊ฐ์ **Reasoning ํฌ๋งท**์ ์ดํด์ํค๋ ค๊ณ ์๋(์์คํ
ํ๋กฌํํธ์ ์ค๋ช
, ๋ต๋ณ ํ ๊ฐ์ ๋ก </think> ํ ํฐ์ ์ฝ์
ํ ๋ค์ completion ์์ฑ ๋ฑ๋ฑ)ํ์ผ๋ **์คํจ**
|
| 191 |
|
| 192 |
+
- ์ผ๋ฐ ์ง๋ฌธ์ ๋ํด์๋ ๋ณ๋์ ์ง์ ์์ด๋ CoT์ฒ๋ผ ์๊ฐํ๋ ๊ฒฝํฅ์ด ๋ฐ์.
|
| 193 |
|
| 194 |
+
Q: ํ๋์ ์ ํ๋๊น?
|
| 195 |
|
| 196 |
+
A:
|
| 197 |
|
| 198 |
+
```
|
| 199 |
|
| 200 |
+
**๋ฌธ์ ์ ์ ๋ฐ ์กฐ๊ฑด ์ ๋ฆฌ**
|
| 201 |
|
| 202 |
+
**๋ฌธ์ **: ํ๋์ ์ ํ๋๊น?
|
| 203 |
|
| 204 |
+
**์ ์**:
|
| 205 |
+
- **ํ๋**: ์งํ๋ฉด์์๋ถํฐ ๋จธ๋ฆฌ ์๋ก ์ด์ด์ง๋, ๊ณต๊ธฐ๊ฐ ์๋ ๊ณต๊ฐ.
|
| 206 |
+
- **ํ๋๋ค**: ํ๋์ ๊ณต๊ธฐ๊ฐ ์์ธ์ ์ ์ฐ๋์์ผ์ ํ๋์์ผ๋ก ๋ณด์ด๋ ํ์.
|
| 207 |
|
| 208 |
+
**์กฐ๊ฑด**:
|
| 209 |
+
- ๊ณต๊ธฐ์ ๊ตฌ์ฑ ์ฑ๋ถ (์ฃผ๋ก ์ง์, ์ฐ์, ๊ทธ๋ฆฌ๊ณ ์๋์ ๋ค๋ฅธ ๊ธฐ์ฒด๋ค)
|
| 210 |
+
- ๋๊ธฐ์ ๋๊ป์ ๊ตฌ์กฐ\n- ํ์ ๊ด์ ์ ์ฑ์ง (์์ธ์ ์ ํฌํจํ๊ณ ์์)
|
| 211 |
|
| 212 |
+
**๋ฌธ์ ํด๊ฒฐ ๊ณผ์ **
|
| 213 |
+
1. **๊ณต๊ธฐ์ ๊ตฌ์ฑ ์ฑ๋ถ๊ณผ ๊ทธ ์ญํ **:
|
| 214 |
+
- **์ง์ (Nโ)**: ๋๊ธฐ์ ์ฝ 78%๋ฅผ ์ฐจ์งํ๋ฉฐ, ์์ธ์ ์ ์ฐ๋์ํค๋ ๋ฐ ํฐ ์ญํ ์ ํ์ง ์์.
|
| 215 |
+
- **์ฐ์ (Oโ)**: ๋๊ธฐ์ ์ฝ 21%๋ฅผ ์ฐจ์งํ๋ฉฐ, ์์ธ์ ์ ์ฐ๋์ํค๋ ๋ฐ ์ค์ํ ์ญํ ์ ํจ.
|
| 216 |
+
- **์๋์ ๋ค๋ฅธ ๊ธฐ์ฒด๋ค**: ์๋ฅด๊ณค, ์ด์ฐํํ์ ๋ฑ, ์์ธ์ ์ฐ๋์ ๊ธฐ์ฌํ๋ ์์ ๋งค์ฐ ์ ์.
|
| 217 |
|
| 218 |
+
2. **๋๊ธฐ์ ๋๊ป์ ๊ตฌ์กฐ**:
|
| 219 |
+
- ๋๊ธฐ๋ ์ฌ๋ฌ ์ธต์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ ์ธต๋ง๋ค ๋ค๋ฅธ ํน์ฑ์ ๊ฐ์ง.
|
| 220 |
+
- **๋๋ฅ๊ถ**: ์งํ๋ฉด์์ ์์๋์ด ์ฝ 10~15km ๋์ด๊น์ง ์ด์ด์ง๋ฉฐ, ๊ธฐ์ ํ์์ ์ค์ํ ์ญํ ์ ํจ.
|
| 221 |
+
- **์ฑ์ธต๊ถ**: ๋๋ฅ๊ถ ์ ์ฝ 50km ๋์ด๊น์ง ์ด์ด์ง๋ฉฐ, ์ค์กด์ธต์ด ์์นํ์ฌ ์์ธ์ ์ ํก์ํจ.
|
| 222 |
+
- **์ค๊ฐ๊ถ**: ์ฑ์ธต๊ถ ์ ์ฝ 80km ๋์ด๊น์ง ์ด์ด์ง๋ฉฐ, ๊ธฐ์จ์ด ๋์ง๋ง ์์ธ์ ํก์ ํจ๊ณผ๋ ์ ์.
|
| 223 |
+
- **์ด๊ถ**: ์ค๊ฐ๊ถ ์ ์ฝ 500~1000km ๋์ด๊น์ง ์ด์ด์ง๋ฉฐ, ๊ธฐ์จ์ด ๋งค์ฐ ๋์ง๋ง ์์ธ์ ํก์ ํจ๊ณผ๋ ๋งค์ฐ ์ ์.
|
| 224 |
|
| 225 |
+
3. **ํ์ ๊ด์ ์ ์ฑ์ง**:
|
| 226 |
+
- ํ์ ๊ด์ ์ ์์ธ์ , ๊ฐ์๊ด์ , ์ ์ธ์ ์ผ๋ก ๊ตฌ์ฑ๋จ.
|
| 227 |
+
- ์์ธ์ ์ ํ์ฅ์ด ์งง์ ์๋์ง๊ฐ ํฌ๋ฉฐ, ๋ฌผ์ฒด๋ฅผ ๊ฐ์ดํ๋ ๋ฐ ์ฃผ๋ก ์ํฅ์ ๋ฏธ์นจ.
|
| 228 |
+
- ๊ฐ์๊ด์ ์ ํ์ฅ์ด ๊ธธ์ด ์์ ๋๋ฉฐ, ์์ธ์ ์ ์ฐ๋์ํค๋ ๋ฐ ์ค์ํ ์ญํ ์ ํจ.
|
| 229 |
|
| 230 |
+
4. **์์ธ์ ์ฐ๋**:
|
| 231 |
+
- ์์ธ์ ์ ๋๊ธฐ ์ค์ ์์ ์
์๋ค์ ์ํด ์ฐ๋๋จ.
|
| 232 |
+
- ์ด ์ฐ๋์ ํน์ ๊ฐ๋์์ ๋น์ ๋น์ถ ๋ ํ๋์ด ํ๋๊ฒ ๋ณด์ด๊ฒ ํจ.
|
| 233 |
+
- ์ฐ๋์ ๋๊ธฐ์ ๋๊ป์ ๊ตฌ์ฑ ์ฑ๋ถ, ๊ทธ๋ฆฌ๊ณ ํ์ ๊ด์ ์ ๊ฐ๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง.
|
| 234 |
|
| 235 |
+
5. **๊ฒฐ๋ก **:
|
| 236 |
+
- ํ๋์ด ํ๋ ์ด์ ๋ ํ์ ๊ด์ ์ ์์ธ์ ์ด ๋๊ธฐ์ ์ฐ๋์ ์ํด ํ๋์์ผ๋ก ๊ด์ธก๋๊ธฐ ๋๋ฌธ์.
|
| 237 |
+
- ์์ธ์ ์ฐ๋์ ๋๊ธฐ์ ๋๊ป, ๊ตฌ์ฑ ์ฑ๋ถ, ๊ทธ๋ฆฌ๊ณ ํ์ ๊ด์ ์ ๊ฐ๋์ ๋ฐ๋ผ ๋ฌ๋ผ์ง.
|
| 238 |
|
| 239 |
+
**์ต์ข
๋ต๋ณ**:
|
| 240 |
+
ํ๋์ด ํ๋ ์ด์ ๋ ํ์ ๊ด์ ์ ์์ธ์ ์ด ๋๊ธฐ์ ์ฐ๋์ ์ํด ํ๋์์ผ๋ก ๊ด์ธก๋๊ธฐ ๋๋ฌธ์
๋๋ค. ๋๊ธฐ์ ๊ตฌ์ฑ ์ฑ๋ถ๊ณผ ๋๊ป, ๊ทธ๋ฆฌ๊ณ ํ์ ๊ด์ ์ ๊ฐ๋๊ฐ ์์ธ์ ์ฐ๋์ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ์ด๋ก ์ธํด ์ฐ๋ฆฌ๋ ํ๋์ ํ๋์์ผ๋ก ๋ณด๊ฒ ๋ฉ๋๋ค.
|
| 241 |
|
| 242 |
+
```
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|