Update README.md
Browse files
README.md
CHANGED
|
@@ -1 +1,42 @@
|
|
| 1 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
language:
|
| 3 |
+
- ko
|
| 4 |
+
base_model:
|
| 5 |
+
- answerdotai/ModernBERT-base
|
| 6 |
+
---
|
| 7 |
+
# Train_config
|
| 8 |
+
|
| 9 |
+
* deepspeed
|
| 10 |
+
* StableAdamW
|
| 11 |
+
* data Packing
|
| 12 |
+
|
| 13 |
+
# ListOfDataset
|
| 14 |
+
|
| 15 |
+
| 데이터셋 이름 | 설명 |
|
| 16 |
+
| ------------ | ----- |
|
| 17 |
+
| wikimedia/wikipedia | 위키미디어의 Wikipedia 데이터 |
|
| 18 |
+
| heegyu/namuwiki-extracted | Heegyu가 추출한 나무위키 데이터 |
|
| 19 |
+
| nsmc | 네이버 영화 리뷰 감정 분석 데이터 |
|
| 20 |
+
| daekeun-ml/naver-news-summarization-ko | Daekeun이 만든 네이버 뉴스 요약 데이터 |
|
| 21 |
+
| leey4n/KR3 | Leey4n이 만든 KR-English 번역 말뭉치 데이터 |
|
| 22 |
+
| dev7halo/bluehouse-national-petition | Bluehouse 국민청원 데이터 |
|
| 23 |
+
| 025.일상생활 및 구어체 한-영 번역 병렬 말뭉치 데이터 | 일상생활 및 구어체 번역 말뭉치 데이터 |
|
| 24 |
+
| 030.웹데이터 기반 한국어 말뭉치 데이터 | 웹데이터를 기반으로 한국어 말뭉치 데이터 |
|
| 25 |
+
| 156.전문분야 영-한, 중-한 번역 말뭉치(식품) | 식품 분야 전문 번역 말뭉치 데이터 |
|
| 26 |
+
| 전문분야 한영 말뭉치 | 한영 번역을 위한 전문 분야 말뭉치 데이터 |
|
| 27 |
+
| 029.대규모 구매도서 기반 한국어 말뭉치 데이터 | 대규모 구매도서를 기반으로 한국어 말뭉치 데이터 |
|
| 28 |
+
| 국립국어원 유사 문장 말뭉치(버전 1.0) | 국립국어원에서 제공하는 유사 문장 말뭉치 데이터 (버전 1.0) |
|
| 29 |
+
| NIKL_DIALOGUE_2022_v1.0_JSON | NIKL 대화 데이터 (2022년 버전 1.0) |
|
| 30 |
+
| NIKL_DX_2022_v1.0_JSON | NIKL 문장구조 분석 데이터 (2022년 버전 1.0) |
|
| 31 |
+
| NIKL_EC_2022_v1.0_JSON | NIKL 주제 영역 분석 데이터 (2022년 버전 1.0) |
|
| 32 |
+
| NIKL_KParlty_2021_v1.1_JSON | NIKL 국회회의록 데이터 (2021년 버전 1.1) |
|
| 33 |
+
| NIKL_MESSENGER_v2.0_JSON | NIKL 메신저 데이터 (2022년 버전 2.0) |
|
| 34 |
+
| NIKL_NEWSPAPER_2023_JSON_v1.0 | NIKL 신문 기사 데이터 (2023년 버전 1.0) |
|
| 35 |
+
| 국립국어원 문서 요약 말뭉치(버전 1.0) | 국립국어원에서 제공하는 문서 요약 말뭉치 데이터 (버전 1.0) |
|
| 36 |
+
| NIKL_SC_v.1.0_JSON | NIKL 문단구조 분석 데이터 (버전 1.0) |
|
| 37 |
+
| NIKL_OPM_2022_v1.0_JSON | NIKL 의견/평가/의미분석 데이터 (2022년 버전 1.0) |
|
| 38 |
+
| NIKL_WRITTEN_v1.2_JSON | NIKL 문장 외에 특정 언어 형태를 가진 텍스트 데이터 (버전 1.2) |
|
| 39 |
+
|
| 40 |
+
# Reference
|
| 41 |
+
|
| 42 |
+
* https://huggingface.co/answerdotai/ModernBERT-base
|