Jinhwan
/

krelectra-base-mecab

Model card Files Files and versions

Jinhwan commited on Jan 12, 2022

Commit

9762b4b

·

1 Parent(s): a9793bd

Update README.md

Files changed (1) hide show

README.md +21 -1

README.md CHANGED Viewed

@@ -8,4 +8,24 @@ tags:
 # KrELECTRA-base-mecab
 Korean-based Pre-trained ELECTRA Language Model using Mecab (Morphological Analyzer)
-For more detail, please see [original repository](https://github.com/monologg/KoELECTRA/blob/master/README_EN.md).

 # KrELECTRA-base-mecab
 Korean-based Pre-trained ELECTRA Language Model using Mecab (Morphological Analyzer)
+For more detail, please see [original repository](https://github.com/monologg/KoELECTRA/blob/master/README_EN.md).
+## Usage
+### Load model and tokenizer
+```python
+>>> from transformers import AutoTokenizer, AutoModelForPreTraining
+>>> model = AutoModelForPreTraining.from_pretrained("Jinhwan/krelectra-base-mecab")
+>>> tokenizer = AutoTokenizer.from_pretrained("Jinhwan/krelectra-base-mecab")
+```
+### Tokenizer example
+```python
+>>> from transformers import AutoTokenizer
+>>> tokenizer = AutoTokenizer.from_pretrained("Jinhwan/krelectra-base-mecab")
+>>> tokenizer.tokenize("[CLS] 한국어 ELECTRA를 공유합니다. [SEP]")
+['[CLS]', '한국어', 'EL', '##ECT', '##RA', '##를', '공유', '##합', '##니다', '.', '[SEP]']
+>>> tokenizer.convert_tokens_to_ids(['[CLS]', '한국어', 'EL', '##ECT', '##RA', '##를', '공유', '##합', '##니다', '.', '[SEP]'])
+[2, 7214, 24023, 24663, 26580, 3195, 7086, 3746, 5500, 17, 3]