MultiBertGunjanPatrick
/

multiberts-seed-1-1600k

multiberts-seed-1

Model card Files Files and versions

gchhablani commited on Sep 25, 2021

Commit

3f6a6af

·

1 Parent(s): bb0208b

Add model

Files changed (2) hide show

README.md +3 -3
config.json +23 -23

README.md CHANGED Viewed

@@ -8,8 +8,8 @@ datasets:
 - bookcorpus
 - wikipedia
 ---
-# MultiBERTs Seed 1600000 Checkpoint 1600k (uncased)
-Seed 1600000 intermediate checkpoint 1600k MultiBERTs (pretrained BERT) model on English language using a masked language modeling (MLM) objective. It was introduced in
 [this paper](https://arxiv.org/pdf/2106.16163.pdf) and first released in
 [this repository](https://github.com/google-research/language/tree/master/language/multiberts). This model is uncased: it does not make a difference
 between english and English.
@@ -46,7 +46,7 @@ Here is how to use this model to get the features of a given text in PyTorch:
 ```python
 from transformers import BertTokenizer, BertModel
 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
-model = BertModel.from_pretrained("multiberts-seed-1600000-1600k")
 text = "Replace me by any text you'd like."
 encoded_input = tokenizer(text, return_tensors='pt')
 output = model(**encoded_input)

 - bookcorpus
 - wikipedia
 ---
+# MultiBERTs Seed 0 Checkpoint 1600k (uncased)
+Seed 0 intermediate checkoint 1600k MultiBERTs (pretrained BERT) model on English language using a masked language modeling (MLM) objective. It was introduced in
 [this paper](https://arxiv.org/pdf/2106.16163.pdf) and first released in
 [this repository](https://github.com/google-research/language/tree/master/language/multiberts). This model is uncased: it does not make a difference
 between english and English.
 ```python
 from transformers import BertTokenizer, BertModel
 tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
+model = BertModel.from_pretrained("multiberts-seed-1-1600k")
 text = "Replace me by any text you'd like."
 encoded_input = tokenizer(text, return_tensors='pt')
 output = model(**encoded_input)

config.json CHANGED Viewed

@@ -1,24 +1,24 @@
 {
-  "architectures": [
-    "BertForPreTraining"
-  ],
-  "attention_probs_dropout_prob": 0.1,
-  "classifier_dropout": null,
-  "hidden_act": "gelu",
-  "hidden_dropout_prob": 0.1,
-  "hidden_size": 768,
-  "initializer_range": 0.02,
-  "intermediate_size": 3072,
-  "layer_norm_eps": 1e-12,
-  "max_position_embeddings": 512,
-  "model_type": "bert",
-  "num_attention_heads": 12,
-  "num_hidden_layers": 12,
-  "pad_token_id": 0,
-  "position_embedding_type": "absolute",
-  "torch_dtype": "float32",
-  "transformers_version": "4.11.0.dev0",
-  "type_vocab_size": 2,
-  "use_cache": true,
-  "vocab_size": 30522
-}

 {
+    "architectures": [
+        "BertForPreTraining"
+    ],
+    "attention_probs_dropout_prob": 0.1,
+    "classifier_dropout": null,
+    "hidden_act": "gelu",
+    "hidden_dropout_prob": 0.1,
+    "hidden_size": 768,
+    "initializer_range": 0.02,
+    "intermediate_size": 3072,
+    "layer_norm_eps": 1e-12,
+    "max_position_embeddings": 512,
+    "model_type": "bert",
+    "num_attention_heads": 12,
+    "num_hidden_layers": 12,
+    "pad_token_id": 0,
+    "position_embedding_type": "absolute",
+    "torch_dtype": "float32",
+    "transformers_version": "4.11.0.dev0",
+    "type_vocab_size": 2,
+    "use_cache": true,
+    "vocab_size": 30522
+}