Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator (#14)

- Add verifyToken field to verify evaluation results are produced by Hugging Face's automatic model evaluator (1fb2e084e46a80f3fa6b29859f3661c912317c02)

Co-authored-by: Evaluation Bot <[email protected]>

Files changed (1) hide show

README.md +32 -22

README.md CHANGED Viewed

@@ -1,10 +1,10 @@
 ---
 language: en
-inference: false
 tags:
 - text-generation
 - opt
-license: other
 commercial: false
 model-index:
 - name: inverse-scaling/opt-66b_eval
@@ -18,14 +18,16 @@ model-index:
       config: inverse-scaling--NeQA
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.5366666666666666
       verified: true
-    - name: Loss
-      type: loss
       value: 0.7120504426956177
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -35,14 +37,16 @@ model-index:
       config: inverse-scaling--quote-repetition
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.8366666666666667
       verified: true
-    - name: Loss
-      type: loss
       value: 0.3102515521908413
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -52,14 +56,16 @@ model-index:
       config: inverse-scaling--redefine-math
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.6144444444444445
       verified: true
-    - name: Loss
-      type: loss
       value: 0.7022326097430455
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -69,14 +75,16 @@ model-index:
       config: inverse-scaling--hindsight-neglect-10shot
       split: train
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.23174603174603176
       verified: true
-    - name: Loss
-      type: loss
       value: 0.8490466677953327
       verified: true
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
@@ -86,14 +94,16 @@ model-index:
       config: mathemakitten--winobias_antistereotype_test_v5
       split: test
     metrics:
-    - name: Accuracy
-      type: accuracy
       value: 0.33980582524271846
       verified: true
-    - name: Loss
-      type: loss
       value: 1.4462068147712868
       verified: true
 ---
 # OPT : Open Pre-trained Transformer Language Models

 ---
 language: en
+license: other
 tags:
 - text-generation
 - opt
+inference: false
 commercial: false
 model-index:
 - name: inverse-scaling/opt-66b_eval
       config: inverse-scaling--NeQA
       split: train
     metrics:
+    - type: accuracy
       value: 0.5366666666666666
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYTkyZWE3YzYxOGEwZmU1NDVjYzcxYTYwYmFjNjljZGNiM2ZmNmVkNzc3YzE5YzZmNjM2YjRjOWI5YzljNDY0NyIsInZlcnNpb24iOjF9.XV9kdQe3pHJJMkCdmXegJ8t_GCOr4ul6bK5PcaUDJ3XtMP6i8qh09EEcI7HVzT934a3m5RmtlaoWsz76TmM1Cw
+    - type: loss
       value: 0.7120504426956177
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZjBiYWZhMTJmZGVkMjIzMGVkYWRmNTIyZjgwN2JhMzNkYTE2ZDJjYWJlN2JlMDQwZmE0N2JlYzRlMmIyYTExOSIsInZlcnNpb24iOjF9.-qyaiEzkgDTFGEmgytF6VXdjDAGJqnSwjBpNTeIEoz99QWGdAW6qAn-PCMGfX8Zw-MA9_EF-Szi1VM1HVPtgDQ
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--quote-repetition
       split: train
     metrics:
+    - type: accuracy
       value: 0.8366666666666667
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNWYzNWYxYWYwMGU4YjIzODEwMmRmYjBhMGVkNzE5NjFiMzU0NzIzZDFlYTc3Y2Y1ZjlhMzE3MmI4NGYwZDFkNiIsInZlcnNpb24iOjF9.W6WKF0ajwmk4dRyBNuyv5qbn_Hl97RbAuxB6xV3BVoAYf4cym6TlCF5_9cCGWb7A--rAc1PLeSsaksSJL1H1DQ
+    - type: loss
       value: 0.3102515521908413
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYjI3NmZhYjcwMzkyZDNhZWIyMDAyNmVkMWZmNjE1NDlmMWZjNGYzZTQyNTQ5NDkxN2IwNjhhMTgzMDM1ODA2NiIsInZlcnNpb24iOjF9.UfCBdy49wMMNOe_6oSgPJj2tt3yRgNRp3fmaA5T0Es7Xj3kKJetcDUCAgwQUdc96NtYLjT4SVIhC4OGU78F4Ag
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--redefine-math
       split: train
     metrics:
+    - type: accuracy
       value: 0.6144444444444445
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMDRlOTdjYjhjNDEwMmNlNDdmMzRkY2MwMGU1YjU0M2ZiYTVkMmZkMTQ1ZTBkMTRmNDFjZDlkNDJhZGM1ZjUzNCIsInZlcnNpb24iOjF9.yJJSf6D3NBmdbow2cdqXT3Ye9vwVJk6lBsT8h3FaMZU52BG8et8X-IkpyTHbOZOFGAt-PAwhuzkf3pDIpn_YAQ
+    - type: loss
       value: 0.7022326097430455
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiZTI0ZWE3NDU2NTcwMzMxNzNmMmNlY2EzYmUyNDQ2OWJkMGM2ZmY4N2RkMWM5MjE5ZjU4MDE4NTM0Zjk1ZjgyYSIsInZlcnNpb24iOjF9.aYVojrgRucgKl8p3seX6FwmKeZ2My-6aC2MbxGUlPiGOwJi5Jcx4_z7hJ1d8tWjWZ24eI9vPhZZAFjD9Ekr5BQ
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: inverse-scaling--hindsight-neglect-10shot
       split: train
     metrics:
+    - type: accuracy
       value: 0.23174603174603176
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMGFiYWE5ZTNkNjY4YjBlYjI3ODI5NGY3NzExYzA0OWZmOWM4NWI0NGY5Y2FlNjQ1MmM4YWQ3MDlmZmVjYzZiYyIsInZlcnNpb24iOjF9.vZtvZnP37_xmBOWoxrtPZzv6WrJDnZ0zAOpRG6JtAuKBlWmvsDrxVIrrnScoyLsw-2ixe_xqojVepRjqnyBZCw
+    - type: loss
       value: 0.8490466677953327
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOTc2Y2EzMjZlNmM4MjBjYWM0ZGFjODZhYzA1NDM1ODExOTZhYzk2NDM2N2ZjOTg3YzFjZmUwNDUzZmI0NDRkYyIsInZlcnNpb24iOjF9.79rOdptdpN1GwidNjsGeB05TYMMMK5cTQ1Y9W4vt_EqsQFOq5ZbwtM_pjIe0gQJIvcYvtYBjzt9rNJJ_GSSiCA
   - task:
       type: zero-shot-classification
       name: Zero-Shot Text Classification
       config: mathemakitten--winobias_antistereotype_test_v5
       split: test
     metrics:
+    - type: accuracy
       value: 0.33980582524271846
+      name: Accuracy
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiOGIyMmZlYWMwM2I3MDc4YzU3MjIwODI3MmQxYmI2OTFhNGRkZDllZjdiZmVjN2JlNGQ2N2E5ZmY3Y2U4YzQwYSIsInZlcnNpb24iOjF9.jbKQXavDYXixb_Iy4sfKR6qf6Dv4469gRSvM6fBymLq4c6nswEyX5_fHkbidwtjktQ0xOc3GYy7e-WQ2rGPBDA
+    - type: loss
       value: 1.4462068147712868
+      name: Loss
       verified: true
+      verifyToken: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNTAzMWVlYzMwZmYzMmNjOGU0NjQzYzNmN2ZlNTMyNDc3MGFhYjY4MmYxNThhYjRiZDExNzE3YmZjNWU2MWU1MCIsInZlcnNpb24iOjF9.E5Ib1XRJqvbcwYomSSqciIAiVDxkyft2DzpPqkKbuSZGGN9T94Q8RBx4rvG3GaaRy8UE7REneDYgWMO99c35Aw
 ---
 # OPT : Open Pre-trained Transformer Language Models