RedHatAI
/

Llama-4-Scout-17B-16E-Instruct-NVFP4

@@ -268,146 +268,116 @@ This model was evaluated on the well-known OpenLLM v1, OpenLLM v2, HumanEval, an
     <tr>
       <th>Category</th>
       <th>Metric</th>
-      <th>Llama-4-Scout-17B-16E-Instruct (A100)</th>
-      <th>Llama-4-Scout-17B-16E-Instruct-NVFP4 (B200)</th>
-      <th>Recovery (%)</th>
     </tr>
   </thead>
   <tbody>
     <tr>
       <td rowspan="8"><b>OpenLLM V1</b></td>
-      <td>ARC Challenge (LLaMA)</td>
-      <td>93.39</td>
-      <td>92.10</td>
-      <td>98.62%</td>
     </tr>
     <tr>
-      <td>GSM8K (LLaMA)</td>
-      <td>92.87</td>
-      <td>94.31</td>
-      <td>101.55%</td>
     </tr>
     <tr>
-      <td>MMLU (LLaMA)</td>
-      <td>81.01</td>
-      <td>79.37</td>
-      <td>97.98%</td>
     </tr>
     <tr>
-      <td>MMLU-CoT (LLaMA)</td>
-      <td>85.99</td>
-      <td>84.58</td>
-      <td>98.36%</td>
     </tr>
     <tr>
-      <td>Hellaswag</td>
-      <td>79.13</td>
-      <td>78.47</td>
-      <td>99.17%</td>
     </tr>
     <tr>
-      <td>TruthfulQA-mc2</td>
-      <td>62.53</td>
-      <td>60.83</td>
-      <td>97.28%</td>
     </tr>
     <tr>
-      <td>Winogrande</td>
-      <td>73.56</td>
-      <td>73.01</td>
-      <td>99.25%</td>
     </tr>
     <tr>
       <td><b>Average</b></td>
-      <td><b>81.21</b></td>
-      <td><b>80.38</b></td>
-      <td><b>98.89%</b></td>
     </tr>
     <tr>
       <td rowspan="7"><b>OpenLLM V2</b></td>
-      <td>MMLU-Pro</td>
-      <td>55.64</td>
-      <td>53.84</td>
-      <td>96.76%</td>
     </tr>
     <tr>
-      <td>IFEval</td>
       <td>89.09</td>
-      <td>89.93</td>
-      <td>100.94%</td>
     </tr>
     <tr>
-      <td>BBH</td>
-      <td>65.14</td>
-      <td>64.00</td>
-      <td>98.25%</td>
     </tr>
     <tr>
-      <td>Math-Hard</td>
-      <td>52.64</td>
-      <td>56.12</td>
-      <td>106.61%</td>
     </tr>
     <tr>
-      <td>GPQA</td>
-      <td>32.21</td>
-      <td>31.88</td>
-      <td>98.98%</td>
     </tr>
     <tr>
-      <td>MuSR</td>
-      <td>42.20</td>
-      <td>42.99</td>
-      <td>101.87%</td>
     </tr>
     <tr>
       <td><b>Average</b></td>
-      <td><b>56.15</b></td>
-      <td><b>56.46</b></td>
-      <td><b>100.55%</b></td>
-    </tr>
-    <tr>
-      <td><b>Coding</b></td>
-      <td>HumanEval Instruct pass@1</td>
-      <td>81.71</td>
-      <td>76.22</td>
-      <td>93.29%</td>
     </tr>
     <tr>
-      <td rowspan="5"></td>
-      <td>HumanEval 64 Instruct pass@2</td>
-      <td>83.49</td>
-      <td>81.10</td>
-      <td>97.14%</td>
-    </tr>
-    <tr>
-      <td>HumanEval 64 Instruct pass@8</td>
-      <td>87.71</td>
-      <td>88.66</td>
-      <td>101.08%</td>
-    </tr>
-    <tr>
-      <td>HumanEval 64 Instruct pass@16</td>
-      <td>88.71</td>
-      <td>90.11</td>
-      <td>101.58%</td>
-    </tr>
-    <tr>
-      <td>HumanEval 64 Instruct pass@32</td>
-      <td>89.38</td>
-      <td>90.91</td>
-      <td>101.71%</td>
-    </tr>
-    <tr>
-      <td>HumanEval 64 Instruct pass@64</td>
-      <td>89.63</td>
-      <td>91.46</td>
-      <td>102.04%</td>
     </tr>
   </tbody>
 </table>
 ### Reproduction
 The results were obtained using the following commands:

     <tr>
       <th>Category</th>
       <th>Metric</th>
+      <th>Llama-4-Scout-17B-16E-Instruct</th>
+      <th>Llama-4-Scout-17B-16E-Instruct-NVFP4 (this model)</th>
+      <th>Recovery</th>
     </tr>
   </thead>
   <tbody>
     <tr>
       <td rowspan="8"><b>OpenLLM V1</b></td>
+      <td>mmlu_llama</td>
+      <td>81.06</td>
+      <td>79.11</td>
+      <td>97.59</td>
     </tr>
     <tr>
+      <td>mmlu_cot_llama (0-shot)</td>
+      <td>85.86</td>
+      <td>84.07</td>
+      <td>97.92</td>
     </tr>
     <tr>
+      <td>arc_challenge_llama (0-shot)</td>
+      <td>93.39</td>
+      <td>92.02</td>
+      <td>98.53</td>
     </tr>
     <tr>
+      <td>gsm8k_llama (8-shot, strict-match)</td>
+      <td>93.78</td>
+      <td>93.78</td>
+      <td>100.00</td>
     </tr>
     <tr>
+      <td>hellaswag (10-shot)</td>
+      <td>79.06</td>
+      <td>78.63</td>
+      <td>99.46</td>
     </tr>
     <tr>
+      <td>winogrande (5-shot)</td>
+      <td>74.43</td>
+      <td>73.48</td>
+      <td>98.72</td>
     </tr>
     <tr>
+      <td>truthfulQA (0-shot, mc2)</td>
+      <td>62.15</td>
+      <td>60.63</td>
+      <td>97.55</td>
     </tr>
     <tr>
       <td><b>Average</b></td>
+      <td><b>81.39</b></td>
+      <td><b>80.25</b></td>
+      <td><b>98.59</b></td>
     </tr>
     <tr>
       <td rowspan="7"><b>OpenLLM V2</b></td>
+      <td>MMLU-Pro (5-shot)</td>
+      <td>55.68</td>
+      <td>53.05</td>
+      <td>95.28</td>
     </tr>
     <tr>
+      <td>IFEval (0-shot)</td>
       <td>89.09</td>
+      <td>89.57</td>
+      <td>100.54</td>
     </tr>
     <tr>
+      <td>BBH (3-shot)</td>
+      <td>65.11</td>
+      <td>63.53</td>
+      <td>97.57</td>
     </tr>
     <tr>
+      <td>Math-|v|-5 (4-shot)</td>
+      <td>57.70</td>
+      <td>55.06</td>
+      <td>95.42</td>
     </tr>
     <tr>
+      <td>GPQA (0-shot)</td>
+      <td>30.70</td>
+      <td>31.04</td>
+      <td>101.11</td>
     </tr>
     <tr>
+      <td>MuSR (0-shot)</td>
+      <td>42.59</td>
+      <td>43.52</td>
+      <td>102.18</td>
     </tr>
     <tr>
       <td><b>Average</b></td>
+      <td><b>57.04</b></td>
+      <td><b>56.54</b></td>
+      <td><b>99.13</b></td>
     </tr>
     <tr>
+      <td rowspan="1"><b>Coding</b></td>
+      <td>HumanEval_64 pass@2</td>
+      <td>83.83</td>
+      <td>84.81</td>
+      <td>101.17</td>
     </tr>
   </tbody>
 </table>
 ### Reproduction
 The results were obtained using the following commands: