ionos
/

Llama-3.3-70B-Instruct-FP8

Text Generation

text-generation-inference

compressed-tensors

Model card Files Files and versions Community

mjochmann-ionos commited on 8 days ago

Commit

8d421dd

·

verified ·

1 Parent(s): 9922dd5

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -179,7 +179,7 @@ if __name__ == '__main__':
 ## Training and Optimization Details
 **Quantization Process:**
-This model employs SmoothQuant quantization implemented through LLM Compressor. SmoothQuant redistributes quantization difficulty from activations to weights by applying mathematically equivalent transformations, enabling effective FP8 quantization. The quantization calibration was performed using the WikiText-2 dataset. The quantization process specifically targets the weights and activations of linear operators within transformer blocks, preserving model accuracy while significantly reducing computational requirements.
 **Calibration Dataset:**
 - **WikiText**: Used for SmoothQuant calibration to optimize quantization parameters

 ## Training and Optimization Details
 **Quantization Process:**
+This model employs SmoothQuant quantization implemented through LLM Compressor. SmoothQuant redistributes quantization difficulty from activations to weights by applying mathematically equivalent transformations, enabling effective FP8 quantization. The quantization calibration was performed using the WikiText dataset. The quantization process specifically targets the weights and activations of linear operators within transformer blocks, preserving model accuracy while significantly reducing computational requirements.
 **Calibration Dataset:**
 - **WikiText**: Used for SmoothQuant calibration to optimize quantization parameters