Add/update the quantized ONNX model files and README.md for Transformers.js v3

## Applied Quantizations

### ✅ Based on `model.onnx` *with* slimming

↳ ✅ `int8`: `model_int8.onnx` (added)
↳ ✅ `uint8`: `model_uint8.onnx` (added)
↳ ✅ `q4`: `model_q4.onnx` (added)
↳ ✅ `q4f16`: `model_q4f16.onnx` (added)
↳ ✅ `bnb4`: `model_bnb4.onnx` (added)

### ✅ Based on `model.onnx` *with* slimming

↳ ✅ `int8`: `model_int8.onnx` (added)
↳ ✅ `uint8`: `model_uint8.onnx` (added)
↳ ✅ `q4`: `model_q4.onnx` (added)
↳ ✅ `q4f16`: `model_q4f16.onnx` (added)
↳ ✅ `bnb4`: `model_bnb4.onnx` (added)

Files changed (6) hide show

README.md +3 -1
onnx/model_bnb4.onnx +3 -0
onnx/model_int8.onnx +3 -0
onnx/model_q4.onnx +3 -0
onnx/model_q4f16.onnx +3 -0
onnx/model_uint8.onnx +3 -0

README.md CHANGED Viewed

@@ -48,7 +48,9 @@ console.log(output.tolist());
 By default, an 8-bit quantized version of the model is used, but you can choose to use the full-precision (fp32) version by specifying `{ dtype: 'fp32' }` in the `pipeline` function:
 ```js
-const extractor = await pipeline('feature-extraction', 'Xenova/gte-small', { dtype: 'fp32' });
 ```
 ---

 By default, an 8-bit quantized version of the model is used, but you can choose to use the full-precision (fp32) version by specifying `{ dtype: 'fp32' }` in the `pipeline` function:
 ```js
+const extractor = await pipeline('feature-extraction', 'Xenova/gte-small', {
+    dtype: 'fp32'  // Options: "fp32", "fp16", "q8", "q4"
+});
 ```
 ---

onnx/model_bnb4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06bf293aba7dc80ddaab6c15fc647310302504d502d504fff773a3f107116986
+size 60147542

onnx/model_int8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1337f30686b7e7a410ec5b3ff2c1e814c74d0c92ef69be3512eab1e9ce545b0
+size 33760831

onnx/model_q4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21f088eba0a3a6942efbd11ac4bf6fa697c5fcbd2ea81d27764f22df6d873fe1
+size 61474190

onnx/model_q4f16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c55901040c7ebbc26df6933a54bb8feb79053496153c06dc1b013b0406278e0c
+size 36190171

onnx/model_uint8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbebccc991415aa73dec524b3dca5f8b51eaad2f23b0be374f146c739aa6f69b
+size 33760859