timm
/

ViT-L-16-SigLIP-384

Zero-Shot Image Classification

Model card Files Files and versions

rwightman HF Staff commited on Oct 25, 2023

Commit

d8837d1

·

1 Parent(s): 306cc28

Update README.md

Files changed (1) hide show

README.md +8 -6

README.md CHANGED Viewed

@@ -28,17 +28,18 @@ import torch
 import torch.nn.functional as F
 from urllib.request import urlopen
 from PIL import Image
-from open_clip import create_model_from_pretrained, get_tokenizer
-model, preprocess = create_model_from_pretrained('hf-hub:ViT-L-16-SigLIP-384')
-tokenizer = get_tokenizer('hf-hub:ViT-L-16-SigLIP-384')
 image = Image.open(urlopen(
     'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
 ))
 image = preprocess(image).unsqueeze(0)
-text = tokenizer(["a diagram", "a dog", "a cat", "a beignet"], context_length=model.context_length)
 with torch.no_grad(), torch.cuda.amp.autocast():
     image_features = model.encode_image(image)
@@ -46,9 +47,10 @@ with torch.no_grad(), torch.cuda.amp.autocast():
     image_features = F.normalize(image_features, dim=-1)
     text_features = F.normalize(text_features, dim=-1)
-    text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)
-print("Label probs:", text_probs)  # prints: [[0., 0., 0., 1.0]]
 ```
 ### With `timm` (for image embeddings)

 import torch.nn.functional as F
 from urllib.request import urlopen
 from PIL import Image
+from open_clip import create_model_from_pretrained, get_tokenizer # works on open-clip-torch>=2.23.0, timm>=0.9.8
+model, preprocess = create_model_from_pretrained('hf-hub:timm/ViT-L-16-SigLIP-384')
+tokenizer = get_tokenizer('hf-hub:timm/ViT-L-16-SigLIP-384')
 image = Image.open(urlopen(
     'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
 ))
 image = preprocess(image).unsqueeze(0)
+labels_list = ["a dog", "a cat", "a donut", "a beignet"]
+text = tokenizer(labels_list, context_length=model.context_length)
 with torch.no_grad(), torch.cuda.amp.autocast():
     image_features = model.encode_image(image)
     image_features = F.normalize(image_features, dim=-1)
     text_features = F.normalize(text_features, dim=-1)
+    text_probs = torch.sigmoid(image_features @ text_features.T * model.logit_scale.exp() + model.logit_bias)
+zipped_list = list(zip(labels_list, [round(p.item(), 3) for p in text_probs[0]]))
+print("Label probabilities: ", zipped_list)
 ```
 ### With `timm` (for image embeddings)