docling-project
/

SmolDocling-256M-preview

Image-Text-to-Text

Model card Files Files and versions

asnassar commited on Mar 11

Commit

1074b94

·

verified ·

1 Parent(s): cd2c4cb

Update README.md

Files changed (1) hide show

README.md +44 -3

README.md CHANGED Viewed

@@ -40,16 +40,57 @@ pipeline_tag: image-text-to-text
 You can use transformers or docling to perform inference:
 <details>
-<summary>Inference using Docling</summary>
 ```python
 print(generated_texts[0])
 ```
 </details>
 <details>
-<summary>Single image inference using Tranformers</summary>
 ```python
 import torch
@@ -94,7 +135,7 @@ generated_texts = processor.batch_decode(
 )
 print(generated_texts[0])
-```
 </details>
 <details>

 You can use transformers or docling to perform inference:
 <details>
+<summary>Single image inference using Tranformers</summary>
 ```python
+import torch
+from PIL import Image
+from transformers import AutoProcessor, AutoModelForVision2Seq
+from transformers.image_utils import load_image
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+# Load images
+image = load_image("https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg")
+# Initialize processor and model
+processor = AutoProcessor.from_pretrained("ds4sd/SmolDocling-256M-preview")
+model = AutoModelForVision2Seq.from_pretrained(
+    "ds4sd/SmolDocling-256M-preview",
+    torch_dtype=torch.bfloat16,
+    _attn_implementation="flash_attention_2" if DEVICE == "cuda" else "eager",
+).to(DEVICE)
+# Create input messages
+messages = [
+    {
+        "role": "user",
+        "content": [
+            {"type": "image"},
+            {"type": "text", "text": "Convert this page to docling."}
+        ]
+    },
+]
+# Prepare inputs
+prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
+inputs = processor(text=prompt, images=[image], return_tensors="pt")
+inputs = inputs.to(DEVICE)
+# Generate outputs
+generated_ids = model.generate(**inputs, max_new_tokens=500)
+generated_texts = processor.batch_decode(
+    generated_ids,
+    skip_special_tokens=True,
+)
 print(generated_texts[0])
 ```
 </details>
 <details>
+<summary>Multi-page image inference using Tranformers</summary>
 ```python
 import torch
 )
 print(generated_texts[0])
+``````
 </details>
 <details>