adapt for coming batch input

Files changed (3) hide show

config.json CHANGED Viewed

@@ -1,5 +1,6 @@
 {
   "_name_or_path": "openbmb/MiniCPM-V-2",
   "architectures": [
     "MiniCPMV"
   ],

 {
   "_name_or_path": "openbmb/MiniCPM-V-2",
+  "version": 2.0,
   "architectures": [
     "MiniCPMV"
   ],

image_processing_minicpmv.py CHANGED Viewed

@@ -401,7 +401,7 @@ class MiniCPMVImageProcessor(BaseImageProcessor):
             tgt_sizes = np.vstack(tgt_sizes)
         return MiniCPMVBatchFeature(
-            data={"pixel_values": new_images, "image_sizes": image_sizes, "tgt_sizes": tgt_sizes}, tensor_type=return_tensors
         )
 AutoImageProcessor.register("MiniCPMVImageProcessor", MiniCPMVImageProcessor)

             tgt_sizes = np.vstack(tgt_sizes)
         return MiniCPMVBatchFeature(
+            data={"pixel_values": [new_images], "image_sizes": [image_sizes], "tgt_sizes": [tgt_sizes]}, tensor_type=return_tensors
         )
 AutoImageProcessor.register("MiniCPMVImageProcessor", MiniCPMVImageProcessor)

processing_minicpmv.py CHANGED Viewed

@@ -125,18 +125,18 @@ class MiniCPMVProcessor(ProcessorMixin):
         images, image_sizes = images["pixel_values"], images["image_sizes"]
         image_tags = re.findall(pattern, texts)
-        assert len(image_tags) == len(image_sizes)
         text_chunks = texts.split(pattern)
         final_texts = ""
         for i in range(len(image_tags)):
-            final_texts = final_texts + text_chunks[i] + self.image_processor.get_slice_image_placeholder(image_sizes[i])
         final_texts += text_chunks[-1]
         input_ids, image_bounds = self._convert(final_texts, max_length)
         return MiniCPMVBatchFeature(data={
             "input_ids": input_ids,
-            "pixel_values": [images],
-            "image_sizes": [image_sizes],
             "image_bounds": [image_bounds]
         }, tensor_type=return_tensors)

         images, image_sizes = images["pixel_values"], images["image_sizes"]
         image_tags = re.findall(pattern, texts)
+        assert len(image_tags) == len(image_sizes[0])
         text_chunks = texts.split(pattern)
         final_texts = ""
         for i in range(len(image_tags)):
+            final_texts = final_texts + text_chunks[i] + self.image_processor.get_slice_image_placeholder(image_sizes[0][i])
         final_texts += text_chunks[-1]
         input_ids, image_bounds = self._convert(final_texts, max_length)
         return MiniCPMVBatchFeature(data={
             "input_ids": input_ids,
+            "pixel_values": images,
+            "image_sizes": image_sizes,
             "image_bounds": [image_bounds]
         }, tensor_type=return_tensors)