Spaces:

ASDAD34
/

docextractor-pro

Running

App Files Files Community

ASDAD34 commited on 18 days ago

Commit

bfa635c

verified ·

1 Parent(s): d9e45b7

Warning: No extractable text found. This PDF might be scanned or contain only images. Try OCR processing if available.

Browse files

Files changed (2) hide show

script.js +77 -11
style.css +9 -1

script.js CHANGED Viewed

@@ -228,14 +228,27 @@ return {
                         .replace(/\u00C4\u0131/g, 'İ') // İ
                         .replace(/\u00C3\u00B6/g, 'ö') // ö
                         .replace(/\u00C3\u0096/g, 'Ö'); // Ö
                     if (!fullText.trim()) {
-                        console.warn('PDF text extraction returned empty content. The PDF might be scanned or contain only images.');
-                        fullText = 'Warning: No extractable text found. This PDF might be scanned or contain only images. Try OCR processing if available.';
                     }
                     resolve(fullText);
-                } catch (error) {
                     console.error('PDF extraction error:', error);
                     reject(new Error('Failed to extract text from PDF: ' + error.message));
                 }
@@ -287,11 +300,48 @@ async function extractTextFromWord(file) {
             reader.readAsArrayBuffer(file);
         });
     }
 async function extractTextFromImage(file) {
-        return new Promise((resolve, reject) => {
-            Tesseract.recognize(
-                file,
-                'tur+eng', // Turkish + English languages
                 {
                     logger: m => console.log(m),
                     preserve_interword_spaces: true,
@@ -355,7 +405,10 @@ async function extractTextFromImage(file) {
 }
 }
     function displayResult(result) {
-        const resultCard = document.createElement('div');
         resultCard.className = 'bg-gray-50 rounded-lg p-4 shadow-sm';
         const header = document.createElement('div');
@@ -372,10 +425,23 @@ async function extractTextFromImage(file) {
         header.appendChild(title);
         header.appendChild(downloadBtn);
         const content = document.createElement('div');
-        // Create pre element with proper Turkish character support
         const pre = document.createElement('pre');
         pre.className = result.format === 'formatted' ? 'ocr-result turkish-text' : '';
         pre.style.cssText = 'font-family: monospace; white-space: pre-wrap; word-wrap: break-word; line-height: 1.6;';

                         .replace(/\u00C4\u0131/g, 'İ') // İ
                         .replace(/\u00C3\u00B6/g, 'ö') // ö
                         .replace(/\u00C3\u0096/g, 'Ö'); // Ö
                     if (!fullText.trim()) {
+                        console.warn('PDF text extraction returned empty content. Attempting OCR processing...');
+                        try {
+                            // Convert PDF to image for OCR processing
+                            const images = await convertPDFToImages(typedArray);
+                            let ocrText = '';
+                            for (const image of images) {
+                                const text = await extractTextFromImage(image);
+                                ocrText += text + '\n\n';
+                            }
+                            fullText = ocrText || 'OCR processing attempted but no text was found.';
+                        } catch (ocrError) {
+                            console.error('OCR processing failed:', ocrError);
+                            fullText = 'Warning: No extractable text found. OCR processing also failed: ' + ocrError.message;
+                        }
                     }
                     resolve(fullText);
+} catch (error) {
                     console.error('PDF extraction error:', error);
                     reject(new Error('Failed to extract text from PDF: ' + error.message));
                 }
             reader.readAsArrayBuffer(file);
         });
     }
+async function convertPDFToImages(pdfData) {
+    return new Promise(async (resolve) => {
+        const loadingTask = pdfjsLib.getDocument({
+            data: pdfData,
+            cMapUrl: 'https://cdn.jsdelivr.net/npm/[email protected]/cmaps/',
+            cMapPacked: true,
+            standardFontDataUrl: 'https://cdn.jsdelivr.net/npm/[email protected]/standard_fonts/'
+        });
+        const pdf = await loadingTask.promise;
+        const images = [];
+        for (let i = 1; i <= Math.min(pdf.numPages, 5); i++) { // Limit to 5 pages
+            const page = await pdf.getPage(i);
+            const viewport = page.getViewport({ scale: 1.5 });
+            const canvas = document.createElement('canvas');
+            const context = canvas.getContext('2d');
+            canvas.height = viewport.height;
+            canvas.width = viewport.width;
+            await page.render({
+                canvasContext: context,
+                viewport: viewport
+            }).promise;
+            images.push(canvas);
+        }
+        resolve(images);
+    });
+}
 async function extractTextFromImage(file) {
+return new Promise((resolve, reject) => {
+                        const imageElement = file instanceof HTMLCanvasElement ?
+                            file :
+                            file;
+                        Tesseract.recognize(
+                            imageElement,
+'tur+eng', // Turkish + English languages
                 {
                     logger: m => console.log(m),
                     preserve_interword_spaces: true,
 }
 }
     function displayResult(result) {
+        // Check if this was an OCR fallback result
+        const isOCRResult = result.content.includes('OCR processing attempted') ||
+                          result.content.includes('Warning: No extractable text found');
+const resultCard = document.createElement('div');
         resultCard.className = 'bg-gray-50 rounded-lg p-4 shadow-sm';
         const header = document.createElement('div');
         header.appendChild(title);
         header.appendChild(downloadBtn);
         const content = document.createElement('div');
+        if (isOCRResult) {
+            const warning = document.createElement('div');
+            warning.className = 'pdf-ocr-warning';
+            warning.innerHTML = `
+                <div class="flex items-start">
+                    <i data-feather="alert-triangle" class="mr-2"></i>
+                    <div>
+                        <strong>Note:</strong> This PDF was processed using OCR as no selectable text was found.
+                        Results may contain errors or inaccuracies.
+                    </div>
+                </div>
+            `;
+            content.appendChild(warning);
+        }
+// Create pre element with proper Turkish character support
         const pre = document.createElement('pre');
         pre.className = result.format === 'formatted' ? 'ocr-result turkish-text' : '';
         pre.style.cssText = 'font-family: monospace; white-space: pre-wrap; word-wrap: break-word; line-height: 1.6;';

style.css CHANGED Viewed

@@ -52,9 +52,17 @@ pre [confidence-medium] {
     letter-spacing: 0.3px;
     unicode-bidi: embed;
 }
 .ocr-result {
-    white-space: pre-wrap;
     font-size: 1rem;
     font-family: 'Segoe UI', 'Tahoma', 'Arial Unicode MS', sans-serif;
     unicode-bidi: embed;

     letter-spacing: 0.3px;
     unicode-bidi: embed;
 }
+.pdf-ocr-warning {
+    background-color: #fff3cd;
+    color: #856404;
+    padding: 12px;
+    border-radius: 4px;
+    margin-bottom: 16px;
+    border-left: 4px solid #ffeeba;
+}
 .ocr-result {
+white-space: pre-wrap;
     font-size: 1rem;
     font-family: 'Segoe UI', 'Tahoma', 'Arial Unicode MS', sans-serif;
     unicode-bidi: embed;