🔍 Extrae texto y tablas de PDFs e imágenes usando OCR con Tesseract y Tabula. Además, puede mejorar la estructura del texto usando OpenAI.
✅ Soporte para PDF e imágenes (JPG, PNG)
✅ OCR con Tesseract para extraer texto
✅ Tabula para extraer tablas de PDFs
✅ Salida en Word (.docx
) para texto y en Excel (.xlsx
) para tablas
✅ Carpeta organizada: archivos subidos y procesados en directorios separados
✅ Eliminación automática de archivos después de la descarga
✅ Integración con OpenAI (opcional) para mejorar la estructura del texto
Haz clic en el botón para abrir y ejecutar el notebook en Google Colab:
1️⃣ Sube un archivo PDF o imagen (JPG, PNG)
2️⃣ El notebook extrae:
- Texto con OCR (Tesseract)
- Tablas con Tabula
3️⃣ Descarga los resultados: - Texto en Word (
.docx
) - Tablas en Excel (
.xlsx
)
4️⃣ Los archivos temporales se eliminan automáticamente
📌 Nota: Si usas OpenAI para mejorar el texto, debes configurar tu API Key en el notebook antes de ejecutar.
Este notebook usa las siguientes bibliotecas:
pytesseract
→ OCR con Tesseractpdf2image
→ Convierte PDF a imágenesopencv-python
→ Preprocesamiento de imágenespandas
→ Manejo de datostabula-py
→ Extrae tablas de PDFspython-docx
→ Guarda texto en Wordxlsxwriter
→ Guarda tablas en Excelmarkdownify
→ Convierte HTML a Markdownopenai
→ (Opcional) Mejora de texto con IA
Estas dependencias se instalan automáticamente en Google Colab, ¡así que no te preocupes! 🚀
Este notebook está bajo la licencia MIT, por lo que puedes usarlo y modificarlo libremente.
Si tienes dudas o sugerencias, puedes escribirme:
📧 Email: [email protected]
🐦 Web: @CENF WEB
✨ ¡Gracias por usar esta herramienta! 🚀