La gestión de gastos operativos, como las facturas de servicios básicos (agua, luz, gas), representa a menudo una tarea ardua y costosa. Empresas que manejan múltiples proyectos o propiedades reciben continuamente miles de facturas, cuya información debe ser extraída, procesada y registrada en sistemas internos.
Tradicionalmente, este proceso se realiza de forma manual, constituyendo un cuello de botella operativo que consume tiempo y recursos valiosos.
Más allá del simple coste y la ineficiencia, la transcripción manual de datos desde documentos, especialmente cuando se trata de facturas escaneadas, introduce un riesgo significativo: el error humano. La fatiga visual, la monotonía de la tarea y la variabilidad en el formato y la calidad de los documentos aumentan la probabilidad de errores de transcripción, lo que puede llevar a discrepancias en la contabilidad, pagos incorrectos y problemas en la auditoría.
En nuestro caso particular, la situación se agrava al tratar con facturas predominantemente escaneadas. A diferencia de los documentos digitales nativos, los documentos escaneados presentan desafíos adicionales para las tecnologías de Reconocimiento Óptico de Caracteres (OCR):
Esta complejidad inherente a los documentos escaneados dificulta considerablemente la extracción precisa de datos mediante métodos automatizados.
Comprendiendo la magnitud del problema y los desafíos técnicos, abordamos una investigación exhaustiva del estado del arte en modelos de OCR y procesamiento de documentos basados en inteligencia artificial. Nuestro objetivo era identificar la tecnología más robusta y precisa disponible en el mercado que pudiera manejar la complejidad de las facturas escaneadas.
Evaluamos varios modelos de lenguaje y visión líderes, incluyendo:
Realizamos pruebas rigurosas con un conjunto representativo de facturas escaneadas de distintos proveedores. Durante estas pruebas, identificamos rápidamente que algunos modelos, como ciertas variantes de Mistral, presentaban una tasa de error inaceptablemente alta para nuestro caso de uso, confundiendo dígitos similares (como el ‘5’ y el ‘9’) o letras (‘R’ y ‘F’), lo que invalidaba su utilidad para la extracción de datos financieros sensibles.
Tras comparar el rendimiento y la precisión en la extracción de información clave (nombres de proveedor, números de cuenta, fechas, importes, direcciones) de documentos escaneados complejos, Gemini 1.5 Pro y Sonnet 3.5 destacaron como las opciones más prometedoras. Ambos demostraron una notable capacidad para comprender el contexto de los documentos y extraer información con alta fiabilidad incluso en condiciones subóptimas.
La decisión final de decantarnos por Gemini 1.5 Pro se basó en una combinación óptima de rendimiento y consideraciones económicas. Si bien Sonnet 3.5 ofrecía un rendimiento comparable, su estructura de precios por token resultaba significativamente más elevada para el volumen de procesamiento requerido en este proyecto, en comparación con la rentabilidad y la eficiencia de Gemini 1.5 Pro, especialmente considerando su amplia ventana de contexto que permite procesar documentos largos de una sola vez. (Nota: Los precios por token varían y deben consultarse en la documentación actual del proveedor, pero históricamente Gemini 1.5 Pro ha sido más competitivo en coste para tareas de procesamiento de volumen con grandes contextos).
Para resolver el problema de la empresa constructora, diseñamos e implementamos una solución automatizada robusta utilizando una combinación de Python para tareas de procesamiento de bajo nivel y n8n como orquestador de flujos de trabajo (workflow automation tool). El proceso se estructura de la siguiente manera:
1. Ingesta y almacenamiento de documentos:
2. Pre-procesamiento con Python:
3. Preparación para el modelo multimodal (Base64):
4. Extracción de datos con Gemini 1.5 Pro:
5. El prompt
El prompt proporcionado es un ejemplo excelente de cómo guiar a un modelo multimodal para una tarea estructurada de extracción. Los conceptos más importantes que aborda y que son esenciales para su éxito son:
6. Orquestación y procesamiento avanzado con n8n y agentes de IA:
El output JSON estructurado de Gemini 1.5 Pro es recibido por un flujo de trabajo en n8n.
La validación es una capa esencial de protección de la integridad. Incluso con modelos de extracción muy precisos, siempre existe un pequeño margen de error o la posibilidad de encontrar formatos inesperados. Validar los datos antes de la inserción en la base de datos asegura que:
Este proyecto demuestra el poder transformador de la combinación de tecnologías de OCR avanzadas, modelos de lenguaje potentes (LLMs) y herramientas de automatización de flujos de trabajo. Al implementar esta solución, la empresa constructora logra:
La clave del éxito reside no solo en la elección de modelos de IA de vanguardia (Gemini 1.5 Pro para OCR preciso de documentos complejos, GPT-4.1 como agente inteligente), sino también en la ingeniería de prompts meticulosa y la arquitectura robusta del flujo de trabajo en n8n. La implementación estratégica de técnicas como la Chain of Thought («THINK») en el agente de IA añade una capa crucial de fiabilidad y razonamiento estratégico, permitiendo al sistema manejar situaciones complejas, interactuar dinámicamente con sistemas externos (la base de datos vía API) y validar información crítica antes de proceder.
En resumen, hemos transformado un proceso manual ineficiente y propenso a errores en un flujo de trabajo digital inteligente y escalable, demostrando cómo la IA puede resolver desafíos operativos concretos y generar valor tangible para las empresas.
¿Qué es lo siguiente?
Si tienes una idea similar que quieras implantar en tu empresa, no dudes en contactarme. Puedes escribirme a pablo@ideasforge.io.
Volver a la página principal
Copyright ©2025 Ideasforge