Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/84506
Título
Comparative evaluation of vision language models for table extraction in scanned spanish public tenders
Autor
Director o Tutor
Año del Documento
2026
Titulación
Máster Universitario en Ingeniería Informática
Abstract
Contexto y motivación: La contratación pública española representa aproximadamente el 11.5%
del PIB y genera vastos repositorios de documentos escaneados que requieren procesamiento automatizado. La extracción de información estructurada de documentos escaneados presenta desafíos únicos:
degradación de calidad de imagen, errores de OCR (hasta 20–40% en algunos corpus históricos),
y estructuras tabulares complejas que resisten métodos de extracción convencionales. Objetivos:
Esta tesis evalúa de forma comparativa modelos de visión y lenguaje (VLMs) para la extracción automatizada de tablas desde documentos escaneados de licitaciones públicas españolas. Los objetivos
principales incluyen: (1) desarrollar un dataset sintético anotado de documentos escaneados de licitaciones públicas españolas con estructuras tabulares diversas y variaciones de calidad representativas
del mundo real, (2) evaluar sistemáticamente múltiples arquitecturas VLM (LLaVA-OneVision-1.5-8B,
Qwen2.5-VL-7B-Instruct, e InternVL3_5-8B), y (3) establecer líneas base de rendimiento e identificar
enfoques óptimos para despliegue en sistemas de procesamiento de documentos del sector público.
Metodología: Se creó un dataset sintético licitaciones_dataset_test de 4,500 documentos y 5,845
tablas que emula documentos escaneados reales mediante un pipeline de generación de 9 fases: planificación de planos, renderizado PDF, rasterización, distorsión geométrica (homografía), simulación de
impresión-escaneado, degradación adicional (Augraphy), validación de legibilidad, transformación de
anotaciones, y rechazo de duplicados. El dataset incluye variaciones controladas en dificultad de ruido
(fácil/medio/difícil), complejidad estructural (profundidad de encabezados, celdas fusionadas, tasa de
valores faltantes), y factores de diversidad a nivel de documento y tabla. La evaluación se realizó utilizando métricas de similitud estructural (S-TEDS, GriTSproxy), métricas de contenido (TEDS, ANLS),
y métricas de detección a nivel de página (precisión, recall, F1, exactitud, especificidad). Resultados
principales: Qwen2.5-VL-7B-Instruct logró el mejor rendimiento en estructura (S-TEDS=0.9740,
GriTSproxy=1.789), con precisión perfecta pero 22 falsos negativos. LLaVA-OneVision-1.5-8B obtuvo
la mejor fidelidad de texto (ANLS=0.8366, TEDS=0.9603) pero mostró debilidades en reconstrucción estructural en tablas complejas (9 de 10 peores casos con S-TEDS < 0.5) y produjo 725 falsos
positivos. InternVL3_5-8B mostró rendimiento consistentemente inferior en todas las métricas. El
análisis de sensibilidad al peso de dificultad combinada (α) reveló que las diferencias entre modelos
son estadísticamente significativas pero con tamaños de efecto pequeños para TEDS/S-TEDS (Cohen’s d < 0.2) y medianos para GriTSproxy (d ∈ [0.3, 0.7]). El análisis cualitativo identificó patrones
de error específicos: colapso de encabezados multi-fila, errores de estructura de columnas, y errores de
transcripción de texto (formato numérico, caracteres especiales). Conclusiones: Los VLMs ofrecen
soluciones prometedoras para la extracción de tablas desde documentos escaneados de licitaciones
públicas españolas, pero ningún modelo resuelve completamente el problema. Qwen es óptimo para
aplicaciones que requieren alta precisión estructural, mientras que LLaVA es preferible cuando la fidelidad de texto es crítica. Las fallas se concentran en condiciones de ruido alto y estructuras complejas, sugiriendo que técnicas de preprocesamiento de imagen y post-procesamiento basado en reglas podrían
mejorar significativamente la calidad de extracción. Este trabajo contribuye al avance de tecnologías
de IA multimodal y a la mejora de capacidades de procesamiento de documentos del sector público,
allanando el camino hacia un sistema de contratación pública española más abierto y automatizado. Context and motivation: Spanish public procurement represents approximately 11.5% of GDP
and generates vast repositories of scanned documents requiring automated processing. Extracting
structured information from scanned documents presents unique challenges: image quality degradation, OCR errors (reaching 20–40% in some historical corpora), and complex table structures that
resist conventional extraction methods. Objectives: This thesis conducts a comparative evaluation
of Vision Language Models (VLMs) for automated table extraction from scanned Spanish public procurement documents. The main objectives include: (1) developing an annotated synthetic dataset
of scanned Spanish public procurement documents with diverse tabular structures and quality variations representative of real-world outputs, (2) systematically evaluating multiple VLM architectures
(LLaVA-OneVision-1.5-8B, Qwen2.5-VL-7B-Instruct, and InternVL3_5-8B), and (3) establishing performance baselines and identifying optimal approaches for deployment in public sector document
processing systems. Methodology: A synthetic dataset licitaciones_dataset_test of 4,500 documents and 5,845 tables was created to emulate real scanned documents through a 9-phase generation
pipeline: blueprint planning, PDF rendering, rasterization, geometric distortion (homography), printscan simulation, additional degradation (Augraphy), legibility validation, annotation transformation,
and near-duplicate rejection. The dataset includes controlled variations in noise difficulty (easy/medium/hard), structural complexity (header depth, merged cells, missingness rate), and document- and
table-level diversity factors. Evaluation was conducted using structural similarity metrics (S-TEDS,
GriTSproxy), content metrics (TEDS, ANLS), and page-level detection metrics (precision, recall, F1,
accuracy, specificity). Main results: Qwen2.5-VL-7B-Instruct achieved the best structure performance (S-TEDS=0.9740, GriTSproxy=1.789), with perfect precision but 22 false negatives. LLaVAOneVision-1.5-8B achieved the best text fidelity (ANLS=0.8366, TEDS=0.9603) but showed weaknesses in structural reconstruction in complex tables (9 out of 10 worst cases with S-TEDS < 0.5)
and produced 725 false positives. InternVL3_5-8B showed consistently inferior performance across all
metrics. Sensitivity analysis of the combined difficulty weight (α) revealed that differences between
models are statistically significant but with small effect sizes for TEDS/S-TEDS (Cohen’s d < 0.2)
and medium for GriTSproxy (d ∈ [0.3, 0.7]). Qualitative analysis identified specific error patterns:
multi-row header collapse, column structure errors, and text transcription errors (number formatting,
special characters). Conclusions: VLMs offer promising solutions for table extraction from scanned
Spanish public procurement documents, but no single model fully solves the problem. Qwen is optimal
for applications requiring high structural precision, while LLaVA is preferable when text fidelity is
critical. Failures concentrate in high-noise conditions and complex structures, suggesting that image
preprocessing techniques and rule-based post-processing could significantly improve extraction quality. This work contributes to the advancement of multimodal AI technologies and the improvement
of public sector document processing capabilities, paving the way toward a more open and automated
Spanish public procurement system.
Palabras Clave
Extracción de tablas
Modelos de visión y lenguaje
Documentos escaneados
Licitaciones públicas españolas
Departamento
Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
Idioma
eng
Derechos
openAccess
Collections
- Trabajos Fin de Máster UVa [7731]
Files in this item
Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional









