• español
  • English
  • français
  • Deutsch
  • português (Brasil)
  • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    Browse

    All of UVaDOCCommunitiesBy Issue DateAuthorsSubjectsTitles

    My Account

    Login

    Statistics

    View Usage Statistics

    Share

    View Item 
    •   UVaDOC Home
    • FINAL DEGREE PROJECTS
    • Trabajos Fin de Máster UVa
    • View Item
    •   UVaDOC Home
    • FINAL DEGREE PROJECTS
    • Trabajos Fin de Máster UVa
    • View Item
    • español
    • English
    • français
    • Deutsch
    • português (Brasil)
    • italiano

    Export

    RISMendeleyRefworksZotero
    • edm
    • marc
    • xoai
    • qdc
    • ore
    • ese
    • dim
    • uketd_dc
    • oai_dc
    • etdms
    • rdf
    • mods
    • mets
    • didl
    • premis

    Citas

    Por favor, use este identificador para citar o enlazar este ítem:https://uvadoc.uva.es/handle/10324/84506

    Título
    Comparative evaluation of vision language models for table extraction in scanned spanish public tenders
    Autor
    Mbarek, Amine
    Director o Tutor
    Cardeñoso Payo, ValentínAutoridad UVA
    Editor
    Universidad de Valladolid. Escuela de Ingeniería Informática de ValladolidAutoridad UVA
    Año del Documento
    2026
    Titulación
    Máster Universitario en Ingeniería Informática
    Abstract
    Contexto y motivación: La contratación pública española representa aproximadamente el 11.5% del PIB y genera vastos repositorios de documentos escaneados que requieren procesamiento automatizado. La extracción de información estructurada de documentos escaneados presenta desafíos únicos: degradación de calidad de imagen, errores de OCR (hasta 20–40% en algunos corpus históricos), y estructuras tabulares complejas que resisten métodos de extracción convencionales. Objetivos: Esta tesis evalúa de forma comparativa modelos de visión y lenguaje (VLMs) para la extracción automatizada de tablas desde documentos escaneados de licitaciones públicas españolas. Los objetivos principales incluyen: (1) desarrollar un dataset sintético anotado de documentos escaneados de licitaciones públicas españolas con estructuras tabulares diversas y variaciones de calidad representativas del mundo real, (2) evaluar sistemáticamente múltiples arquitecturas VLM (LLaVA-OneVision-1.5-8B, Qwen2.5-VL-7B-Instruct, e InternVL3_5-8B), y (3) establecer líneas base de rendimiento e identificar enfoques óptimos para despliegue en sistemas de procesamiento de documentos del sector público. Metodología: Se creó un dataset sintético licitaciones_dataset_test de 4,500 documentos y 5,845 tablas que emula documentos escaneados reales mediante un pipeline de generación de 9 fases: planificación de planos, renderizado PDF, rasterización, distorsión geométrica (homografía), simulación de impresión-escaneado, degradación adicional (Augraphy), validación de legibilidad, transformación de anotaciones, y rechazo de duplicados. El dataset incluye variaciones controladas en dificultad de ruido (fácil/medio/difícil), complejidad estructural (profundidad de encabezados, celdas fusionadas, tasa de valores faltantes), y factores de diversidad a nivel de documento y tabla. La evaluación se realizó utilizando métricas de similitud estructural (S-TEDS, GriTSproxy), métricas de contenido (TEDS, ANLS), y métricas de detección a nivel de página (precisión, recall, F1, exactitud, especificidad). Resultados principales: Qwen2.5-VL-7B-Instruct logró el mejor rendimiento en estructura (S-TEDS=0.9740, GriTSproxy=1.789), con precisión perfecta pero 22 falsos negativos. LLaVA-OneVision-1.5-8B obtuvo la mejor fidelidad de texto (ANLS=0.8366, TEDS=0.9603) pero mostró debilidades en reconstrucción estructural en tablas complejas (9 de 10 peores casos con S-TEDS < 0.5) y produjo 725 falsos positivos. InternVL3_5-8B mostró rendimiento consistentemente inferior en todas las métricas. El análisis de sensibilidad al peso de dificultad combinada (α) reveló que las diferencias entre modelos son estadísticamente significativas pero con tamaños de efecto pequeños para TEDS/S-TEDS (Cohen’s d < 0.2) y medianos para GriTSproxy (d ∈ [0.3, 0.7]). El análisis cualitativo identificó patrones de error específicos: colapso de encabezados multi-fila, errores de estructura de columnas, y errores de transcripción de texto (formato numérico, caracteres especiales). Conclusiones: Los VLMs ofrecen soluciones prometedoras para la extracción de tablas desde documentos escaneados de licitaciones públicas españolas, pero ningún modelo resuelve completamente el problema. Qwen es óptimo para aplicaciones que requieren alta precisión estructural, mientras que LLaVA es preferible cuando la fidelidad de texto es crítica. Las fallas se concentran en condiciones de ruido alto y estructuras complejas, sugiriendo que técnicas de preprocesamiento de imagen y post-procesamiento basado en reglas podrían mejorar significativamente la calidad de extracción. Este trabajo contribuye al avance de tecnologías de IA multimodal y a la mejora de capacidades de procesamiento de documentos del sector público, allanando el camino hacia un sistema de contratación pública española más abierto y automatizado.
     
    Context and motivation: Spanish public procurement represents approximately 11.5% of GDP and generates vast repositories of scanned documents requiring automated processing. Extracting structured information from scanned documents presents unique challenges: image quality degradation, OCR errors (reaching 20–40% in some historical corpora), and complex table structures that resist conventional extraction methods. Objectives: This thesis conducts a comparative evaluation of Vision Language Models (VLMs) for automated table extraction from scanned Spanish public procurement documents. The main objectives include: (1) developing an annotated synthetic dataset of scanned Spanish public procurement documents with diverse tabular structures and quality variations representative of real-world outputs, (2) systematically evaluating multiple VLM architectures (LLaVA-OneVision-1.5-8B, Qwen2.5-VL-7B-Instruct, and InternVL3_5-8B), and (3) establishing performance baselines and identifying optimal approaches for deployment in public sector document processing systems. Methodology: A synthetic dataset licitaciones_dataset_test of 4,500 documents and 5,845 tables was created to emulate real scanned documents through a 9-phase generation pipeline: blueprint planning, PDF rendering, rasterization, geometric distortion (homography), printscan simulation, additional degradation (Augraphy), legibility validation, annotation transformation, and near-duplicate rejection. The dataset includes controlled variations in noise difficulty (easy/medium/hard), structural complexity (header depth, merged cells, missingness rate), and document- and table-level diversity factors. Evaluation was conducted using structural similarity metrics (S-TEDS, GriTSproxy), content metrics (TEDS, ANLS), and page-level detection metrics (precision, recall, F1, accuracy, specificity). Main results: Qwen2.5-VL-7B-Instruct achieved the best structure performance (S-TEDS=0.9740, GriTSproxy=1.789), with perfect precision but 22 false negatives. LLaVAOneVision-1.5-8B achieved the best text fidelity (ANLS=0.8366, TEDS=0.9603) but showed weaknesses in structural reconstruction in complex tables (9 out of 10 worst cases with S-TEDS < 0.5) and produced 725 false positives. InternVL3_5-8B showed consistently inferior performance across all metrics. Sensitivity analysis of the combined difficulty weight (α) revealed that differences between models are statistically significant but with small effect sizes for TEDS/S-TEDS (Cohen’s d < 0.2) and medium for GriTSproxy (d ∈ [0.3, 0.7]). Qualitative analysis identified specific error patterns: multi-row header collapse, column structure errors, and text transcription errors (number formatting, special characters). Conclusions: VLMs offer promising solutions for table extraction from scanned Spanish public procurement documents, but no single model fully solves the problem. Qwen is optimal for applications requiring high structural precision, while LLaVA is preferable when text fidelity is critical. Failures concentrate in high-noise conditions and complex structures, suggesting that image preprocessing techniques and rule-based post-processing could significantly improve extraction quality. This work contributes to the advancement of multimodal AI technologies and the improvement of public sector document processing capabilities, paving the way toward a more open and automated Spanish public procurement system.
    Palabras Clave
    Extracción de tablas
    Modelos de visión y lenguaje
    Documentos escaneados
    Licitaciones públicas españolas
    Departamento
    Departamento de Informática (Arquitectura y Tecnología de Computadores, Ciencias de la Computación e Inteligencia Artificial, Lenguajes y Sistemas Informáticos)
    Idioma
    eng
    URI
    https://uvadoc.uva.es/handle/10324/84506
    Derechos
    openAccess
    Collections
    • Trabajos Fin de Máster UVa [7731]
    Show full item record
    Files in this item
    Nombre:
    TFM-G2410.pdf
    Tamaño:
    9.780Mb
    Formato:
    Adobe PDF
    Thumbnail
    FilesOpen
    Attribution-NonCommercial-NoDerivatives 4.0 InternacionalExcept where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional

    Universidad de Valladolid

    Powered by MIT's. DSpace software, Version 5.10