DeepSeek OCR LoRA — Extracción estructurada de tickets y facturas

Descripción

Este modelo es un LoRA fine-tuning sobre unsloth/DeepSeek-OCR-2, entrenado para analizar imágenes de tickets de compra, recibos y facturas y devolver su contenido en formato JSON estructurado.

El objetivo principal del proyecto fue académico: estudiar el comportamiento de un modelo de visión multimodal al ser adaptado para extraer información con una estructura de salida fija.

El modelo está diseñado principalmente para documentos en español.

Salida esperada

Dado una imagen de ticket o factura, el modelo devuelve un JSON con la siguiente estructura:

{
  "comercio": "Nombre del establecimiento",
  "fecha": "DD/MM/AAAA",
  "cif": "B12345678",
  "items": [
    {
      "descripcion": "Nombre del producto",
      "cantidad": 2,
      "precio": 3.50
    }
  ],
  "precio_total": 7.00
}

Uso

Este modelo requiere cargar el modelo base por separado y aplicar el LoRA encima:

from transformers import AutoModelForCausalLM, AutoProcessor
from peft import PeftModel

BASE_MODEL_ID = "unsloth/DeepSeek-OCR-2"
LORA_ID       = "Lacax/deepseek_ocr_lora"

processor = AutoProcessor.from_pretrained(BASE_MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(BASE_MODEL_ID)
model = PeftModel.from_pretrained(model, LORA_ID)

Nota: El repo del LoRA es privado. Se requiere un HF_TOKEN con acceso al repo Lacax/deepseek_ocr_lora. El modelo base unsloth/DeepSeek-OCR-2 es público.

Datos de entrenamiento

Tipo: Imágenes de tickets y facturas reales (fotografías propias)
Tamaño: ~100 imágenes
Formato: Cada imagen asociada a su JSON ground truth con la estructura descrita arriba
Idioma: Español
Origen: Dataset propio, no publicado

Estadísticas de entrenamiento

Parámetro	Valor
Épocas completadas	3
Duración total	~~4607 s (~~77 min)
Muestras / segundo	0.40
Pérdida final (train)	0.0399
Framework	Unsloth + PEFT
Plataforma	RunPod (GPU cloud)

Limitaciones

Dataset pequeño (~100 imágenes): el modelo puede no generalizar bien a formatos de ticket muy distintos a los usados en entrenamiento.
Entrenado únicamente con documentos en español; rendimiento no garantizado en otros idiomas.
Proyecto de carácter académico/experimental, no validado en producción.
La pérdida baja de entrenamiento (0.04) puede indicar cierto sobreajuste al dataset propio.

Modelo base

unsloth/DeepSeek-OCR-2

Autor

Jonatan Thorpe Plaza — Proyecto de estudio personal sobre fine-tuning de modelos de visión multimodal.

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

Image-Text-to-Text

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Lacax/deepseek_ocr_lora

Base model

deepseek-ai/DeepSeek-OCR-2

Finetuned

unsloth/DeepSeek-OCR-2

Adapter

(4)

this model