Logo de Camilo BooCamilo BooSoftware interno · Automatización · Integración de sistemas
Buscador semántico jurídico

BOE Simplificado: buscador semántico sobre normativa oficial

Buscador semántico sobre normativa oficial, con normas vectorizadas, recuperación contextual y generación de resúmenes o respuestas asistidas con LLMs.

Qué demuestra este caso

Cómo pasar de una fricción concreta a un sistema más claro, más revisable y más preparado para sostener trabajo real.

Lectura útil

No mires solo la tecnología. Mira qué parte del proceso se ordena, qué riesgo se reduce y qué base queda preparada para crecer.

Imagen del caso: BOE Simplificado: buscador semántico sobre normativa oficial
Sector
Normativa, documentación jurídica y conocimiento legal
Alcance
Vectorización masiva, búsqueda semántica, resúmenes, respuestas asistidas y optimización de costes
Stack
PostgreSQL, pgvector, Embeddings, OpenAI API, Next.js
Año
2026
Contexto

El punto de partida

El BOE contiene un volumen enorme de normativa oficial. El problema no es solo acceder a las normas, sino encontrarlas por significado, relacionarlas, resumirlas y convertirlas en respuestas útiles.

Problema

La fricción que había que resolver

La búsqueda tradicional por palabras clave no siempre funciona bien cuando el usuario no sabe exactamente qué término jurídico usar. Además, procesar normativa a gran escala exige controlar costes de embeddings, almacenamiento, recuperación y generación.

Diagnóstico

No era solo una tarea lenta. Era un sistema de trabajo con demasiada fricción.

Cuando un proceso depende de revisar información dispersa, reconstruir decisiones o repetir tareas manuales, el coste no está solo en el tiempo. También está en los errores, las interrupciones, la falta de visibilidad y la dificultad para escalar.

Claves del caso
  • Vectorización de normativa oficial publicada en el BOE.
  • Búsqueda semántica con PostgreSQL, pgvector y embeddings.
  • Generación de resúmenes y respuestas asistidas con LLMs.
  • Optimización de costes en procesos masivos de embeddings, búsqueda y generación.
  • Base preparada para consulta normativa avanzada.
Antes / Después

Lo importante no es añadir tecnología. Es cambiar cómo fluye el trabajo.

Antes
  • Normativa oficial extensa y difícil de explorar solo mediante búsquedas exactas.
  • Necesidad de localizar normas por significado, no solo por coincidencia textual.
  • Coste elevado potencial al procesar grandes volúmenes de documentos.
  • Dificultad para convertir normativa en respuestas o resúmenes útiles.
Después
  • Normativa vectorizada y preparada para búsqueda semántica.
  • Consultas en lenguaje natural sobre normativa oficial.
  • Recuperación contextual y generación asistida con LLMs.
  • Optimización de coste y arquitectura para procesos masivos.
Enfoque

Cómo se planteó la solución

El enfoque fue tratar la normativa como un corpus semántico masivo. Se vectorizan normas, se construye recuperación sobre PostgreSQL y pgvector, y se conecta la búsqueda con generación asistida para producir resúmenes y respuestas más útiles.

Solución

Qué se construyó o se dejó preparado

Se implementó un sistema de búsqueda semántica sobre normas publicadas en el BOE, usando embeddings, PostgreSQL, pgvector y LLMs para recuperación, resumen y generación asistida.

Proceso

Del problema operativo a una base de trabajo más clara

01

Preparación del corpus normativo

Se organiza el conjunto de normas oficiales para poder procesarlo de forma estructurada y escalable.

02

Vectorización masiva

Se generan embeddings de normativa oficial, controlando coste, estructura y almacenamiento.

03

Búsqueda semántica

Se implementa recuperación con PostgreSQL y pgvector para localizar contenido por significado.

04

Resúmenes y respuestas

Los LLMs ayudan a generar explicaciones, resúmenes y respuestas asistidas sobre el contexto recuperado.

Resultado

Qué cambia cuando el proceso deja de depender de parches

El resultado es una base normativa consultable semánticamente, capaz de encontrar contenido por significado, generar explicaciones y optimizar procesos masivos de embeddings, búsqueda y generación.

La mejora importante no está solo en automatizar una parte del trabajo. Está en que el negocio pueda ver mejor qué ocurre, actuar con menos fricción y evolucionar sobre una base más limpia.

Impacto habitual
Más claridad operativa

El equipo entiende mejor en qué punto está cada cosa y qué decisión toca tomar.

Menos dependencia manual

Se reducen tareas repetitivas y puntos donde el error humano aparece por exceso de fricción.

Mejor base para crecer

El sistema queda preparado para añadir integraciones, métricas, automatizaciones o nuevos módulos.

Qué se puede reutilizar

El valor del caso está en el patrón, no solo en el proyecto.

Aunque cada negocio tenga su contexto, muchos problemas comparten una misma lógica: información poco estructurada, decisiones poco visibles y procesos que han crecido sin una base clara.

Búsqueda por significado

La recuperación semántica permite encontrar normativa relevante aunque el usuario no use exactamente las mismas palabras del texto legal.

Escala y coste desde el diseño

Cuando el corpus supera miles de registros, el coste de embeddings, búsqueda y generación forma parte de la arquitectura.

Normativa convertida en conocimiento

El valor no está solo en indexar normas, sino en facilitar consulta, resumen y comprensión práctica.

Encaja si

Tiene sentido valorar algo parecido

  • Ya existe una operativa real, pero está demasiado apoyada en tareas manuales.
  • La información importante vive entre correos, documentos, hojas de cálculo o herramientas inconexas.
  • El equipo necesita más trazabilidad, menos dependencia de memoria y más control sobre estados.
  • Quieres usar IA o automatización, pero dentro de un flujo seguro y revisable.
No encaja si

Mejor no construir por construir

  • Solo buscas una herramienta barata sin revisar primero el proceso.
  • No hay una persona responsable para validar decisiones y aportar criterio operativo.
  • El problema puede resolverse mejor con una herramienta estándar bien configurada.
  • La prioridad real todavía no está clara y no hay urgencia operativa o comercial.
Más casos

Otros patrones parecidos

Ver todos los casos →
Siguiente paso

Si tu caso se parece, lo primero es aterrizarlo bien.

No hace falta que tu problema sea idéntico. Si hay trabajo manual, información dispersa, poca trazabilidad o sistemas que ya no acompañan, merece la pena valorar qué parte conviene resolver primero.

Valoración inicial

La conversación inicial sirve para entender el proceso, detectar el cuello de botella y decidir si tiene sentido automatizar, integrar, aplicar IA o construir una base propia.