Curación de Datos: Cumplimiento OpenAIRE, FAIR y COAR para Repositorios
Un repositorio institucional puede contener miles de registros, pero si sus metadatos están incompletos, inconsistentes o no siguen estándares internacionales, gran parte de ese contenido permanecerá invisible para el mundo. Los agregadores como OpenAIRE, los directorios como OpenDOAR y re3data, y los motores de búsqueda académicos como Google Scholar dependen de metadatos bien estructurados para indexar y presentar los recursos. La curación de datos es el proceso sistemático de evaluar, corregir y enriquecer esos metadatos para maximizar la visibilidad, la interoperabilidad y el impacto de la producción académica.
Los principios FAIR: el estándar de oro
En 2016, un grupo de investigadores y organizaciones publicó los principios FAIR, un marco que define las características que deben cumplir los datos y metadatos científicos para ser verdaderamente útiles en el ecosistema de investigación global. FAIR no es un estándar técnico, sino un conjunto de principios rectores:
Findable (Encontrable)
Los datos deben poder ser encontrados tanto por humanos como por máquinas. Esto implica:
- Asignar un identificador persistente único y global a cada recurso (DOI, Handle, URN).
- Describir los datos con metadatos ricos y detallados.
- Registrar los metadatos en un recurso de búsqueda indexable (repositorio, catálogo, agregador).
- El identificador persistente debe estar incluido en los metadatos del recurso.
Accessible (Accesible)
Una vez encontrado, el usuario debe poder acceder a los datos. Esto no significa que todo debe ser de acceso libre, sino que:
- Los metadatos y datos deben ser recuperables mediante un protocolo estandarizado, abierto y gratuito (como OAI-PMH o API REST).
- El protocolo debe soportar autenticación cuando sea necesario.
- Los metadatos deben ser accesibles incluso cuando los datos ya no estén disponibles (persistencia de metadatos).
Interoperable (Interoperable)
Los datos deben poder combinarse con otros datos y ser procesados por diferentes sistemas:
- Usar vocabularios controlados y ontologías reconocidas (COAR Resource Types, LCSH, DeCS).
- Utilizar formatos de representación estándar (Dublin Core, MARC21, DataCite Metadata Schema).
- Incluir referencias cualificadas a otros datos y metadatos relacionados.
Reusable (Reutilizable)
Los datos deben poder ser reutilizados en nuevas investigaciones:
- Asociar una licencia clara de uso (Creative Commons, MIT, dominio público).
- Documentar la procedencia y el contexto de creación de los datos.
- Cumplir con los estándares de la comunidad disciplinaria correspondiente.
Directrices OpenAIRE para repositorios
OpenAIRE (Open Access Infrastructure for Research in Europe) es la infraestructura de acceso abierto más grande del mundo, que agrega metadatos de más de 100,000 fuentes de datos. Para que un repositorio sea cosechado e indexado por OpenAIRE, debe cumplir con directrices técnicas específicas que traducen los principios FAIR en requisitos concretos:
- Tipo de recurso: Cada registro debe incluir un tipo de recurso del vocabulario controlado COAR (artículo, tesis, libro, dataset, software, etc.).
- Derechos de acceso: Indicar explícitamente si el recurso es de acceso abierto, embargado, restringido o con metadatos solamente.
- Identificador del recurso: Handle, DOI u otro identificador persistente.
- Información de proyecto: Si la investigación fue financiada, incluir el identificador del proyecto y la agencia financiadora (formato FundRef o OpenAIRE Grant ID).
- Fecha de publicación: En formato ISO 8601 (YYYY-MM-DD).
- Licencia: URI de la licencia (Creative Commons u otra).
- Idioma: Código ISO 639 (es, en, pt, etc.).
El incumplimiento de estas directrices significa que los registros del repositorio no serán visibles en OpenAIRE, perdiendo una de las fuentes de visibilidad más importantes para la producción académica, especialmente en Europa y América Latina.
Vocabularios COAR
La Confederación de Repositorios de Acceso Abierto (COAR) desarrolla vocabularios controlados que estandarizan la terminología utilizada en los metadatos de repositorios. Los dos vocabularios principales son:
- COAR Resource Types: Una jerarquía de más de 60 tipos de recursos (artículo de revista, tesis doctoral, tesis de magíster, informe técnico, libro, capítulo de libro, dataset, software, imagen, video, entre otros). Cada tipo tiene un URI único que elimina la ambigüedad.
- COAR Access Rights: Cuatro niveles estandarizados de acceso: acceso abierto, embargado, restringido, y solo metadatos.
Usar los vocabularios COAR no es solo una buena práctica: es un requisito para la compatibilidad con OpenAIRE y otros agregadores internacionales. Sin embargo, muchos repositorios utilizan valores locales o no estandarizados en estos campos, lo que impide su correcta indexación.
El problema de la calidad de metadatos en la práctica
La realidad de los repositorios institucionales es que la calidad de los metadatos varía enormemente. Un análisis típico revela problemas como:
- Campos obligatorios vacíos: Registros sin resumen, sin materia, sin tipo de documento o sin fecha normalizada.
- Valores no estandarizados: Tipos de recurso como "Tesis", "TESIS", "tesis de grado", "Trabajo de título" en vez del URI COAR correspondiente.
- Licencias ausentes: Registros sin declaración de derechos, lo que impide determinar si el recurso puede ser reutilizado.
- Identificadores faltantes: Registros sin Handle, DOI ni ningún identificador persistente.
- Fechas en formatos inconsistentes: "Marzo 2024", "03/2024", "2024-03", "2024" en vez de ISO 8601.
- Idioma no declarado: Campo dc.language vacío o con valores como "Español" en vez de "es".
Corregir estos problemas manualmente, registro por registro, es una tarea monumental para repositorios con miles de ítems. Aquí es donde la automatización resulta indispensable.
Cómo LibraryStack.ai automatiza la curación
Análisis de cumplimiento por registro
LibraryStack.ai evalúa cada registro del repositorio contra las directrices OpenAIRE, los principios FAIR y los vocabularios COAR. Para cada registro, genera un score de cumplimiento (0-100%) desglosado por categoría: metadatos obligatorios, tipología de recursos, derechos de acceso, identificadores persistentes, licencias y formato de fechas. Los registros se clasifican en tres niveles: conforme (verde), parcialmente conforme (amarillo) y no conforme (rojo).
Sugerencias generadas por IA
Para cada registro no conforme, la IA genera sugerencias específicas de corrección. Si un registro carece de tipo de recurso COAR, el sistema analiza el contenido y los metadatos existentes para proponer el tipo más adecuado. Si falta la licencia, sugiere la licencia más apropiada según las políticas de la institución. Si el resumen está vacío, puede generarlo a partir del texto completo del documento. Cada sugerencia incluye una explicación de por qué es necesaria la corrección.
Score de cumplimiento institucional
Más allá del análisis individual, LibraryStack.ai genera métricas agregadas que muestran el estado de cumplimiento de todo el repositorio. Los administradores pueden ver la distribución de scores, identificar los problemas más frecuentes, y rastrear la evolución del cumplimiento a lo largo del tiempo. Estas métricas son valiosas para reportes institucionales y para la planificación de campañas de mejora de calidad.
Acciones en lote
Las correcciones no tienen que aplicarse una por una. El sistema permite seleccionar grupos de registros y aplicar correcciones masivas: normalizar todas las fechas a ISO 8601, asignar el tipo COAR correspondiente a todas las tesis de maestría, agregar la licencia Creative Commons BY-NC a todos los registros que carecen de declaración de derechos. Estas acciones en lote transforman semanas de trabajo manual en operaciones que se completan en minutos.
El impacto de una curación efectiva
Un repositorio con metadatos bien curados experimenta beneficios tangibles e inmediatos:
- Mayor visibilidad: Los registros conformes son cosechados por OpenAIRE, BASE, CORE y otros agregadores, multiplicando la audiencia potencial.
- Mejor posicionamiento en Google Scholar: Los metadatos estructurados mejoran la indexación en buscadores académicos.
- Interoperabilidad real: Los datos pueden ser combinados con otros repositorios y fuentes de datos sin intervención manual.
- Cumplimiento de mandatos: Cada vez más agencias financiadoras exigen que los resultados de investigación se depositen en repositorios que cumplan con estándares FAIR.
- Preservación a largo plazo: Los metadatos ricos y estandarizados garantizan que los recursos permanezcan descubribles y comprensibles en el futuro.
La curación de datos no es un proyecto puntual, sino un proceso continuo. LibraryStack.ai facilita este proceso al integrarlo como parte natural del flujo de trabajo bibliotecario, asegurando que cada nuevo registro que ingresa al repositorio cumpla con los estándares desde el principio, y que los registros existentes mejoren progresivamente hasta alcanzar el cumplimiento total.
¿Listo para mejorar la calidad de tu repositorio?
Solicita una demo gratuita y descubre cómo LibraryStack.ai automatiza el cumplimiento OpenAIRE, FAIR y COAR.
Solicitar Demo Gratuita