diciembre 2023

Relación entre las buenas prácticas DWBP y los principios FAIR

Cláudia Sofia Teixeira dos Santos presentó en enero de 2023 en la Universidade do Minho su tesis de máster ‘OGD Lens: avaliação  automática da qualidade dos dados do European Data Portal’  sobre la evaluación de la calidad de los conjuntos de datos publicados en el portal de datos abiertos de la Unión Europea (sitio web aloja más de millón y medio de conjuntos de datos y 179 catálogos de datos puestos a disposición de la ciudadanía) para proporcionar una guía de mejora de su calidad. Para poder medir esa calidad desarrolló una metodología basada een los siguientes criterios:

criterios de calidad del portal de datos abiertos de la UE
  1. Facilidad de uso con la que los usuarios pueden acceder a los datos y utilizarlos para fines de investigación.
  2. La disponibilidad de los datos en un formato estándar y abierto y la accesibilidad de los conjuntos de datos a través de un repositorio en línea o una página web.
  3. Calidad técnica: la precisión, integridad y consistencia de los datos.
  4. Documentación: la información proporcionada junto con los datos, como la descripción de la fuente de los datos, las limitaciones de uso y la frecuencia de actualización.
  5. Legalidad: la conformidad de los datos con las leyes de privacidad y derechos de autor.

Los metadatos empleados para describir los conjuntos de datos representan una valiosa fuente de información para satisfacer estos niveles de calidad. Por ello, la investigadora llevó a cabo un estudio empírico desarrollando un analizador semiautomático de evaluación de la información aportada por los metadatos en una serie de conjuntos de datos publicados. Los resultados obtenidos mostraron que la calidad de esos conjuntos varía significativamente. En líneas generales tienen una buena facilidad de uso, pero la calidad técnica, la documentación y la legalidad son aspectos que presentan deficiencias significativas.

En cuanto a la facilidad de uso, se dispone de buena información para el acceso a los datos y cómo reutilizarlos. En cambio, en cuanto a la calidad técnica, en muchos conjuntos de datos se carece de información sobre la fuente, las limitaciones de uso y la frecuencia de actualización. En lo relativo a la legalidad, muchos conjuntos no proporcionan información sobre los derechos de autor y la privacidad, lo que puede derivar en un uso inadecuado de los datos.

En este estudio se analizó la calidad de los catálogos y de los conjuntos de datos. Un catálogo de datos es un repositorio que contiene información detallada de los conjuntos de datos disponibles en una organización. Ofrece metadatos sobre los conjuntos de datos: descripción, origen, estructura, formatos, licencias, fechas de actualización. etc. También puede proporcionar información sobre cómo acceder y utilizarlos.

La autora consideró los beneficios derivados del uso de las buenas prácticas DWBP en la gestión de datos en la web que sintetiza Juan Antonio Pastor Sánchez en esta diapositiva.

beneficios de usar las Data Web Best Practices del W3C para gestionar datos en la wev

Y asoció a cada buena práctica la serie de beneficios que se derivaban de su uso. En la siguiente imagen podemos ver un fragmento de la tabla que construyó que afecta a las cinco primeras.

Buena prácticaBeneficios
BP 1: Proporcionar metadatos  Reusabilidad Comprensibilidad Descubribilidad Procesabilidad
BP 2: Proporcionar metadatos descriptivos  Reusabilidad Comprensibilidad Descubribilidad  
BP 3: Proporcionar metadatos estructurales  Reusabilidad Comprensibilidad Procesabilidad
BP 4: Proporcionar información sobre la licencia de los datos  Reusabilidad Confiabilidad
BP 5: Proporcionar información sobre la procedencia de los datosReusabilidad Confiabilidad
Asociación de las DWBP (1 a 5) con sus beneficios de uso (Teixeira dos Santos, 2023, 26-27).

Nosotros hemos sintetizado esa vinculación en la siguiente tabla que nos permite concluir que la reusabilidad es el beneficio (y principio FAIR)l que agrupa a un número mayor de buenas prácticas seguido de la confianza.

BeneficioBuenas prácticas
AccesibilidadBP17, BP18, BP19, BP20, BP21, BP23, BP24, BP32
ComprensiónBP1, BP2, BP3. BP13 , BP15, BP16, BP29, BP31, BP32, BP33
ConectividadBP9, BP10, BP18, BP24
ConfianzaBP4, BP5, BP6, BP7, BP8, BP11, BP15, BP22, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP34, BP35
DescubribilidadBP1, BP2, BP9, BP10, BP11, BP24, BP35
InteroperabilidadBP9, BP10, BP15, BP16, BP23, BP24, BP26, BP33
ProcesabilidadBP1, BP3, BP12, BP14, BP15, BP18, BP23, BP24, BP31
ReusabilidadBP1, BP2, BP3, BP4, BP5, BV6, BP7, BP8, BP9, BP10, BP11, BP12, BP13, BP14, BP15, BP16, BP17, BP18, BP19, BP20, BP21, BP22, BP23, BP24, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP33, BP34, BP35
Clasificación de las DWBP según beneficio asociado a su uso.

RDA FAIR data maturity model

Los principios FAIR datan del año 2106. Como todas las normas genéricas, dan lugar a distintas interpretaciones en su aplicación. Para remediar la proliferación de medidas del cumplimiento de estos principios (‘FAIRness’ en inglés), la ‘Research Data Alliance’ creó un grupo de trabajo para desarrollar un modelo de madurez en la implementación de los conjuntos de datos (2020).

Este modelo consiste en una serie criterios básicos de evaluación que establece indicadores y niveles de madurez asociados. En un principio, se elaboró un primer conjunto de directrices y una lista de verificación relacionada con la implementación de los indicadores, alineando así las directrices para evaluar el nivel de cumplimiento FAIR con las necesidades de la comunidad. Los indicadores se derivan, lógicamente de los principios FAIR y pretenden formular aspectos mensurables de cada principio que puedan ser utilizados por los enfoques de evaluación.

Enlace al texto del modelo Fair Maturity Model

Los principios se toman tal cual; es decir, los indicadores no amplían o modifican los principios, sólo cubren aspectos que se mencionan en ellos o en aclaraciones adicionales. El planteamiento del modelo se basa en crear un indicador para cada aspecto distinguible en la descripción del principio. Así, cuando se habla de un identificador persistente y globalmente único, se definen dos indicadores: uno para evaluar la persistencia y otro para evaluar la unicidad.

Otra característica a destacar es que se definen indicadores distintos para los metadatos y para los datos, siempre que un principio se hable de «(meta)datos» y la evaluación del aspecto para los metadatos sea distinta de la evaluación para los datos. En la siguiente tabla se presenta un resumen del modelo basado en la lista de recomendaciones (fuente: https://zenodo.org/record/3909563).

Principio
FAIR
IndicadorPropósitoNaturaleza
F1RDA-F1-01MLos metadatos se identifican mediante un identificador persistenteEsencial
RDA-F1-01DLos datos se identifican mediante un identificador persistenteEsencial
RDA-F1-02MLos metadatos se identifican mediante un identificador único globalEsencial
RDA-F1-02DLos datos se identifican mediante un identificador único globalEsencial
F2RDA-F2-01MSe proporcionan metadatos enriquecidos para permitir la localizaciónEsencial
F3RDA-F3-01MLos metadatos incluyen el identificador de los datosEsencial
F4RDA-F4-01MLos metadatos se presentan de forma que puedan ser recolectados e indexados.Esencial
A1RDA-A1-01MLos metadatos contienen información que permite al usuario acceder a los datos.Importante
RDA-A1-02MLos metadatos pueden ser accedidos manualmente (por ejemplo, con intervención humana).Esencial
RDA-A1-02DLos datos pueden ser accedidos manualmente (por ejemplo, con intervención humana).Esencial
RDA-A1-03MEl identificador de los metadatos resuelve un registro de metadatos.Esencial
RDA-A1-03DEl identificador de los datos resuelve un objeto digital.Esencial
RDA-A1-04MSe accede a los metadatos a través de un protocolo estandarizado.Esencial
RDA-A1-04DSe accede a los datos a través de un protocolo estandarizado.Esencial
RDA-A1-05DLos datos pueden ser accedidos de forma automática (por ejemplo, por medio de un programa de ordenador).  Importante
A1.1RDA-A1.1-01MLos metadatos son accesibles a través de un protocolo de acceso libre.Esencial
RDA-A1.1-01DLos datos son accesibles a través de un protocolo de acceso libre.Importante
A1.2RDA-A1.2-01DLos datos son accesibles por medio de un protocolo de acceso que soporta autenticación y autorización.Útil
A2RDA-A2-01MSe garantiza que los metadatos seguirán disponibles después de que los datos dejen de estarlo.Esencial
I1RDA-I1-01MLos metadatos usan representación del conocimiento expresada en formatos estandarizados.Importante
RDA-I1-01DLos datos usan representación del conocimiento expresada en formatos estandarizados.Importante
RDA-I1-02MLos metadatos utilizan una representación del conocimiento comprensible para las máquinasImportante
RDA-I1-02DLos datos utilizan una representación del conocimiento comprensible para las máquinasImportante
I2RDA-I2-01MLos metadatos utilizan vocabularios conformes con los principios FAIRImportante
RDA-I2-01DLos datos utilizan vocabularios conformes con los principios FAIRÚtil
I3RDA-I3-01MLos metadatos incluyen referencias a otros metadatosImportante
RDA-I3-01DLos datos incluyen referencias a otros metadatosÚtil
RDA-I3-02MLos metadatos incluyen referencias a otros datosÚtil

La evaluación de cada indicador se lleva a cabo estableciendo cinco niveles de cumplimiento de los principios:

  • 0, no aplicable
  • 1, aún no se está considerando
  • 2, en estudio o en fase de planificación
  • 3, en fase de implementación
  • 4, totalmente implementado

Se ofrece la posibilidad de «descartar un indicador«, ya que este podría no ser relevante para una comunidad concreta. La razón de ser de este enfoque es dar crédito a la evolución y ayudar a mejorar la gestión de datos. Este enfoque puede ser muy útil para los proveedores y editores de datos que quieran hacer una prueba de autoevaluación y tener una idea más clara de dónde concentrar los esfuerzos para que sus conjuntos de datos satisfagan mejor los principios FAIR.

Como ejemplos de aplicación disponemos del caso de la Agencia Europea de Medio Ambiente (EEA) que ha utilizado el modelo para mejorar la calidad de sus datos alcanzando el nivel 2 de madurez (camino del siguiente nivel). La Universidad de California, Berkeley ha utilizado el modelo para mejorar la calidad de sus datos de investigación, alcanzando el mismo nivel de cumplimiento. Google ha utilizado el modelo para mejorar la calidad de sus datos de investigación llegando al nivel 3 de madurez.