Cláudia Sofia Teixeira dos Santos presentó en enero de 2023 en la Universidade do Minho su tesis de máster ‘OGD Lens: avaliação automática da qualidade dos dados do European Data Portal’ sobre la evaluación de la calidad de los conjuntos de datos publicados en el portal de datos abiertos de la Unión Europea (sitio web aloja más de millón y medio de conjuntos de datos y 179 catálogos de datos puestos a disposición de la ciudadanía) para proporcionar una guía de mejora de su calidad. Para poder medir esa calidad desarrolló una metodología basada een los siguientes criterios:
- Facilidad de uso con la que los usuarios pueden acceder a los datos y utilizarlos para fines de investigación.
- La disponibilidad de los datos en un formato estándar y abierto y la accesibilidad de los conjuntos de datos a través de un repositorio en línea o una página web.
- Calidad técnica: la precisión, integridad y consistencia de los datos.
- Documentación: la información proporcionada junto con los datos, como la descripción de la fuente de los datos, las limitaciones de uso y la frecuencia de actualización.
- Legalidad: la conformidad de los datos con las leyes de privacidad y derechos de autor.
Los metadatos empleados para describir los conjuntos de datos representan una valiosa fuente de información para satisfacer estos niveles de calidad. Por ello, la investigadora llevó a cabo un estudio empírico desarrollando un analizador semiautomático de evaluación de la información aportada por los metadatos en una serie de conjuntos de datos publicados. Los resultados obtenidos mostraron que la calidad de esos conjuntos varía significativamente. En líneas generales tienen una buena facilidad de uso, pero la calidad técnica, la documentación y la legalidad son aspectos que presentan deficiencias significativas.
En cuanto a la facilidad de uso, se dispone de buena información para el acceso a los datos y cómo reutilizarlos. En cambio, en cuanto a la calidad técnica, en muchos conjuntos de datos se carece de información sobre la fuente, las limitaciones de uso y la frecuencia de actualización. En lo relativo a la legalidad, muchos conjuntos no proporcionan información sobre los derechos de autor y la privacidad, lo que puede derivar en un uso inadecuado de los datos.
En este estudio se analizó la calidad de los catálogos y de los conjuntos de datos. Un catálogo de datos es un repositorio que contiene información detallada de los conjuntos de datos disponibles en una organización. Ofrece metadatos sobre los conjuntos de datos: descripción, origen, estructura, formatos, licencias, fechas de actualización. etc. También puede proporcionar información sobre cómo acceder y utilizarlos.
La autora consideró los beneficios derivados del uso de las buenas prácticas DWBP en la gestión de datos en la web que sintetiza Juan Antonio Pastor Sánchez en esta diapositiva.
Y asoció a cada buena práctica la serie de beneficios que se derivaban de su uso. En la siguiente imagen podemos ver un fragmento de la tabla que construyó que afecta a las cinco primeras.
Buena práctica | Beneficios |
BP 1: Proporcionar metadatos | Reusabilidad Comprensibilidad Descubribilidad Procesabilidad |
BP 2: Proporcionar metadatos descriptivos | Reusabilidad Comprensibilidad Descubribilidad |
BP 3: Proporcionar metadatos estructurales | Reusabilidad Comprensibilidad Procesabilidad |
BP 4: Proporcionar información sobre la licencia de los datos | Reusabilidad Confiabilidad |
BP 5: Proporcionar información sobre la procedencia de los datos | Reusabilidad Confiabilidad |
Nosotros hemos sintetizado esa vinculación en la siguiente tabla que nos permite concluir que la reusabilidad es el beneficio (y principio FAIR)l que agrupa a un número mayor de buenas prácticas seguido de la confianza.
Beneficio | Buenas prácticas |
Accesibilidad | BP17, BP18, BP19, BP20, BP21, BP23, BP24, BP32 |
Comprensión | BP1, BP2, BP3. BP13 , BP15, BP16, BP29, BP31, BP32, BP33 |
Conectividad | BP9, BP10, BP18, BP24 |
Confianza | BP4, BP5, BP6, BP7, BP8, BP11, BP15, BP22, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP34, BP35 |
Descubribilidad | BP1, BP2, BP9, BP10, BP11, BP24, BP35 |
Interoperabilidad | BP9, BP10, BP15, BP16, BP23, BP24, BP26, BP33 |
Procesabilidad | BP1, BP3, BP12, BP14, BP15, BP18, BP23, BP24, BP31 |
Reusabilidad | BP1, BP2, BP3, BP4, BP5, BV6, BP7, BP8, BP9, BP10, BP11, BP12, BP13, BP14, BP15, BP16, BP17, BP18, BP19, BP20, BP21, BP22, BP23, BP24, BP25, BP26, BP27, BP28, BP29, BP30, BP31, BP32, BP33, BP34, BP35 |