Cláudia Sofia Teixeira dos Santos presentó en enero de 2023 en la Universidade do Minho su tesis de máster ‘OGD Lens: avaliação automática da qualidade dos dados do European Data Portal’ sobre la evaluación de la calidad de los conjuntos de datos publicados en el portal de datos abiertos de la Unión Europea (sitio web aloja más de millón y medio de conjuntos de datos y 179 catálogos de datos puestos a disposición de la ciudadanía) para proporcionar una guía de mejora de su calidad. Para poder medir esa calidad desarrolló una metodología basada een los siguientes criterios:
Facilidad de uso con la que los usuarios pueden acceder a los datos y utilizarlos para fines de investigación.
La disponibilidad de los datos en un formato estándar y abierto y la accesibilidad de los conjuntos de datos a través de un repositorio en línea o una página web.
Calidad técnica: la precisión, integridad y consistencia de los datos.
Documentación: la información proporcionada junto con los datos, como la descripción de la fuente de los datos, las limitaciones de uso y la frecuencia de actualización.
Legalidad: la conformidad de los datos con las leyes de privacidad y derechos de autor.
Los metadatos empleados para describir los conjuntos de datos representan una valiosa fuente de información para satisfacer estos niveles de calidad. Por ello, la investigadora llevó a cabo un estudio empírico desarrollando un analizador semiautomático de evaluación de la información aportada por los metadatos en una serie de conjuntos de datos publicados. Los resultados obtenidos mostraron que la calidad de esos conjuntos varía significativamente. En líneas generales tienen una buena facilidad de uso, pero la calidad técnica, la documentación y la legalidad son aspectos que presentan deficiencias significativas.
En cuanto a la facilidad de uso, se dispone de buena información para el acceso a los datos y cómo reutilizarlos. En cambio, en cuanto a la calidad técnica, en muchos conjuntos de datos se carece de información sobre la fuente, las limitaciones de uso y la frecuencia de actualización. En lo relativo a la legalidad, muchos conjuntos no proporcionan información sobre los derechos de autor y la privacidad, lo que puede derivar en un uso inadecuado de los datos.
En este estudio se analizó la calidad de los catálogos y de los conjuntos de datos. Un catálogo de datos es un repositorio que contiene información detallada de los conjuntos de datos disponibles en una organización. Ofrece metadatos sobre los conjuntos de datos: descripción, origen, estructura, formatos, licencias, fechas de actualización. etc. También puede proporcionar información sobre cómo acceder y utilizarlos.
Y asoció a cada buena práctica la serie de beneficios que se derivaban de su uso. En la siguiente imagen podemos ver un fragmento de la tabla que construyó que afecta a las cinco primeras.
BP 4: Proporcionar información sobre la licencia de los datos
Reusabilidad Confiabilidad
BP 5: Proporcionar información sobre la procedencia de los datos
Reusabilidad Confiabilidad
Asociación de las DWBP (1 a 5) con sus beneficios de uso (Teixeira dos Santos, 2023, 26-27).
Nosotros hemos sintetizado esa vinculación en la siguiente tabla que nos permite concluir que la reusabilidad es el beneficio (y principio FAIR)l que agrupa a un número mayor de buenas prácticas seguido de la confianza.
El World Wide Consortium (W3C) publicó en 2017 el documento ‘Data on the Web Best Practices: W3C Recommendation‘ (DWBP), una detallada guía para el diseño, publicación y uso de datos enlazados en la web, con el objeto de promover su accesibilidad, interoperabilidad y reutilización.
Este documento proporciona orientación a los editores de datos en línea sobre cómo representarlos y compartirlos en un formato estándar y accesible. Las prácticas se han desarrollado para fomentar y permitir la expansión continua de la web como medio para el intercambio de datos. El documento menciona el crecimiento en la publicación de datos abiertos por parte de los gobiernos en todo el mundo, la publicación en línea de los datos de investigación, la recolección y análisis de datos de redes sociales, la presencia de importantes colecciones de patrimonio cultural y, en general, el crecimiento sostenido de los datos abiertos en la nube, destacando la necesidad de una comprensión común entre editores y consumidores de datos, junto con la necesidad de mejorar la consistencia en el manejo de los datos.
Estas buenas prácticas cubren diferentes aspectos relacionados con la publicación y el consumo de datos, como son los formatos, el acceso, los identificadores y la gestión de los metadatos. Con el fin de delimitar el alcance y obtener las características necesarias para implementarlas, se recopilaron casos de uso que representan escenarios de cómo se publican habitualmente estos datos y cómo se utilizan. El conjunto de requisitos derivados de esta recopilación se utilizó para guiar el desarrollo de las DWBP, independientes del dominio y la aplicación. Estas recomendaciones pueden ampliarse o complementarse con otros documentos de similar naturaleza. Si bien las DWBP recomiendan usar datos enlazados, también promueven el empleo de otros formatos abiertos como son CSV o json, maximizando más si cabe el potencial de este contexto para establecer vínculos.
CATEGORÍA
BUENA PRÁCTICA
Metadatos Requisito fundamental. Los datos no podrán ser descubiertos o reutilizados por nadie más que el editor si no se proporcionan metadatos suficientes.
BP 1: Proporcionar metadatos BP 2: Proporcionar metadatos descriptivos BP 3: Proporcionar metadatos estructurales
Licencias Según el tipo de licencia adoptada por el editor, puede haber más o menos restricciones a la hora de compartir y reutilizar los datos.
BP 4: Proporcionar información sobre la licencia de los datos
Procedencia El reto de publicar datos en la web es proporcionar un nivel adecuado de detalle sobre su origen.
BP 5: Proporcionar información sobre la procedencia de los datos
Calidad Puede tener un gran impacto en la calidad de las aplicaciones que utilizan un conjunto de datos.
BP 6: Proporcionar información sobre la calidad de los datos
Versiones Los conjuntos de datos pueden cambiar con el tiempo. Algunos tienen previsto ese cambio y otros se modifican a medida que las mejoras en la recogida de datos hacen que merezca la pena actualizarlos.
BP 7: Proporcionar un indicador de versión BP 8: Proporcionar el historial de versiones
Identificadores El descubrimiento, uso y citación de datos en la web depende fundamentalmente del uso de URI HTTP (o HTTPS): identificadores únicos globales.
BP 9: Utilizar URIs persistentes como identificadores de conjuntos de datos BP 10: Utilizar URIs persistentes como identificadores dentro de conjuntos de datos BP 11: Asignar URIs a versiones y series de conjuntos de datos
Formatos El mejor y más flexible mecanismo de acceso del mundo carece de sentido si no se sirven los datos en formatos que permitan su uso y reutilización.
BP 12: Utilizar formatos de datos estandarizados legibles por máquina BP 13: Utilizar representaciones de datos neutras respecto a la localización BP 14: Proporcionar datos en múltiples formatos
Vocabularios Se utiliza para clasificar los términos que pueden utilizarse en una aplicación concreta, caracterizar las posibles relaciones y definir las posibles restricciones en su uso.
BP 15: Reutilizar vocabularios, preferentemente estandarizados BP 16: Elegir el nivel adecuado de formalización
Acceso a los datos Facilitar el acceso a los datos permite tanto a las personas como a las máquinas aprovechar las ventajas de compartir datos utilizando la infraestructura de la red.
BP 17: Proporcionar descarga masiva BP 18: Proporcionar subconjuntos para conjuntos de datos grandes BP 19: Utilizar negociación de contenidos para servir datos disponibles en múltiples formatos BP 20: Proporcionar acceso en tiempo real BP 21: Proporcionar datos actualizados BP 22: Proporcionar una explicación para datos que no están disponibles BP 23: Hacer datos disponibles a través de una API BP 24: Utilizar estándares web como base de las APIs BP 25: Proporcionar documentación completa para su API BP 26: Evitar cambios que rompan su API
Preservación Las medidas deben tomar los editores para indicar que los datos se han eliminado o archivado.
BP 27: Preservar identificadores BP 28: Evaluar la cobertura del conjunto de datos
Retroalimentación (‘feedback’) Ayuda a los editores en la mejora de la integridad de los datos, además de fomentar la publicación de nuevos datos. Permite a los consumidores de datos tener voz describiendo experiencias de uso.
BP 29: Recopilar comentarios de los consumidores de datos BP 30: Hacer comentarios disponibles
Enriquecimiento Procesos que pueden utilizarse para mejorar, perfeccionar los datos brutos o previamente procesados. Esta idea y otros conceptos similares contribuyen a hacer de los datos un activo valioso para casi cualquier negocio o empresa moderna.
BP 31: Enriquecer datos generando nuevos datos BP 32: Proporcionar presentaciones complementarias
Republicación Combinar datos existentes con otros conjuntos de datos, crear aplicaciones web o visualizaciones, o reempaquetar los datos en una nueva forma.
BP 33: Proporcionar comentarios al editor original BP 34: Seguir los términos de la licencia BP 35: Citar la publicación original
Resumen de las Data Web Best Practices del W3C
Beneficios e incovenientes de las DWBP
Como podemos ver, se trata de unas pautas que precisan de cierto volumen de trabajo y muchas han de ser aplicadas por personas con mucha experiencia. A continuación, resumimos los beneficios y los (posibles) inconvientes de las mismas.
Beneficios:
Interoperabilidad: Las prácticas están diseñadas para asegurar que los datos publicados sean comprensibles y accesibles para una amplia variedad de aplicaciones y sistemas. Esto facilita la integración y el intercambio de datos entre organizaciones y plataformas.
Reutilización: Si se siguen las buenas prácticas, los datos se estructuran coherentemente y se proporcionan metadatos claros. Esto facilita la reutilización de los datos por parte de otros usuarios y organizaciones para crear nuevas aplicaciones, servicios o análisis. Esto fomenta la innovación y la creación de valor.
Calidad de los datos: Las buenas prácticas promueven la calidad de los datos al definir estándares para la representación y la semántica de los datos. Esto reduce los errores y las ambigüedades en los datos publicados, mejorando la confiabilidad y la precisión de la información.
Accesibilidad: Un seguimiento de las buenas prácticas asegura que los datos estén disponibles y sean accesibles para un público amplio, incluyendo personas con discapacidades. Esto promueve la inclusión y garantiza que los datos estén disponibles para todos los usuarios, independientemente de sus necesidades.
Indexación y búsqueda: Los motores de búsqueda comprenden mejor e indexan más eficazmente los datos que siguen las DWBP. Esto mejora su encontrabilidad, aumentando la visibilidad de los datos en los resultados, lo que aumenta su alcance y utilidad.
Transparencia: Publicar datos según estándares abiertos y transparentes, se promueve la transparencia y la rendición de cuentas. Esto es especialmente importante en los datos de las administraciones públicas y también en datos científicos, donde la accesibilidad a los conjuntos de datos es esencial para la toma de decisiones informadas y la supervisión.
Facilita la colaboración: Estas buenas prácticas fomentan la colaboración entre organizaciones y comunidades al proporcionar un marco común para compartir datos. Esto es especialmente útil en proyectos de colaboración donde múltiples partes necesitan compartir y trabajar con datos de manera eficiente.
Posibles inconvenientes
Coste: Implementar las DWBP puede requerir inversiones significativas en recursos humanos y tecnológicos, lo que es un problema para organizaciones con presupuestos limitados.
Complejidad: Algunas de las mejores prácticas del W3C resultan técnicamente complejas de implementar, especialmente para personas u organizaciones sin experiencia previa en estándares web y tecnologías relacionadas.
Cumplimiento: Asegurarse de cumplir con todas las directrices y recomendaciones puede ser un desafío, y el incumplimiento podría afectar la efectividad de la publicación de datos.
Adopción: No todas las organizaciones y comunidades pueden estar dispuestas o capacitadas para adoptar estas prácticas de inmediato. Esto puede limitar la interoperabilidad y la reutilización de datos.
Seguridad y privacidad: La publicación de datos ha de hacerse con precaución para evitar la divulgación de información sensible o privada. El cumplimiento de las normativas de protección de datos es esencial y requiere un esfuerzo adicional.
Actualización continua: Mantener los datos actualizados y en conformidad con las buenas prácticas puede ser un verdadero desafío a largo plazo. Esto va a precisar de dedicación y recursos continuos.
En resumen, publicar datos siguiendo las Data Web Best Practices del W3C ofrece numerosos beneficios en términos de interoperabilidad, reutilización de datos, calidad de datos, accesibilidad y transparencia. Sin embargo, también conlleva inconvenientes relacionados con el costo, la complejidad, el cumplimiento, la adopción, la seguridad y la privacidad, así como la necesidad de mantener los datos actualizados. Seguir estas mejores prácticas va a depender de los objetivos y recursos de la organización y de su compromiso con la calidad y la accesibilidad de los datos a publicar.
En otras entradas seguiremos hablando de buenas prácticas y conjuntos de datos, algo preciso para llegar a la Ciencia Abierta.
Un ‘data steward‘ es un perfil profesional de una organización cuya tarea principal es garantizar la calidad, disponibilidad, seguridad y usabilidad de los conjuntos de datos producidos o gestionados.
Esta función es esencial en el marco de la gestión de datos empresariales (Enterprise Data Management, EDM), especialmente en una era tan digitalizada como la nuestra, en la que los datos se consideran un activo vital para muchas organizaciones. Entre las tareas y responsabilidades específicas de estos profesionales destacan:
Garantizar la calidad de los datos: asegurar que sean precisos, consistentes, completos y estén actualizados. Esto puede implicar la validación de la entrada de datos, la resolución de discrepancias y la implementación de protocolos para eliminar datos duplicados o irrelevantes.
Gobernanza de datos: consiste en implementar y supervisar políticas y procedimientos que garanticen la correcta gestión de los datos. Esto puede incluir estándares de nomenclatura, estructuras de clasificación y reglas de retención de datos.
Seguridad: trabajar junto con el equipo de seguridad para proteger los datos de accesos no autorizados o violaciones de datos. Esto puede incluir la garantía de cumplimiento de las leyes y de las regulaciones de privacidad y protección de datos.
Facilitar el acceso a los datos: el administrador de datos puede trabajar para garantizar que estos sean fácilmente accesibles para los usuarios autorizados dentro de la organización, y que se utilicen de manera efectiva para tomar decisiones empresariales.
Educación y soporte: los administradores de datos pueden ser responsables de formar a otros miembros de la organización en la importancia de la gestión de datos, cómo acceder y usar los datos correctamente, y la importancia de mantener la calidad y seguridad de los datos.
Las personas encargadas de estas tareas suelen tener fuertes habilidades en análisis y gestión de datos, así como un profundo conocimiento de las leyes y regulaciones que se aplican a los datos en su industria. También deben tener habilidades de comunicación sólidas para trabajar con otros departamentos y ayudar a fomentar una cultura de gestión de datos eficaz en toda la organización. Algo más cercanos a las organizaciones de investigación aparece el perfil profesional ‘data research analyst‘ (analista de investigación de datos), función que si bien es diferente de la anterior. también es crucial en el manejo y análisis de información en una organización.
Similitudes y diferencias
Como perfiles diferentes que son, comparten algunas similitudes y presentan diferencias importantes en cuanto a sus responsabilidades y enfoques.
Similitudes:
Uso y manejo de datos: en ambos perfiles profesionales se trabaja intensivamente con datos. Los profesionales deben ser competentes en la interpretación de datos, la identificación de patrones y tendencias y tener una comprensión sólida de las herramientas y sistemas de manejo de datos.
Importancia de la calidad de los datos: los dos roles comprenden la importancia de la calidad de los datos para obtener resultados precisos. Por lo tanto, pueden involucrarse en actividades para garantizar que los datos sean precisos, completos y actualizados.
Colaboración interdepartamental: ambos roles a menudo trabajan en colaboración con otros departamentos para garantizar que los datos se utilicen efectivamente en toda la organización.
Diferencias:
Enfoque principal: un administrador de datos se centra más en la gestión y gobernanza de los datos, asegurando su calidad, disponibilidad, seguridad y cumplimiento con las regulaciones. Un analista de investigación enfoca su interés más hacia el análisis de los datos, utilizando técnicas estadísticas y algoritmos para extraer ‘insights‘ (revelaciones o descubrimientos que proporcionan una nueva comprensión sobre un fenómeno o problema) que pueden ayudar en la toma de decisiones.
Uso de datos: mientras un administrador de datos está más preocupado por cómo se almacenan, se protegen y se accede a los mismos, un analista de investigación está más preocupado por cómo se pueden utilizar para generar valor para la organización.
Responsabilidades: el administrador de datos se involucrado más en profundidad con el establecimiento de políticas y estándares, con asegurar la seguridad de los datos y garantizar el cumplimiento con las regulaciones. Un investigador de datos se centra más en recoger, procesar y realizar un análisis detallado de los datos para apoyar los objetivos de la organización.
Es importante recordar que, aunque estos perfiles profesionales pueden tener responsabilidades diferentes, pueden llegar a trabajar en estrecha colaboración para garantizar que los datos se manejen de manera efectiva y se utilicen para impulsar el éxito de las organizaciones, especialmente aquellas que generen datos que puedan ser base de investigaciones que no todas tienen que ser fruto de trabajo en laboratorio (datos de tráfico, de logística empresarial, de precipitaciones de lluvia, etc.).
Necesidades formativas
La formación necesaria para convertirse en un administrador o en un analista investigador puede variar según las necesidades específicas de cada sector en general y de cada organización en particular. Sin embargo, en términos generales, podemos atrevernos a establecer algunos ámbitos de estudio y un conjunto de habilidades relevantes que estos profesionales van a necesitar:
Administrador de datos:
Educación: está bien contar con un título en Informática, Estadística, Ingeniería de Datos, Ciencia de Datos o de Gestión de la Información. Estos títulos proporcionan una base sólida para este desempeño. En algunos casos puede ser interesante combinar un grado en una de esas disciplinas con un máster más especializado.
Habilidades técnicas: una comprensión sólida del paradigma de las bases de datos relaciones. dominio del lenguaje SQL y de otras herramientas de gestión de datos es esencial. El conocimiento de la arquitectura de datos también puede ser interesante.
Conocimiento de la gobernanza de datos: lo que representa entender las políticas, procedimientos, estándares y regulaciones que se aplican a la gestión de datos.
Conocimiento de la seguridad de datos: esto incluye conocer las mejores prácticas para proteger los datos y mantener su privacidad, así como las leyes y regulaciones de protección de datos aplicables en cada caso.
`Soft skills‘: las habilidades de comunicación son vitales para trabajar con otros departamentos y promover una cultura de gestión de datos efectiva. Las habilidades de gestión de proyectos también pueden ser útiles.
Data Research Analyst:
Educación: un título en Estadística, Matemáticas, Economía, Ciencia de Datos, o un campo relacionado sería lo más apropiado. Combinar grados genéricos con máster especializados también es una opción.
Habilidades técnicas: son esenciales la programación informática en Python o R (por ejemplo), el análisis de datos, y el dominio de técnicas estadísticas. También es útil tener experiencia con las herramientas de visualización de datos y software de análisis de datos (Tableau o SPSS por ejemplo).
Habilidades de investigación: estas incluyen la capacidad de formular preguntas de investigación, diseñar estudios, recoger y analizar datos, y presentar los resultados de una manera clara y comprensible.
‘Soft skills’: también son importantes las habilidades de comunicación para presentar hallazgos y trabajar con otros equipos. La capacidad de pensar críticamente y resolver problemas también es esencial.
Ambos roles podrían beneficiarse de la formación continua y la certificación en herramientas y técnicas específicas de gestión y análisis de datos.
En 2019 publiqué la primera versión de este ‘post’ en el que recogía la tabla con datos estadísticos que les muestro curso a curso a mis estudiantes de la asignatura «Construcción de Servicios de Información Digital» (4º curso del Grado de Información y Documentación de la Universidad de Murcia y PCEO con Periodismo). En esa tabla recojo las estadísticas que recopilan en la web w3techs.com sobre el uso de los CMS. Basta mirar la imagen para comprobar que wordpress, en esa época, era el campeón de la competición y amenazaba con quedarse con todos los trozos del pastel.
Lo cierto es que he seguido haciendo esa presentación y la he expandido al nuevo grado, el de Gestión de Información y Contenidos Digitales porque en el mismo imparto la asignatura «Sistemas de Gestión de Contenidos» y hoy publico la versión actualizada de esta tabla (que tengo que ir pensando en rediseñar porque me queda poco espacio).
En la que se observa que el papel predominante de wordpress dentro de los CMS sigue vigente, si bien ha bajado un poco en los últimos dos años, al igual que lo han hecho los gestores clásicos como drupal o joomla, cuya presencia reducida de un 4% va camino de convertirse en residual (menos de un 1%).
Portada de una edición de «El señor de los anillos».
Al pie de ambas imágenes aparece un comentario que considero importante. Llama mucho la atención que aún un 31% de los sitios web visitados en la encuesta no usen todavía un CMS. Esto, hoy e día, es como querer escribir «El señor de los anillos» con pluma estilográfica. No obstante, cada vez son menos estos sitios gestionados de forma manual o desconocida, han pasado en 8 años de un 57,3% a un 31%).
De los dos tercios de sitios web que usan CMS, wordpress está presente en el 63,2% de los casos. Han ganado algo de presencia gestores de comercio electrónico (shopify en concreto, casi un 6%) y gestores que permiten construir webs de forma sencilla, dando alojamiento y registro de dominios (wix, sobre un 3%). El predominio, si bien algo estabilizado en su crecimiento es absoluto. Todos los demás gestores van camino de la irrelevancia
También anualmente actualizo la gráfica de búsquedas realizadas en todo el mundo en Google utilizando los nombres de los principales CMS. Esta información la obtenemos de Google Trends
Sin necesidad de comparar datos, la gráfica certifica el predominio de wordpress, si bien se observa también el auge del interés por los gestores «emergentes«, como es el caso de shopify.