web

La web: motor del cambio

las primeras web

Cuando Berners-Lee volvió al CERN el uso de la propia red internet había cambiado: “el mundo había cambiado. La internet, aunque todavía desconocida para gran parte del público, estaba ahora firmemente arraigada. Era esencialmente una escueta infraestructura, un enrejado de tubos vacíos. Había formas de recuperar los datos, pero no existían maneras muy fáciles para llevarlo a cabo, y ciertamente, no había nada y nada con la estructura intuitiva y neuronal estructura del hipertexto” (Wright, 1997).

La propuesta de solución de hipertexto para la gestión de información prosperó. La misma conllevó la creación de la web. Para ello, Berners-Lee no se anduvo con medias tintas planteando propuestas teóricas pendientes de implantación posterior, todo lo contrario, buscó una solución a partir de nuevos desarrollos y adaptaciones de algunas aportaciones anteriores. Así, desarrolló el protocolo ligero de comunicaciones que permite llevar a cabo la navegación por la web – http – y desarrolló el lenguaje HTML de marcado que permite elaborar páginas. A estas dos propuestas unió las soluciones informáticas para el soporte (servidor web), para la navegación (cliente web o navegadore), y la edición de textos en HTML. Con ello se puso en marcha el sistema de información que todo lo revolucionó.

fragmento de la primera página web de la historia
Vista parcial de la primera página web en el CERN (sigue activa en https://info.cern.ch/hypertext/WWW/TheProject.html).

Siendo, sin duda alguna, la mayor creación tecnológica jamás desarrollada en nuestro campo desde la creación de internet, su importancia queda algo reducida si la comparamos con el resultado unos años después: un orbe infinito de información de acceso libre y universal (sin limitaciones en lo geográfico como en las posibles discapacidades personales o tecnológicas, al menos al principio, hasta que muchos intereses espúreos se hicieron presentes en la web).

infografía que ilustra el concepto de nativo digital, uno joven dentro de un móvil

Si alguna vez, Berners-Lee fue consciente de la grandiosidad de su invento sólo él lo sabe, y sólo a él, en justicia cabe preguntarle, los demás sólo podemos elucubrar al respecto. Lo que sí es cierto es el hecho irrefutable de que la web y sus tecnologías asociadas forman parte del modo de vida cotidiano de todos nosotros. De hecho, quienes han nacido este siglo (y en los últimos años del anterior), los llamados “nativos digitales”, no conciben la vida sin su existencia, especialmente desde la popularización del uso de aplicaciones como el correo electrónico outlook o los motores de búsqueda Google o Yahoo! (por citar algunas de las tecnologías más clásicas), o la mensajería por Whatsapp o el intercambio de fotos, opiniones y comentarios en la red de microblogging Twitter (ahora X).

Vista de un sistema de información Gopher con interface web y vista original.
Vista de un sistema de información Gopher con interface web y vista original.

La implantación de la web fue meteórica. En pocos meses había ocupado el espacio que había ocupado Gopher, sistema de información en formato de tablero electrónico (parecido al teletexto de la televisión) muy popular entre las comunidades universitarias que permitió plasmar en la red dos ideas importantes: (1) la interconexión de servidores (a modo de enlace) y (2) la interoperabilidad con aplicaciones a las que se accedía por acceso remoto o telnet, como era el caso de los primeros módulos de consulta en línea de catálogos de bibliotecas (OPACs). Hacia 1995 existían en internet más de dos millones de servidores basados en esta tecnología que fueron rápidamente sustituidos por la web por la mejor experiencia de usuario y la multitud de ventajas aportadas por la web, convirtiendo el uso de esta aplicación en un recuerdo casi romántico en la mente de aquellos que la llegamos a manipular. Sobre Gopher se construyó la primera Hytelnet que interconectaba los catálogos de las bibliotecas (luego se implementó en la web).

Hytelnet and telnet access

Leonard Kleinrock, uno de los inventores de internet, comentó en una entrevista hace unos años que lo más le gustaba de su invento era el hecho de “haber estado allí«. A un nivel infinitamente menor de relevancia y desde la perspectiva de un humilde profesor, muchos profesores de Tecnologías de la Información y Documentación Automatizada en los estudios de Biblioteconomía y Documentación en España tenían que utilizar diapositivas o versiones de demostración para simular a los alumnos la recuperación de información online en bases de datos bibliográficas (Medline, ERIC o Lisa por ejemplo) porque no podíamos asumir los costes de la conexión telefónica. Conectar las universidades a internet de y la creación de la web acercó a los profesores y estudiantes a una industria de la información hasta entonces prácticamente inaccesible. Estos profesores y estudiantes pudieron, de una manera humilde obviamente, colaborar en el desarrollo de este nuevo entorno que además ayudó a aumentar el conocimiento de la tecnología que lo sustentaba. De hecho, la creación de la web coincidió con la mejora y liberalización del acceso a la internet en muchos lugares del mundo, por lo que en el imaginario colectivo de buena parte de los ciudadanos reside la idea de que la web trajo la internet a nuestra vida, algo que tiene algo de cierto, incluso puede ser que mucho pero que no es así del todo.

Y por una vez, que no la única afortunadamente (véase el tremendo empujón que los investigadores del mundo llevaron a cabo para diseñar vacunas contra la COVID-19), acompañando a profesores e investigadores en el descubrimiento de los posibles usos y aplicaciones de la web ahí estaban también los profesionales de la información, participando en su desarrollo, no dejándolo (como ocurre con otras tecnologías) en las manos exclusivas de los informáticos.

Página principal de la Universidad de Murcia más antigua conservada en la web Wayback Machine. Octubre de 1997.
Página web más antigua de la Universidad de Murcia conservada en Wayback Machine (12-10-1997).

Y con ello comenzaron a publicarse las primeras páginas web – la mayoría con un diseño manifiestamente mejorable como la que hicimos en la Universidad de Murcia – y se comenzó a dar forma a los primeros sitios web para, poco a poco, conseguir la integración de la información con servicios y aplicaciones en el formato de portal web (López Carreño, 2004). Todo esto no fue flor de un día, sino que precisó de algunos años para su consolidación y desarrollo, período de tiempo que, obviamente, no resultó igualitario entre países y organizaciones. En esa primera etapa se trataba de una web de un sólo sentido: desde el editor (autor) al usuario (lector). Al principio no había retroalimentación ni interactividad alguna, algo que hoy en día parece imposible de concebir para muchos. En estos primigenios sitios web – la ahora llamada “Web 1.0” – solía incluirse una página con enlaces a un conjunto de otras páginas que el autor consideraba interesantes para sus lectores a modo de miscelánea. Esta acción no era otra cosa que la traslación del muy tradicional servicio de referencia que desde tiempos inmemoriales llevan a cabo los profesionales de la información en las bibliotecas y constituyó el germen para el desarrollo de los primeros sistemas de recuperación de información en la web: los índices o directorios, sistemas de los cuales Yahoo! fue durante un tiempo el mejor ejemplo. Los directorios, como todos recordarán son un producto documental considerado una fuente de información de carácter secundario porque dirige a la fuente original, justo lo que hacían y actualmente hacen estos sistemas de recuperación. Una actividad de gestión de información vuelve a confluir con la tecnología de la web.

pantalla principal de Yahoo Search cuando era un directorio en los años 90
Pantalla de inicio de Yahoo Search cuando era un directorio.

El tremendo crecimiento de la edición y publicación de contenidos en la web, hizo muy pronto imposible la gestión manual de estos directorios que sólo alcanzaban a realizar una revisión muy superficial de lo publicado. Esto llevó al desarrollo de los motores de búsqueda, sistemas que alimentan sus bases de datos a partir de la ejecución de unos programas de rastreo (‘crawlers‘) que recopilan direcciones de páginas a partir de los enlaces insertos en las mismas y las indexan de forma automática llevando a cabo una revisión mucho más profunda de lo publicado y de los cambios producidos en los documentos ya recopilados anteriormente. Altavista, Lycos y AlltheWeb fueron algunos de estos sistemas y representaron una innovación de gran impacto en su momento, por primera vez se podía acceder a grandes cantidades de documentos con sólo introducir unas pocas palabras en la ecuación de búsqueda sin necesidad de tener apenas que estudiar el lenguaje de recuperación de información.

Página principal del motor Altavista hacia 1999, cuando todo comenzó a cambiar.
Página principal del motor Altavista hacia 1999.

El hipertexto como una solución de gestión de información

esquema de un hipertexto

El final de la II Guerra Mundial trajo consigo la constatación de que los sistemas de información existentes en esa época no iba a ser capaces de clasificar y organizar debidamente las ingentes cantidades de información que ya entonces comenzaban a manipularse, conjuntos de documentos que, de forma incipiente, comenzaban a no estar siempre en formato textual, incorporando otros tipos de media: gráficos, sonidos, planos de diseños, mapas, fotografías, etc. Fueron varios millones de documentos microfilmados por las tropas norteamericanas en archivos e industrias alemanas que fueron puestos a disposición de los gestores de información de entoces, que verificaron, al aplicar sobre ellos los sistemas de clasificación e indización de la época, su inutilidad.

Portada de la novela "El buen alemán" de Joseph Kanon

Esta realidad ha llamado la atención para el cine y la literatura, especialmente en la novela de Joseph KanonEl buen alemán”, resultando ser el inicio de la llamada “guerra fría” entre las dos grandes potencias de entonces (Estados Unidos y la Unión Soviética) por la posesión de los preciados proyectos de ingeniería y de ciencia que se habían desarrollado en la Alemania de principios de siglo XX.

De esta stituación de crisis surge la idea de disponer de otra manera de organizar estos fondos documentales por medio de unos sistemas que permitieran la colaboración de los gestores, facilitando la asociación de ideas y conceptos, y permitiendo adquirir el conocimiento de forma no estrictamente secuencial.

Vannevar Bush, asesor científico del Presidente Franklin Delano Roosevelt y pionero del concepto del hipertexto.

Vannevar Bush, asesor científico del Presidente Franklin Delano Roosevelt, planteó esas necesidades de una nueva solución para la gestión de la información en su artículo ‘As we may think‘ y llegó a pensar en la construcción de una máquina llamada ‘Memex’ (para algunos autores es el acrónimo de Memory – Index, probablemente por similitud a ‘Rolodex’ (Rolling – Index), un dispositivo para almacenamiento y búsqueda de información en fichas muy popular en esa época).

Esta máquina fue concebida como una gran base de datos donde se almacenarían todo tipo de documentos y constaría de una mesa con un teclado y unas palancas que permitirían la consulta de datos almacenados en microfilms que serían proyectados en unas pantallas translúcidas.

Reconstrucción de Memex, la máquina ideada por Bush que nunca llegó a construirse.

Este aparato incluiría también una opción para que el usuario pudiera tomar anotaciones en los márgenes. De esta forma, el usuario lector podría convertirse también en usuario autor, algo verdaderamente innovador y que se pretendía conseguir casi setenta años antes que se fijaran las características de la Web 2.0 que tanta importancia confieren al doble sentido de la publicación en la web. ‘Memex‘ fue un proyecto teórico que nunca llegó a materializarse, la tecnología de la época no lo permitía. Lo que más subyace de los pensamientos de Bush es su idea de que algo nuevo había que hacer, porque seguir gestionando la información de la misma manera, difícilmente podría llevar a buen término esta tarea.

Diagrama de la arquitectura von Neumann
Arquitectura von Neumann

De forma contemporánea a estos planteamientos y circunstancias, se fue imponiendo paulatinamente la Arquitectura de Von Neumann en el diseño y construcción de las computadoras. Una máquina basada en esta arquitectura, al igual que los ordenadores modernos, debía disponer de cuatro componentes esenciales: dispositivo de operaciones, unidad de control, memoria y dispositivos de entrada y salida. Von Neumann, de origen austrohúngaro, había emigrado a EE.UU. antes del inicio de la II Guerra Mundial, era judío y tuvo que abandonar Europa.

Caricatura de Ted Nelson dentro su hipertexto.

Habrían de pasar varios años para que estas máquinas primigenias pudieran llevar a cabo estas tareas en la forma deseada. Uno de los autores más destacados de este campo, el científico norteamericano Ted H. Nelson, ha asistido prácticamente durante toda su vida al desarrollo de un sistema de información que él denominó “hipertexto” y que sería capaz de gestionar piezas (fragmentos) de información de forma que permitiera un aprendizaje de sus contenidos y una gestión de los mismos de forma no estrictamente secuencial, facilitando a sus usuarios la integración de cualquier pieza informativa en sus propios documentos, sin tener que copiar y pegar esa pieza porque se establecerían vínculos entre ellos pasando los documentos de los usuarios a formar parte de una red universal, un sistema imaginario donde residiría toda la información científica: Xanadú (nombre tomado de un poema de Samuel Taylor Coleridge. Nelson interpretó la palabra como «ese mágico sitio de la memoria literal donde nada se pierde nunca» (en el poema era el palacio de Kublai Khan).

reconstrucción figurada de la Biblioteca de Alejandría

Resulta curioso el paralelismo con el palacio del conocimiento que representó en la antigüedad la Biblioteca de Alejandría construida por orden de Ptolomeo I, rey de Egipto y antiguo general de Alejandro Magno.

Este proyecto tenía como objetivo principal la construcción de un servidor de hipertexto para almacenar y enlazar toda la literatura mundial, accesible desde cualquier ordenador. La idea era reunir toda la producción escrita existente y conectar unos textos con otros. Esos documentos estarían almacenados en ordenadores particulares y disponibles al mismo tiempo para el resto de los usuarios (como pasó con Napster y otras redes P2P) por medio de una dirección única para cada uno de ellos, del mismo modo que ahora un objeto publicado en la web tiene asociado un identificador único de documento URI/URL. Esto viene a ser una metáfora muy parecida a lo que Berners-Lee y otros “popes” de la internet han llamado recientemente ‘decentralized web

Representación del almacenamiento “xanalógico” de T.H. Nelson.
Representación del almacenamiento “xanalógico” de T.H. Nelson.

Esta idea también resultó irrealizable en los años 60 y resulta muy parecida a la web actual, aunque existe una importante diferencia: los documentos del hipertexto de Nelson se construirían en el momento de la consulta, en la edición el autor introduciría nuevos textos y enlaces a fragmentos de texto ya escritos por otros autores, la reconstrucción del documento para su lectura estaría garantizada por la técnica del almacenamiento “xanalógico”, técnica con la que el autor pretendía hacer viable su red (en aquella época los ordenadores apenas tenían memoria de almacenamiento disponible). Aunque los problemas de almacenamiento están superados en la actualidad, resulta curioso que esto no haya sido implementado en la web actual, donde abunda (mucho más de lo deseable), la copia de textos desde otros documentos originales. Por esta razón, desde un punto de vista conceptual, el hipertexto de Nelson aún no se ha desarrollado del todo y no es de extrañar la frustración que arrastra este autor por tener que ceder el protagonismo y reconocimiento de su idea a un joven (entonces) investigador británico que trabajaba becado en el Centro Europeo de Investigación Nuclear (CERN, hoy Organización Europea para la Investigación Nuclear) a principios de los años 90.

Cuando comenzó a popularizarse la tecnología de la web, algunos autores la presentaban como: ‘WWW, Xanadu at least‘, homenajeando de alguna manera a Nelson, si bien este reconocimiento no parece satisfacer del todo al autor quien ha reconocido públicamente que, si bien no puede negar el éxito y trascendencia de la web, este sistema aun no es un hipertexto completo en el sentido conceptual que él había imaginado, sino una “brillante simplificación”.

La web precisa de «constructores de puentes».

construyendo puentes en la web

Gerry MCGovern propone en un post de New Thinking que los diseñadores web adopten el rol de «constructores de puentes» entre las múltiples islas que se han desarrollado de forma paralela y alrededor de la Web en los últimos años. Estas islas a las que se refiere el autor son (en primera instancia): la arquitectura de información, la experiencia del usuario, la experiencia del cliente, el diseño e implementación de servicios, la gestión de contenidos Web, el diseño de páginas web y (en un plano algo más alejado pero relacionado igualmente): programación de software Web, el ‘branding’, el marketing y la optimización en motores de búsqueda (SEO).
Seguir leyendo…

Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet

La recuperación de información, como disciplina claramente diferenciada de la recuperación de datos, posee una naturaleza determinista que provoca ineludiblemente ciertas dosis de incertidumbre a la hora de realizar una operación de búsqueda. Es por ello que, desde el inicio del desarrollo de esta disciplina, ha sugerido una considerable cantidad de propuestas de medida de la efectividad del funcionamiento de los sistemas encargados de esta tarea: los sistemas de recuperación de información (SRI). La consolidación de la World Wide Web como ejemplo paradigmático del desarrollo de la Sociedad de la Información y del Conocimiento, y la continua multiplicación del número de documentos que en ella se publican cada día, propicia la creación de los sistemas de recuperación de información más avanzados, de mayor volumen de documentos gestionados y de mayor popularidad: los motores de búsqueda.
Seguir leyendo…

Tags, metadatos y el futuro.

Vuelvo a la carga con el tema de los metadatos. Ya prometí en su día «embeberme» de toda esa metacultura y convertirme en un defensor a ultranza de la misma, pero lo cierto es que estoy fracasando en el intento. Otro día podré contar una «meta-experiencia» que estamos «meta-viviendo» en estas fechas y lo cierto es que no es para repetirla, pero vamos en la vida todo es posible, así que a esperar. Pues bien, ahora más en serio, ayer en la web Google Dirson posteaban lo siguiente:

¿Seguirán funcionando los tags en un futuro?

«[05-12-2005] Muchos servicios que almacenan información de diferentes tipos, como Flickr (fotografías), Technorati (posts de blogs), ‘del.icio.us’ (enlaces) o YouTube (vídeos), utilizan los populares ‘tags’ (‘etiquetas’) para intentar ordenar los contenidos y conseguir que los elementos sean fácilmente localizables.

Por ejemplo, podemos encontrar fotos sobre Paris en Flickr (utilizando el tag ‘paris’), posts que hablen sobre la Xbox en Technorati (con el tag ‘xbox’), vídeos de skate en YouTube (tag ‘skateboard’), o incluso cuáles son los tags más populares en ‘del.icio.us’ que da una idea de qué temas interesan más en la WWW.

Sin embargo, ¿por qué deben los usuarios perder unos segundos escribiendo unas palabras sobre las que tratan sus contenidos? ¿Y si no las escriben todas? ¿Y si las escriben mal? Por ejemplo, si buscamos ‘surf’ en Flick, no aparecen muchas de las fotografías que se muestran si buscamos ‘surfers’, cuando la temática es la misma. La tecnología de los tags es similar a la que utilizaban aquellos ‘viejos buscadores’ que nos pedían que insertásemos «cinco palabras clave separadas por comas» cuando queríamos dar de alta nuestra URL.

¿No puede ser el propio servicio el que determine los temas que contiene la fotografía, vídeo, post, etc? Quizá nos falten algunos años de investigación tecnológica (ya hemos hablado sobre las búsquedas de ‘tercera generación’ o sobre herramientas como Riya que reconocen elementos dentro de las imágenes), pero -como dice John Battelle en este artículo- las tags no son el futuro.»

Imagino que la frase «las tags no son el futuro» quiere decir que los autores de las páginas web seguiremos sin hacer uso de las metaetiquetas, que los metadatos tendrán que formar parte de los recursos electrónicos en otra parte del documento y finalmente, que los metadatos por supuesto se generarán solitos ya que los autores no están muy «por perder unos segundos» de sus atareadas y globalizadas vidas.

Aunque el panorama es triste, peor lo pone la frase, porque si uno la lee del tirón y no reflexiona, puede llegar a pensar que no podremos implantar un metadato Dublin Core en las páginas web porque van a desaparecer las tags («etiquetas»). Con esa forma de expresión y con el contenido de la misma, no es de extrañar que los motores de búsquedas «pasen literalmente» de los metadatos.