Evolución de los SRI para Lesk

Lesk (1995) lleva a cabo una curiosa presentación de la evolución de la recuperación de la información considerándola como un ser humano que va atravesando diversos períodos de su existencia1:

  • El niño de la guardería (1945-1955): el niño nace con los planteamientos teóricos de Vannevar Bush (1945) - muchos de los cuales se han alcanzado posteriormente con la evolución de la tecnología - y los índices KWIC propuestos por Luhn, el precursor de la Indización Automática (Rijsbergen, 1999).
  • El niño del colegio (1960s): es la época cuando algunos de los principales SRI (Dialog y BRS por ejemplo) eran proyectos embrionarios. Al mismo tiempo, se desarrollan las primeras bases de datos de repertorios bibliográficos (Chemical Abstracts o ERIC por ejemplo). También en esa época tienen lugar los experimentos de Cleverdon en el Instituto Cranfield.

  1. ejemplo de índice KWIC
    ejemplo de índice KWIC ('Keyword in context')

 

  Imagen de un registro de la base de datos ERIC al principio
  Imagen de un registro de ejemplo de la base de datos ERIC de los años sesenta.
  • El adulto (1970s): Estos años en los que surge la "música glam" es cuando comienzan a tomar forma los primeros proyectos gracias al desarrollo de los periféricos de entrada de textos (teclados) que permitían construir grandes colecciones de textos mejor que los lectores de tarjetas perforadas. Otro factor clave es el procesamiento de datos en tiempo real. En esta época surge, aún de forma incipiente, OCLC el mayor recolector de información bibliográfica a nivel mundial y se desarrolla el formato MARC para la catalogación automatizada de las colecciones de fondos de las bibliotecas. También es cuando se funda NSF (‘National Science Fundation’) institución que tanta importancia va a tener en las décadas siguientes (entre otras cosas por su apoyo a internet). En esta época la comunidad de investigadores en recuperación de información coincide mucho con los dedicados a la Inteligencia Artificial. A nivel conceptual, el mayor avance lo constituye el modelo probabilístico de recuperación de información, introducido por Sparck-Jones y Robertson.

esquema de cómo se calcula el peso de un término de un documento en el modelo probabilístico
Esquema de cómo se calcula el peso de un término de un documento en el modelo probabilístico. Fuente: https://sites.google.com/site/modelosclasicosri/probabilistico 
  • El maduro (1980s): al mismo tiempo que aumentan las facilidades para la entrada de la información disminuye el coste de los dispositivos de almacenamiento, aunque este proceso tiene su culminación en la década siguiente. Especialmente destaca en estos años la expansión del CD-ROM que revolucionó la entonces incipiente industria de la información. De forma paralela a la distribución de información en este formato, asistimos al desarrollo de los primeros módulos de consulta de catálogos en línea (OPAC), que también alcanzan su plena expansión en la década siguiente gracias a la World Wide Web. En esta época se afianza la investigación en la producción de algoritmos eficientes para la recuperación de la información, correspondiendo a Croft y Fox los más conocidos. Pero si algo merece ser recordado de forma prioritaria en esta época es el modelo del espacio vectorial de Gerard Salton que ordena la respuesta de un SRI en función de relevancia de su contenido con la pregunta.

Esquema de la función de similitud del modelo del espacio del vector que permite la ordenación de la respuesta.
Esquema de la función de similitud del modelo del espacio del vector que permite la ordenación de la respuesta. Fuente: http://www.mblazquez.es/blog-ccdoc-recuperacion/formulas/formula07_similaridad-producto-escalar.png
  • La crisis de los cuarenta (1990s): para quien no haya llegado aún a esa edad sólo queda decirle que no es un mito, pero que se supera. En esta década, la criatura tiene ya 45 años aproximadamente y todavía parece  funcionar con el piloto automático, contentándose con los desarrollos del período anterior. Pero todo comienza a cambiar radicalmente en cuanto Tim Berners-Lee y Paul F. Kunz crean la WWW ('World Wide Web') en el CERN. Este entorno que para muchos representa la plasmación de los postulados de Vannevar Bush y es cuando cabe preguntarse si el niño ha alcanzado su meta. Desde este momento todo cambia, tanto a nivel del sector industrial (surgen Netscape, Yahoo!, Lycos, Altavista y finalmente, en 1999, nace Google) como en el número de usuarios de los sistemas de recuperación de información (su volumen crece de forma exponencial). WAIS se conviertenen el estándar de los sistemas de búsqueda en bases de datos en la web, surgen los primeros índices y motores de búsqueda de recursos en los servidores web y el protocolo Z39.50 se consolida como la base para el desarrollo de las OPAC. En esta época nace, se consolida y finalmente desaparece Hytelnet, plataforma integradora para la consulta de catálogos en línea de multitud de bibliotecas de todo el mundo. La crisis de los cuarenta se supera, fijo.

Tim Berners-Lee delante del ordenador NexT con el que construyó la web-
Tim Berners-Lee delante del ordenador NexT con el que construyó la web en el CERN.
  • El deber cumplido (2000s): tras llegar a satisfacer y mejorar gran parte de las ideas originarias de Bush, bien podría considerarse que la recuperación de información ha desarrollado con éxito su tarea y puede aspirar a un merecido descanso. Si bien esto pueda resultar apetecible, aún no es el momento. Si bien se han producido avances en el proceso y la recuperación de la información textual, aún se presentan muchos problemas en la Indización Automática y no digamos ya en el campo de la recuperación de información multimedia. También está por ver si los algoritmos y sistemas desarrollados en los años 80s y 90s pueden hacer frente a las grandes colecciones de documentos que se están construyendo. Finalmente, el sector industrial está haciendo grandes esfuerzos por trasladar el escritorio de trabajo de cada usuarios desde el ordenador personal hacia la "nube".

  • El retiro: si bien Lesk lo fijaba de manera muy optimista para el año 2010 no hemos tenido esa suerte (de hecho, hemos sobrevivido ya al 2020). El mismo podría resultar válido cuando todos los países del mundo posean un similar nivel en cuanto al desarrollo de los servicios y productos de la Sociedad de la Información. Aún queda mucho para ello (Lesk, 1995).

Logo que quiere representar a una persona dentro de la Sociedad de la Información

Los sistemas de recuperación de la información han evolucionado con el fin de adaptarse a este nuevo entorno, habiéndose llegado a desarrollar algunos de los sistemas más innovadores, al mismo tiempo que extensos, por no hablar de su popularidad, si bien aún no disponemos de metodologías suficientemente consolidadas que evalúen su efectividad. Esta evolución no es un proceso finalizado, sino más bien un proceso en realización, que lleva al establecimiento de nuevos términos, tales como WIS (‘web information systems’ o “sistemas de información basados en la tecnología web) destinados a integrarse plenamente con otros sistemas convencionales, llegando a ser más extendidos y de mayor influencia tanto en negocios como en la vida familiar” (Wan, 2001). El mejor ejemplo es Google, como empresa paradigma de este contexto social: el ecosistema digital.

Google apps: cuadro resumen con sus logos

Referencias.

Lesk, M. (1995). The seven ages of information retrieval.

Wang, S. ‘Toward a general model for web-based information systems’. International Journal of Information Management , 21, 2001. p. 385–396


 

Miniatura de un cartel que anuncia una representación teatral de la obra 'As you like it' de W. Shakespeare

1 Lesk toma como referencia un texto de la obra ‘As you like it’, Acto 2º, Escena 7ª, escrita por el dramaturgo inglés William Shakespeare hacia 1599. En esa obra, el melancólico Jacques, asistente del exiliado Duque Mayor, protagonista de la obra, compara la vida con una obra de teatro, coloca en el catálogo las siete etapas del crecimiento: infante, escolar, amante, soldado, justiciero, pantalonero y segunda niñez.

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer