Hacia una definición de recuperación de la información.

Puede resultar cuando menos curioso que un concepto tan usado como "recuperación de información" presente una cierta problemática a la hora de establecer una definición que lo sitúe adecuadamente dentro del campo de las Ciencias de la Información, a causa de las distintas y divergentes perspectivas con las que este concepto ha sido analizado a lo largo del tiempo.

Es el profesor C.J: ('Keith’) Rijsbergen quien mejor introduce este problema al considerar que “se trata de un término que suele ser definido en un sentido muy amplio” (Rijsbergen, 1999). Ha sido, en realidad, el profuso uso de este término lo que ha propiciado que el mismo no se utilice bien en muchas ocasiones, siendo el fallo más común presentarlo como sinónimo de la "recuperación de datos". En otros casos, encontramos autores que expresan las diferencias que, a su juicio, presentan ambos conceptos, con lo cual la definición de recuperación de información queda, en cierto modo, supeditada a la de recuperación de datos (se define a partir de diferencias más que aportar algo nuevo y característico). También encontramos definiciones muy genéricas, elaboradas de manera superficial sin entrar en mayores consideraciones sobre las diferencias. En último término, hay autores que pasan de largo, obviando el debate y profundizando más en la explicación de los (SRI).

El primer grupo de definiciones está influenciado por la tecnología informática, cuya evolución ha llevado a considerar sinónimos ambos conceptos, llegando a olvidar que se puede recuperar información sin recurrir a procedimientos informáticos (aunque evidentemente no es lo más común hoy en día). El frecuente y necesario empleo de una tecnología no debe sustituir el adecuado uso de los conceptos terminológicos. Un claro ejemplo de este desacierto es el Glosario de la Asociación de Bibliotecarios Americanos que define el término “information retrieval” como recuperación de la información en primera acepción y como recuperación de datos en una segunda (ALA, 1983), considerando los dos términos como sinónimos en lengua inglesa.. Igualmente, el Diccionario Mac Millan de Tecnología de la Información (1989) presenta la recuperación de información como “el conjunto de técnicas empleadas para almacenar y buscar grandes cantidades de datos y ponerlos a disposición de los usuarios”.

Un segundo grupo de autores establece algunas diferencias entre estos dos conceptos. Meadow (1992) afirma que la recuperación de la información es “una disciplina que involucra la localización de una determinada información dentro de un almacén de información o base de datos”, estableciendo implícitamente una asociación entre la recuperación de información y la idea de "selección" (la información específica ha de extraerse siguiendo algún tipo de criterio discriminatorio, selectivo por tanto). Pérez-Carballo (2000) redunda en esta tesis: “una típica tarea de la recuperación de información es traer documentos relevantes desde una gran archivo en respuesta a una pregunta formulada y ordenarlos de acuerdo con su relevancia”. Del mismo modo, Grossman y Frieder (1998) afirman que recuperar información es “encontrar documentos relevantes, no basta con encontrar simples correspondencias a unos patrones de bits”. En esta misma línea, Meadow considera que no es lo mismo la recuperación de información entendida como traducción del término inglés 'information recovery' que cuando se traduce el término 'information retrieval', porque en el primer caso no es necesario proceso de selección alguno”.

El autor que más extensamente se dedica a presentar estas diferencias es Blair (1990), utilizando como criterios distintivos, entre otros:

  1. En recuperación de datos se emplean preguntas altamente formalizadas, cuya respuesta es directamente la información deseada. En cambio, en recuperación de información las preguntas resultan difíciles de trasladar a un lenguaje normalizado (aunque existen lenguajes para la recuperación de información, son de naturaleza mucho menos formal que los empleados en los sistemas de bases de datos relacionales, por ejemplo) y la respuesta será un conjunto de documentos que probablemente contendrá lo deseado, con un evidente factor de indeterminación.

  2. Según la relación entre el requerimiento al sistema y la satisfacción de usuario, la recuperación de datos es determinista y la recuperación de información es posibilista, debido al nivel de incertidumbre presente en la respuesta.

  3. Éxito de la búsqueda. En recuperación de datos el criterio a emplear es la exactitud de lo encontrado, mientras que en recuperación de información, el criterio de valor es el grado en el que la respuesta satisface las necesidades de información del usuario, es decir, su percepción personal de utilidad.

Esquema de funcionamiento de un sistema de recuperación de información
Funcionamiento de un sistema de recuperación de información. Fuente: https://www.tutorialspoint.com/natural_language_processing/natural_language_processing_information_retrieval.htm 

Tramullas (1997) resalta un aspecto de las reflexiones de Blair: la importancia (ignorada muchas veces) que tiene el factor de predicción por parte del usuario. No olvidemos que el usuario ha de intuir, en numerosas ocasiones, los términos utilizados para representar el contenido de los documentos, independientemente de la presencia de mecanismos de control terminológico. Este criterio “es otro de los elementos que desempeñan un papel fundamental en el complejo proceso de la recuperación de información” y además no se presenta en el campo de la recuperación de datos. Rijsbergen compendia en la siguiente tabla las diferencias fundamentales existentes entre recuperación de datos y recuperación de información:

Recuperación de datos vs Recuperación de Información. Fuente: http://openlib.org/home/krichel/courses/lis618/readings/rijsbergen79_infor_retriev.pdf
  Recuperación de datos Recuperación de información
Acierto Exacto Parcial (el mejor)
Inferencia Algebraica  Inductiva
Modelo Determinístico Posibilístico
Lenguaje de consulta Altamente estructurado Estructurado o natural
Especificación de la consulta Sensible Insensible
Error en la respuesta Sensible Insensible

Baeza-Yates (1999) plantea las diferencias entre ambos tipos de recuperación con argumentos quizá algo menos abstractos que los empleados por otros autores, incidiendo en que “los datos se pueden estructurar en tablas, árboles, etc. para recuperar exactamente lo que se quiere, el texto no posee una estructura clara y no resulta fácil crearla”. Para este autor, el problema de la recuperación de información se define de la siguiente manera: “dada una necesidad de información (consulta + perfil del usuario + ... ) y un conjunto de documentos, ordenar los documentos de más a menos relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevancia”. En la solución de este problema se identifican dos grandes etapas:

  1. Elección de un modelo que permita calcular la relevancia de un documento frente a una consulta.
  2. Diseño de algoritmos y estructuras de datos que implementen este modelo de forma eficiente.

Baeza-Yates se preocupa especialmente de las estructuras de datos y métodos de acceso a los mismos siendo este autor una verdadera referencia en esta materia. Curiosamente, a la hora de definir la recuperación de información, en lugar de proponer una definición propia, emplea la elaborada por Salton (1983): “la recuperación de la información tiene que ver con la representación, almacenamiento, organización y acceso a los ítem de información” autor para quien, en principio, no deben existir limitaciones a la naturaleza del objeto informativo. Baeza-Yates añade la siguiente reflexión: “la representación y organización debería proveer al usuario un fácil acceso a la información en la que se encuentre interesado. Desafortunadamente, la caracterización de la necesidad informativa de un usuario no es un problema sencillo de resolver”. 

El tercer grupo de autores emplea la definición de Salton (la base de la mayoría de definiciones que podemos encontrar en la bibliografía especializada), añadiendo como rasgo diferenciador que estos autores no profundizan en escrutar las diferencias entre “recuperación de datos” y “recuperación de información”, bien por no ser objeto de sus trabajos o bien por considerarlas suficientemente establecidas en trabajos previos. Feather y Sturges (2003) conciben la recuperación de información como “el conjunto de actividades necesarias para hacer disponible la información a una comunidad de usuarios”. 

Croft (1987) concibe la recuperación de información como “el conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado. En estas tareas desempeñan un papel fundamental los lenguajes documentales, las técnicas de resumen, la descripción del objeto documental, etc.Tramullas impregna su definición del aspecto selectivo de Blair al afirmar que “el planteamiento de la recuperación de información en su moderno concepto y discusión, hay que buscarlo en la realización de los tests de Cranfield y en la bibliografía generada desde ese momento y referida a los mecanismos más adecuados para extraer, de un conjunto de documentos, aquellos que fuesen pertinentes a una necesidad informativa dada”. 

El último grupo de autores se distingue básicamente porque eluden definir el concepto de recuperación de la información. Tienen como máximo exponente a Chowdhury (1999), quien (de forma algo simple quizá) dedica solo el primer párrafo de su libro ‘Introduction to modern information retrieval’ a señalar que “el término recuperación de la información fue acuñado en 1952 y fue ganando popularidad en la comunidad científica de 1961 en adelante”, mostrando después los propósitos, funciones y componentes de los SRI. Otro autor de esta corriente es Korfhaghe (1997) quien se centra en el almacenamiento y recuperación de la información, considerando estos procesos como las dos caras de una moneda: “un usuario de un sistema de información lo utiliza de dos formas posibles: para almacenar información en anticipación de una futura necesidad, y para encontrar información en respuesta una necesidad”. Resulta especialmente curiosa (decepcionante quizá) la actitud de estos dos autores, quienes son autores de dos excelentes manuales sobre recuperación de información.