Recuperación de Información

The Conversation: CORD-19: Buscador semántico de información científica para hacer frente a la pandemia

En diciembre publiqué con Rosana López Carreño el artículo "Vista de Sistemas de recuperación de información implementados a partir de CORD-19: herramientas clave en la gestión de la información sobre COVID-19" en la Revista Española de Documentación (número de 1 de diciembre de 2020). Al poco tiempo, los editores de esta revista nos recomendaban publicar una resumen del trabajo en el portal The Conversation (proyecto auspiciado por la CRUE y en el que participamos bastantes universidades españolas, con versión internacional), Pues les hicimos caso y fruto de esa idea es la entrada en este portal titulada "CORD-19: Buscador semántico de información científica para hacer frente a la pandemia" que copiamos a continuación en este blog (siguiendo también recomendaciones de los editores del portal). 

Hacia una definición de recuperación de la información.

Puede resultar cuando menos curioso que un concepto tan usado como "recuperación de información" presente una cierta problemática a la hora de establecer una definición que lo sitúe adecuadamente dentro del campo de las Ciencias de la Información, a causa de las distintas y divergentes perspectivas con las que este concepto ha sido analizado a lo largo del tiempo.

El índice de concordancia: ¿origen de las humanidades digitales?.

​​​​Bravo Ramón recuerda que una de las primeras manifestaciones de las humanidades digitales ocurrió en 1949, cuando el sacerdote Busa pidió ayuda a IBM, para elaborar un índice de concordancia (lista ordenada y clasificada por frecuencia de los términos que aparecen en un corpus de obras) de las obras completas de Santo Tomás de Aquino (más de 11 millones de palabras). Este índice se denomina 'Index Thomisticus'.

Propuesta y desarrollo de un modelo para la evaluación de la recuperación de información en Internet

La recuperación de información, como disciplina claramente diferenciada de la recuperación de datos, posee una naturaleza determinista que provoca ineludiblemente ciertas dosis de incertidumbre a la hora de realizar una operación de búsqueda. Es por ello que, desde el inicio del desarrollo de esta disciplina, ha sugerido una considerable cantidad de propuestas de medida de la efectividad del funcionamiento de los sistemas encargados de esta tarea: los sistemas de recuperación de información (SRI). La consolidación de la World Wide Web como ejemplo paradigmático del desarrollo de la Sociedad de la Información y del Conocimiento, y la continua multiplicación del número de documentos que en ella se publican cada día, propicia la creación de los sistemas de recuperación de información más avanzados, de mayor volumen de documentos gestionados y de mayor popularidad: los motores de búsqueda.

Medidas basadas en el proceso de la recuperación de información

No todas las medidas que se emplean para medir el funcionamiento de los sistemas de recuperación de información se basan en los juicios de relevancia (o pertinencia). Meadow identifica dos grupos: las basadas en el proceso y las basadas en el resultado (medidas que, en realidad, sí hacen uso de la relevancia).

¿Recuperamos información o recuperamos datos?

En el campo de la recuperación de información, casi al principio de la disciplina, era normal encontrarnos con autores que empleaban la voz "recuperación de datos" cuando en realidad de lo que estaban hablando era de "recuperación de información". Esto se debía fundamentalmente a una clara influencia de la terminología informática, disciplina cuya rapidísima evolución ha inducido a muchos autores a cometer el error de considerar sinónimos ambos conceptos, llegándose a olvidar que se puede recuperar información sin emplear procedimientos informáticos (hecho posible aunque no sea lo más común hoy en día, evidentemente).

Utilidad lineal.

La usabilidad lineal es una medida de la recuperación de información que, esencialmente asume que la presencia de documentos relevantes en la respuesta de un sistema de recuperación de información a una determinada pregunta debe tomarse como un rédito a favor del sistema, al mismo tiempo que los documentos no relevantes deben considerarse como un débito. Por lo tanto, esta medida establece su valor favoreciendo el acierto y penalizando al mismo tiempo el desacierto

El Modelo del Espacio Vectorial (I): similitud entre vectores.

En algunas partes de este sitio web hablamos de Gerad Salton y de "su Modelo del Espacio Vectorial que implementan la mayoría de los motores de búsqueda lo implementan como estructura de datos y que el alineamiento suele realizarse en función del parecido (o similitud) de la pregunta con los documentos almacenado

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer