Uncategorized

¿Recuperamos información o recuperamos datos?

conexiones de conocimiento, logo

En el campo de la recuperación de información, casi al principio de la disciplina, era normal encontrarnos con autores que empleaban la voz «recuperación de datos» cuando en realidad de lo que estaban hablando era de «recuperación de información». Esto se debía fundamentalmente a una clara influencia de la terminología informática, disciplina cuya rapidísima evolución ha inducido a muchos autores a cometer el error de considerar sinónimos ambos conceptos, llegándose a olvidar que se puede recuperar información sin emplear procedimientos informáticos (hecho posible aunque no sea lo más común hoy en día, evidentemente).
Seguir leyendo…

Metadatos y usabilidad

Seguimos intentando convencernos de las ventajas del uso de los metadatos. El otro día, buscando en Google por «metadatos» y «usabilidad» me encontré un trabajo con la siguiente frase al comienzo: «Encuéntrame, descárgame y úsame. Déjate luego seducir y vuelve a mí una y otra vez. Yo por mi parte usaré mucho, mucho sentido común y trataré de sorprenderte cada día«.

Supongo que algunos ya saben que el autor de esta frase es el casi omnipresente Ricardo Baeza-Yates, así que poco más que hablar, a leer el artículo que da título a este post.

El idioma español y las conferencias TREC

logo de la primera conferencia TREC

logo de la primera conferencia TRECCuenta Donna K. Harman en el capítulo séptimo de ‘TREC: Experiment and Evaluation in Information Retrieval‘ que a partir de la conferencia TREC-3 comenzaron a probarse distintos sistemas de recuperación de información implementados en colecciones de documentos multilingües. Hasta ese momento, como es fácil suponer solo se había empleado el Inglés.

En esa conferencia, cuatro grupos trabajaron con una colección de 58.000 documentos procedentes de un periódico de Monterrey llamado El  Norte (aproximadamente 200 megabtytes de tamaño). Los grupos usaron búsquedas simples y analizaron el comportamiento del sistema con un total de 25 preguntas. Algunos de estos grupos (de las universidades de Cornell y Amherst -Massachusetts), trasladaron sus sistemas directamente, con la única salvedad de los ficheros de palabras vacías que ahora iban a ser términos en español. Los otros dos grupos (Dublin -«la del Core»- y Michigan) usaron desarrollos adaptados al nuevo idioma, modificando la primera de ellas el original algoritmo de lematización (‘stemming‘) propuesto por Porter.

El principal resultado de este experimento fue la facilidad de portabilidad de las aplicaciones y técnicas de recuperación de información a textos escritos en otro idioma, el nuestro en este caso. En el informe de la Universidad de Cornell se decía que bastaban unas pocas horas de trabajo para garantizar la misma efectividad de los sistemas. Estas conclusiones iniciales fueron refrendadas posteriormente en las conferencias TREC-4 y TREC-5. La inmortal lengua de Miguel de Cervantes está al mismo nivel que la de Shakespeare, por tanto.

Utilidad lineal.

medidas de la recuperación de información la utilidad lineal

La usabilidad lineal es una medida de la recuperación de información que, esencialmente asume que la presencia de documentos relevantes en la respuesta de un sistema de recuperación de información a una determinada pregunta debe tomarse como un rédito a favor del sistema, al mismo tiempo que los documentos no relevantes deben considerarse como un débito. Por lo tanto, esta medida establece su valor favoreciendo el acierto y penalizando al mismo tiempo el desacierto
Seguir leyendo…

El secreto de Google y el Álgebra Lineal

google y el álgebra lineal

google y el álgebra lineal

La base matemática subyace en el algoritmo de alineamiento de Google (Pagerank en un principio, ahora podríamos hablar de ese algoritmo y múltiples extensiones). El algoritmo lleva a cabo una serie de cálculos recursivos que dificultan su entendimiento y que precisa de simplificaciones matemáticas. Una de ellas es el trabajo «El secreto de Google y el Álgebra Lineal» de Pablo Fernández Gallardo, profesor de la Universidad Autónoma de Madrid que le sirvió al autor para obtener el quinto Premio SEMA a la Divulgación en Matemática Aplicada, otorgado por la Sociedad Española de Matemática Aplicada en septiembre de 2004. Ha sido publicado en el Boletín de la Sociedad Española de Matemática Aplicada 30 (2004), 115-141. En enlace anterior podemos ver la versión en formato de diapositivas y haciendo clic sobre la imagen de la diapositiva accedemos al texto del artículo.. .

Un grupo de amigas y Berners-Lee.

Esta mañana recibía el agradable comentario que os acompaño:

«Hola, javima: Un grupo de amigas estamos buscando información sobre diseño paginas web cuando encontramos tu blog. Tu título, Textffiles: memoria de Internet., nos ha gustado y lo hemos comentado. Estamos tratando de escribir algo relacionado con diseño paginas web para un proyecto de internet. Muchas gracias por permitirnos aprender de ti con tu excelente blog.»

Aprovecho para darle las gracias a «este grupo de amigas» y de paso presentaros una breve referencia al trabajo ‘The World Wide Web: A very short personal history‘ escrito por Tim Berners-Lee, y ya de paso -no todo va ser historia – vaya a terminar este blog en una especie de serie Cuéntame que te pasó – podemos leer también la transcripción del discurso del mismo Tim en la celebración en el MIT del 35 aniversario del Computer Science and Artificial Intelligence Laboratory.