noviembre 2005

El idioma español y las conferencias TREC

logo de la primera conferencia TREC

logo de la primera conferencia TRECCuenta Donna K. Harman en el capítulo séptimo de ‘TREC: Experiment and Evaluation in Information Retrieval‘ que a partir de la conferencia TREC-3 comenzaron a probarse distintos sistemas de recuperación de información implementados en colecciones de documentos multilingües. Hasta ese momento, como es fácil suponer solo se había empleado el Inglés.

En esa conferencia, cuatro grupos trabajaron con una colección de 58.000 documentos procedentes de un periódico de Monterrey llamado El  Norte (aproximadamente 200 megabtytes de tamaño). Los grupos usaron búsquedas simples y analizaron el comportamiento del sistema con un total de 25 preguntas. Algunos de estos grupos (de las universidades de Cornell y Amherst -Massachusetts), trasladaron sus sistemas directamente, con la única salvedad de los ficheros de palabras vacías que ahora iban a ser términos en español. Los otros dos grupos (Dublin -«la del Core»- y Michigan) usaron desarrollos adaptados al nuevo idioma, modificando la primera de ellas el original algoritmo de lematización (‘stemming‘) propuesto por Porter.

El principal resultado de este experimento fue la facilidad de portabilidad de las aplicaciones y técnicas de recuperación de información a textos escritos en otro idioma, el nuestro en este caso. En el informe de la Universidad de Cornell se decía que bastaban unas pocas horas de trabajo para garantizar la misma efectividad de los sistemas. Estas conclusiones iniciales fueron refrendadas posteriormente en las conferencias TREC-4 y TREC-5. La inmortal lengua de Miguel de Cervantes está al mismo nivel que la de Shakespeare, por tanto.

Utilidad lineal.

medidas de la recuperación de información la utilidad lineal

La usabilidad lineal es una medida de la recuperación de información que, esencialmente asume que la presencia de documentos relevantes en la respuesta de un sistema de recuperación de información a una determinada pregunta debe tomarse como un rédito a favor del sistema, al mismo tiempo que los documentos no relevantes deben considerarse como un débito. Por lo tanto, esta medida establece su valor favoreciendo el acierto y penalizando al mismo tiempo el desacierto
Seguir leyendo…

El secreto de Google y el Álgebra Lineal

google y el álgebra lineal

google y el álgebra lineal

La base matemática subyace en el algoritmo de alineamiento de Google (Pagerank en un principio, ahora podríamos hablar de ese algoritmo y múltiples extensiones). El algoritmo lleva a cabo una serie de cálculos recursivos que dificultan su entendimiento y que precisa de simplificaciones matemáticas. Una de ellas es el trabajo «El secreto de Google y el Álgebra Lineal» de Pablo Fernández Gallardo, profesor de la Universidad Autónoma de Madrid que le sirvió al autor para obtener el quinto Premio SEMA a la Divulgación en Matemática Aplicada, otorgado por la Sociedad Española de Matemática Aplicada en septiembre de 2004. Ha sido publicado en el Boletín de la Sociedad Española de Matemática Aplicada 30 (2004), 115-141. En enlace anterior podemos ver la versión en formato de diapositivas y haciendo clic sobre la imagen de la diapositiva accedemos al texto del artículo.. .

Un grupo de amigas y Berners-Lee.

Esta mañana recibía el agradable comentario que os acompaño:

«Hola, javima: Un grupo de amigas estamos buscando información sobre diseño paginas web cuando encontramos tu blog. Tu título, Textffiles: memoria de Internet., nos ha gustado y lo hemos comentado. Estamos tratando de escribir algo relacionado con diseño paginas web para un proyecto de internet. Muchas gracias por permitirnos aprender de ti con tu excelente blog.»

Aprovecho para darle las gracias a «este grupo de amigas» y de paso presentaros una breve referencia al trabajo ‘The World Wide Web: A very short personal history‘ escrito por Tim Berners-Lee, y ya de paso -no todo va ser historia – vaya a terminar este blog en una especie de serie Cuéntame que te pasó – podemos leer también la transcripción del discurso del mismo Tim en la celebración en el MIT del 35 aniversario del Computer Science and Artificial Intelligence Laboratory.