Utilidad lineal.

medidas de la recuperación de información la utilidad lineal
Spread the love

La usabilidad lineal es una medida de la recuperación de información que, esencialmente asume que la presencia de documentos relevantes en la respuesta de un sistema de recuperación de información a una determinada pregunta debe tomarse como un rédito a favor del sistema, al mismo tiempo que los documentos no relevantes deben considerarse como un débito. Por lo tanto, esta medida establece su valor favoreciendo el acierto y penalizando al mismo tiempo el desacierto

medidas de la recuperación de información la utilidad linealDedicamos este post a hablar de una medida de evaluación de la recuperación de información denominada Utilidad lineal. Para explicarla, tomamos como referencia el quinto capítulo del libro ‘TREC: Experiment and Evaluation in Information Retrieval‘, titulado ‘Routing and Filtering‘ y firmado por Stephen Robertson y Jamie Callan.

Esta medida esencialmente asume que la presencia de documentos relevantes en la respuesta de un sistema de recuperación de información a una determinada pregunta debe tomarse como un rédito a favor del sistema, al mismo tiempo que los documentos no relevantes deben considerarse como un débito. Por lo tanto, esta medida establece su valor favoreciendo el acierto y penalizando al mismo tiempo el desacierto. Su cálculo es muy intuitivo, se multiplica por un factor (A) el porcentaje de documentos relevantes (R+) y a este producto se le suma el producto de un segundo factor (B) por el total de documentos no relevantes (N+). Como el segundo factor es de penalización su valor es negativo, por lo tanto más que sumar se resta. Así, si en una búsqueda determinada, nuestro buscador devuelve un 80% por cierto de documentos relevantes (y, por lo tanto, un 20% de no relevantes), los valores de R+ y N+ serían 0.8 y 0.2 respectivamente.

Ahora queda por establecer los valores de los factores A y B, que son introducidos por el evaluador según estime oportuno. En  las  conferencias TRECs 9-11 se optó por utilizar A=2 y B=-1, asumiendo que la posibilidad de recuperar un documento relevante era del 66% y de encontrar un documento no relevante era del 33%, de ahí que el valor absoluto de A sea el doble que el de B. Con estos parámetros, nuestra búsqueda ejemplo tendría el siguiente valor de utilidad lineal:
 

Utilidad = A*(R+) + B*(N+) = 2*(0.8) + (-1)*(0.2) = 1.6 – 0.2 = 1.4

Esta utilidad indica que la búsqueda es buena, algo que así parecía al tener un 80% de documentos relevantes, cuya influencia en la medida refuerza esta fórmula. Lo cierto es que quizá (solo quizá) a veces nos complicarnos mucho la cabeza a la hora de establecer una medida de evaluación de la recuperación de información. De hecho, en TREC-8 los autores experimentaron con una ‘utilidad no lineal’ que resultó difícil de interpretar y fue deshechada.