El modelo booleano.

El primer modelo que presentamos es el más conocido ya que aplica el Álgebra de Boole a la recuperación de información y lo venimos utilizando en consultas a bases de datos, catálogos en línea y otras muchas fuentes de información. En la recuperación de información, los usuarios introducen una consulta expresada con base a términos y operadores lógicos (AND y OR normalmente) y los sistemas verifican la presencia de esos términos en el fichero inverso (lista de términos y documentos) y ofrece como resultado aquellos documentos donde se cumplan los requerimientos expresados en la ecuación. Vamos a ejemplificarlo sobre esta matriz de documentos (que simula un fichero inverso donde las filas son los términos y las columnas las obras literarias donde aparecen esos términos):

matriz de términos y documentos con obras literarias de Shakespeare
Modelo booleano: matriz de términos y documentos con obras literarias de Shakespeare

Si un usuario quisiera averiguar en cuántos textos se habla de César y Cleopatra, la ecuación de búsqueda Q (de 'query' en inglés) sería Q = 'Caesar' AND 'Cleopatra'. El sistema de recuperación de información verificaría en cuántas columnas aparece un "1" (presencia de un término en un documento) para ambos términos y calcularía la intersección. Así, como 'Caesar' aparece en las columnas d1, d2, d4, d5 y d6; a la vez que 'Cleopatra' solo aparece en la columna d1, la intersección (el resultado de la recuperación de información) será el documento d1: la obra 'Antonio y Cleopatra'.

Este simple ejemplo muestra las bondades de este modelo; simplicidad y familiaridad con la lógica de Boole, pero. si bien en operaciones con conjuntos resulta muy interesante, este modelo presenta algunos problemas a la hora de recuperar información:

  1. No discrimina en la respuesta, da igual que un término aparezca una vez o doscientas. En lógica de conjuntos este aspecto no es importante, en recuperación de información no es lo mismo recuperar un documento con varias referencias a una persona o a un concepto (implica afinidad temática del contenido con la pregunta) a que aparezca de casualidad citado solo una vez. El modelo booleano va a recuperar ambos y les va asignar la misma importancia.
  2. Hay que usar términos exactos en la búsqueda. Así, si un usuario duda entre "indización" o "indexación" puede construir una ecuación de búsqueda equivocada dejando fuera de la respuesta a muchos términos. Para solucionar este último problema estaría el operador OR y también los operadores de proximidad, de búsqueda literal y otras opciones de búsqueda avanzada, para solucionar lo de la discriminación están otros modelos.

 


Shakespeare, W. (1606) Antony and Cleopatra 

cubierta de la obra 'Anthony and Cleopatra' de William ShakespeareEsta tragedia histórica narra los últimos años de la vida del general romano Marco Antonio, que tuvo relaciones con la reina Cleopatra de Egipto (falleciendo ambos el año 30 a.C.). Como en los casos de Julio César, Coriolano y Timón de Atenas, Shakespeare utiliza como fuente las Vidas paralelas de Plutarco, en la traducción de Thomas North de 1579. Esta traducción incluye solo las biografías de Julio César,, Bruto, Marco Antonio, Octavio, Teseo y Alcibíades, mientras que la obra original  consta de veintitrés pares. El principal antagonista de Antonio en la obra es Octavio, que será conocido posteriormente en la Historia como César Augusto, el primer emperador romano. Y el personaje con más fuerza es el de Cleopatra.

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer