TrustRank o la lucha ‘anti spam’

TrustRank de google, lucha contra el webspamming
Spread the love

La idea fundamental de este algoritmo la comentaban sucinta y claramente en alt64: «Google desea que en las primeras posiciones de los resultados de búsqueda encontremos páginas de cierta relevancia y que estén siendo recomendadas por otras páginas que a su vez también tengan relevancia. Para determinar el PageRank, Google analiza el número de enlaces que provienen de otras páginas web y su PageRank. El Trust Rank, parte de la misma base. Pero en lugar de valorar la importancia de una recomendación en función del PageRank de la página que recomienda, lo hace a partir de una serie de páginas web que han sido consideradas importantes por humanos en lugar de por algoritmos.

TrustRank de google, lucha contra el webspamming

En la búsqueda de mejorar la efectividad de Google contra el ‘web spamming‘ hace poco más de un año trascendió el trabajo de Zoltán GyöngyiHector Garcia-Molina y Jan Pedersen titulado ‘Combating Web Spam with TrustRank‘, propuesta de algoritmo de posicionamiento basado en enlaces que podría llegar a sustituir a PageRank.

La idea fundamental de este algoritmo la comentaban sucinta y claramente en alt64:

  1. Google desea que en las primeras posiciones de los resultados de búsqueda encontremos páginas de cierta relevancia y que estén siendo recomendadas por otras páginas que a su vez también tengan relevancia.
  2. Para determinar el PageRank, el motor Google analiza el número de enlaces que provienen de otras páginas web y su PageRank.
  3. El algoritmo TrustRank, parte de la misma base. Pero en lugar de valorar la importancia de una recomendación en función del PageRank de la página que recomienda, lo hace a partir de una serie de páginas web que han sido consideradas importantes por humanos en lugar de por algoritmos.
  4. A las páginas web que los humanos determinan como importantes se las considera «web semilla» y a sus enlaces se les asigna un valor. Y será ese valor el que se irá transmitiendo por toda la red.

Para ilustrarlo con un ejemplo: Supongamos que disponemos de una web semilla A que transmitirá un valor de 100 TrustRank a todas las webs a las que enlace. Estas páginas, a su vez, transmitirán un TrustRank de 99 a todas las webs a las que enlacen. Y éstas últimas, transmitirán un TrustRank de 98 a las que ellas enlacen.

Para mitigar la degradación del TrustRank a medida que se distancia de las webs semilla, en el algoritmo se ha incluido un corrector que tiene en cuenta el número de grados que hay entre la web semilla y la web que recibe el TrustRank, sin anular completamente la distancia que las separa de la semilla».

En la propuesta inicial aún había que refinar algunos detalles, tales como esa corrección en nodos «lejanos», cuáles serán los criterios que ha de cumplir una página web para ser considerada «semilla» y también dónde se debe cortar el factor de corrección de una página para que no incorporara (o sí incorporara) un valor negativo de TrustRank. No parece que estos factores fueran a modificar sustancialmente la idea pero un poco más de un año después no se ha vuelto a hablar del tema. ¿Alguien sabe por qué?