Recuperación de información

Factores «clave» para el ranking de Google

La web Backlinko dedica una página informativa sobre los factores de alineamiento de Google ofreciendo una guía exhaustiva de más de 200 elementos que influyen en el algoritmo. Su propósito es «educar» a las personas que administran sitios web y a profesionales del SEO sobre cómo mejorar la posición de sus páginas en los resultados de búsqueda. En este análisis dividen los factores en categorías clave, como la calidad del contenido, ‘backlinks‘ y la experiencia del usuario (UX) y aspectos técnicos tales como la velocidad de carga y la optimización para el escosistema móvil. También se analizan señales de comportamiento del usuario y actualizaciones constantes del algoritmo.

Imagen inspirada en el ranking de Google creada con Delle - 3, la IA para gráficos de chatgpt
El ranking de Google dibunado por Delle – 3

En la siguiente tabla recogemos una síntesis de los once (como si fuera una alineación de un equipo de fútbol) factores que más se destacan en este artículo.

FactorDescripciónEjemplo
Calidad del ContenidoGoogle prioriza contenido de alta calidad, informativo y relevante.Un artículo detallado y bien investigado sobre un tema específico que responde completamente a las preguntas de los usuarios.
Backlinks‘ (enlaces entrantes)Los enlaces de otros sitios web actúan como votos de confianza. Cuantos más enlaces de entrada de alta calidad tenga tu sitio, mejor se posicionará.Un sitio web que recibe enlaces de universidades y sitios de noticias reconocidos.
SEO TécnicoAspectos técnicos del sitio web, como la velocidad de carga, la compatibilidad con dispositivos móviles y la capacidad de rastreo.Un sitio web optimizado para cargar rápidamente en dispositivos móviles y que utiliza un archivo robots.txt adecuado para permitir el rastreo de los motores de búsqueda.
Optimización de palabras claveUso de palabras clave relevantes en el contenido del sitio web para ayudar a los motores de búsqueda a entender de qué trata el sitio.Un blog de recetas que utiliza palabras clave como “recetas saludables” y “comida vegana” en sus artículos.
Experiencia del usuario (UX)Medida de lo fácil y agradable que es para los usuarios utilizar el sitio web. Google prefiere sitios que proporcionan una buena experiencia de usuario.Un sitio web con una navegación intuitiva, tiempos de carga rápidos y diseño responsive.
Marcado de esquema (Schema Markup)Datos estructurados que se pueden añadir al sitio web para ayudar a los motores de búsqueda a entender mejor el contenido.Un sitio de comercio electrónico que utiliza marcado de esquema para mostrar reseñas de productos y precios directamente en los resultados de búsqueda.
Señales socialesInteracciones sociales como “me gusta”, “compartir” y otros. Aunque no son un factor directo, pueden influir en la visibilidad del contenido.Un artículo que recibe muchas comparticiones en redes sociales como Facebook y Twitter.
Señales de marcaLa percepción general de la marca en línea. Google favorece marcas bien conocidas y respetadas.Un sitio web de una marca reconocida que recibe menciones en medios de comunicación y tiene una fuerte presencia en redes sociales.
Edad del dominioLos dominios más antiguos pueden tener una ligera ventaja, ya que se consideran más confiables.Un sitio web que ha estado activo durante más de 10 años y ha mantenido un historial constante de contenido de calidad.
Velocidad de carga del sitioLa rapidez con la que se carga un sitio web es un factor importante, especialmente en dispositivos móviles.Un sitio web que utiliza técnicas de optimización como la compresión de imágenes y el almacenamiento en caché para mejorar los tiempos de carga.
Intención de búsquedaLa capacidad del contenido para satisfacer la intención del usuario en el momento de la búsqueda.Un artículo que proporciona una guía completa y detallada sobre “cómo plantar un jardín de hierbas” cuando los usuarios buscan información sobre jardinería.
RTabla resumen de los 11 factores más importantes en el ranking de Google. Fuente: Backlinko

Como pasa con las selecciones de fútbol donde cualquier aficionado o aficionada tiene su propio «once«, si buscamos en otras páginas web es más que seguro que algunas de estas características no sean consideradas por sus autores e incluyan otras que hemos dejado fuera. Es ley de vida.

Evan Bailyn, CEO de la empresa de SEOFirst Page Sage‘, escribió en diciembre de 2021 un artículo en Linkedln una nota informatica titulada ‘The 2022 Google Algorithm Ranking Factors‘ donde presentaba los factores ordenados a partir de su «peso» en la fórmula final del algoritmo de ranking, que podemos visualizar en el siguiente diagrama circular.

peso de los distintos factores del algoritmo de ranking de Google en 2022

Como se observa, un 26% de la fórmula final se debe al contenido de calidad (de alto nivel se menciona), un 17% se le asigna a las metaetiquetas del título de la página, los enlaces de entrada (‘backlinks‘) tienen un peso del 15% (con Pagerank era el factor clave, desde 2018 ha descencido mucho en importancia). También tiene importancia la presencia de esa página entre lo que se considera «nichos de expertos» (13%) y la involucración de los usuarios (fidelidad) que alcanza el 11%. Entre estos cinco factores suman un poco más del 75% del peso de la fóruma final según Evan Bailyn. Aquí va la tabla completa.

factores principales del algoritmo de Google según firstpagesage.com

¿Qué es «contenido de calidad» para Google?

Son varios aspectos a considerar:

Se trata de contenido original, único y valioso. Google da preferencia al contenido nuevo y único. Es conveniente crear entradas que respondan a las preguntas de sus lectores, que aporten valor y que sean originales. Como regla general, Google premia el contenido de liderazgo intelectual producido al menos dos veces por semana. Si tu contenido es similar al de otras páginas web, causará un impacto negativo en tu SEO. Para empezar, el motor podría no indexar y clasificar la página y ralentizará la tasa de rastreo de su sitio web (la web se hará “obsoleta”). Por lo tanto, cuando creemos contenido, ha de ser diferente y mejor que el de otros sitios web clasificados para el término de búsqueda. Ya lo avisaba Bill Gates en 1996 en su frase «Content is king» (que viene a ser I Ley Universal de la Gestión de Contenidos en la Web para mis alumnos).

Hay que mantener el contenido fresco y actualizado. Si las publicaciones se actualizan y se añade habitualmente información  nueva, se envía una señal positiva al motor de búsqueda. La frescura del contenido juega un papel importante si en nuestras entradas se tratan noticias o tendencias. En estos casos, Google prefiere las páginas que proporcionan la información más reciente. Por ejemplo, si escribimos sobre la crisis sanitaria mundial, nuestro contenido debe contener noticias e investigaciones recientes. Una forma sencilla de encontrar la información más reciente para mantener tu contenido fresco es utilizar Google Trends.

La longitud del contenido es otro factor clave. Una de las preguntas recurrentes en SEO ha sido siempre si la extensión del contenido forma parte de los factores de clasificación de Google. La respuesta es “”. Según diferentes estudios, los posts con 1.890 palabras de media se sitúan en la primera página de resultados. Dicho esto, no hay una regla rígida por la que debamos ceñirnos a un límite de palabras. Lo mejor es crear contenido con profundidad y que cubra un tema con gran detalle. Google prefiere las páginas que responden completamente a la pregunta del usuario y proporcionan soluciones detalladas.

longitud de entradas en la web y posición en google
Relación entre la longitud de una entrada web y la posición en la respuesta de Google.

La estructura del contenido y su organización también influye en la valoración de su calidad. Las entradas deben estar bien organizadas y estructuradas. Esto facilita a los visitantes la lectura y la búsqueda de soluciones a sus problemas. Para mejorar la estructura y la organización de estos artículos, se pueden utilizar distintos niveles de encabezado (H2, H3, H4, etc.) para agrupar el contenido. Mantener debidamente actualizado el fichero sitemap.xml ayuda también. También podemos utilizar etiquetas HTML para viñetas  y listas numéricas para organizar aún más el contenido. Esto es beneficioso ya que Google recoge estas listas y las muestra como fragmentos destacados para diferentes palabras clave.

El Modelo del Espacio Vectorial: similitud entre vectores.

representación de la función del coseno para calcular la similitud de dos vectores de documentos en recuperación de información

En algunas partes de esta web hablamos de Gerad Salton y de «su Modelo del Espacio Vectorial que implementan la mayoría de los motores de búsqueda lo implementan como estructura de datos y que el alineamiento suele realizarse en función del parecido (o similitud) de la pregunta con los documentos almacenados. Viniendo hacia el trabajo me he parado a pensar que igual muchos no saben cómo funciona realmente este modelo y que no sería nada malo dedicarle una pequeña serie de posts para explicarlo. Vamos a ello.

La idea básica de este modelo reside en la construcción de una matriz (podría llamarse tabla) de términos y documentos, donde las filas fueran estos últimos y las columnas correspondieran a los términos incluidos en ellos. Así, las filas de esta matriz (que en términos algebraicos se denominan vectores) serían equivalentes a los documentos que se expresarían en función de las apariciones (frecuencia) de cada término. De esta manera, un documento podría expresarse de la manera d1=(1, 2, 0, 0, 0, … … …, 1, 3) siendo cada uno de estos valores el número de veces que aparece cada término en el documento. La longitud del vector de documentos sería igual al total de términos de la matriz (el número de columnas).

De esta manera, un conjunto de m documentos se almacenaría en una matriz de m filas por n columnas, siendo n el total de términos almacenamos en ese conjunto de documentos. La segunda idea asociada a este modelo es calcular la similitud entre la pregunta (que se convertiría en el vector pregunta, expresado en función de la aparición de los n términos en la expresión de búsqueda) y los m vectores de documentos almacenados. Los más similares serían aquellos que deberían colocarse en los primeros lugares de la respuesta.

¿Cómo se calcula esta similitud? Disponemos de varias fórmulas que nos permiten realizar este cálculo, la más conocida es la Función del Coseno, que equivale a calcular el producto escalar de dos vectores de documentos (A y B) y dividirlo por la raíz cuadrada del sumatorio de los componentes del vector A multiplicada por la raíz cuadrada del sumatorio de los componentes del vector B.

representación de la función del coseno para calcular la similitud de dos vectores de documentos en recuperación de información

No hay que asustarse a la hora de oir hablar de «producto escalar de dos vectores», ya que se calcula multiplicando componente a componente y sumando los productos. Así, si disponemos de los vectores de documentos A (1, 0, 1, 0, 1, 0) y B (1, 0, 1, 1, 0, 0) su valor de similitud según la función del Coseno se calculará tal como podemos ver en la siguiente tabla:

tabla de ejemplo de cálculo de la función de similitud del coseno

De esta manera tan sencilla se calcula este valor de similitud. Como es obvio, si no hay coincidencia alguna entre los componentes, la similitud de los vectores será cero ya que el producto escalar será cero (circunstancia muy frecuente en la realidad ya que los vectores llegan a tener miles de componentes y se da el caso de la no coincidencia con mayor frecuencia de lo que cabría pensar). También es lógico imaginar que la similitud máxima sólo se da cuando todos los componentes de los vectores son iguales, en este caso la función del coseno obtiene su máximo valor, la unidad. Lo normal es que los términos de las columnas de la matriz hayan sido filtrados (supresión de palabras vacías) y que en lugar de corresponder a palabras, equivalgan a su raíz ‘stemmed’ (agrupamiento de términos en función de su base léxica común, por ejemplo: economista, económico, economía, económicamente, etc.). Generalmente las tildes y las mayúsculas/minúsculas son ignorados. Esto se hace para que las dimensiones de la matriz, de por sí considerablemente grandes no alcancen valores imposibles de gestionar. No obstante podemos encontrar excepciones a la regla general, tal como parece ser el caso de Yahoo!, que no ignora las palabras vacías.

Para finalizar, la del coseno no es la única función de similitud. Existen otras, entre las que destacan las de Dice y Jaccar, pero que pueden resultar algo más engorrosas no sólo de calcular sino más bien de interpretar y que por tanto son menos aplicadas en Recuperación de Información

Precisión y exhaustividad normalizadas

Entre las medidas alternativas a la relevancia encontramos la Exhaustividad Normalizada como propuesta de diversos autores. Casi todo el mundo reconoce que el mayor problema de las medidas basadas en la relevancia es la alta dosis de subjetividad inherente a su determinación. Otro de los problemas que conlleva su uso reside en la secuencialidad de la lectura de los resultados. Korfhage avisa: “los sistemas de recuperación de información típicos presentan los resultados formando una secuencia de documentos. Incluso en aquellos sistemas que no presentan así la información, el usuario suele examinar los documentos secuencialmente» (Korfhage, 1997). Inevitablemente, este modo de consulta afectará al juicio que el usuario ha de llevar a cabo sobre la relevancia o no de los documentos siguientes.

En la práctica, todos los usuarios de estos sistemas sufren este problema cuando, al consultar dos documentos más o menos igual de interesantes y relacionados con una materia, centran su atención de forma preferente en el primero de ellos, aunque el segundo no desmerezca en nada al anterior. Algo parecido acaece cuando un usuario realiza una búsqueda y los primeros documentos recuperados resultan relevantes con el tema de su interés. En esta circunstancia, el usuario tendrá una sensación positiva y se considerará satisfecho, no preocupándose por el número de documentos no relevantes que también recupera (que puede llegar a ser muy grande). La situación contraria también ocurre cuando la presencia de los documentos no relevantes al principio de la respuesta es masiva. En este caso la sensación de frustración va a ser de gran consideración, independientemente de que en el global de la búsqueda se entreguen muchos más documentos relevantes que no relevantes.

Estas reflexiones han propiciado el desarrollo de medidas que tomen en consideración la secuencia en la que los documentos son presentados a los usuarios. El primer trabajo conocido corresponde a Rocchio (citado en [Rijsbergen, 1999] y en [Moschitii, 2003]), quien define una exhaustividad normalizada y una precisión normalizada para sistemas que presentan los documentos alineados según un determinado criterio de clasificación y donde no afecte el tamaño de la muestra analizada. El autor define un “sistema ideal donde los documentos relevantes se recuperan antes que los documentos no relevantes y se puede representar en un gráfico la evolución de la exhaustividad de esta operación de recuperación de información”. 

e-p normalizadas
Ejemplo de cómo la Exhaustividad normalizada queda comprendida entre el peor y el mejor resultado posible. Fuente: Rijsbergen, C.J. Information Retrieval. [En línea]. Glasgow, University, 1999.[Consulta: 29 noviembre 2004]

Si en una base de datos de 25 documentos se sabe que cinco de ellos son relevantes, y que han sido devueltos por el sistema al realizar una búsqueda en las posiciones {3, 5 , 10, 11, 15}, se puede representar un gráfico etapa a etapa (tal como muestra la imagen anterior). La exhaustividad de esta búsqueda alcanza el valor de 0.2 (1 documento relevante recuperado dividido entre 5 documentos relevantes de la colección) al analizar el tercer documento (hasta entonces vale cero). Cada vez que se analice un documento relevante, el valor de la exhaustividad aumentará, hasta llegar a la unidad (en este caso, en el documento 15), permaneciendo constante hasta el último documento recuperado, ya que todos los relevantes ya han aparecido. Tal como se desprende de la comparación con la gráfica de la mejor búsqueda posible (cuando se presentan los cinco documentos relevantes en las cinco primeras posiciones de la secuencia) o con la peor búsqueda posible (cuando se presentan los cinco documentos relevantes en las cinco últimas posiciones de la secuencia), resulta muy intuitiva, tal como se refleja en la anterior imagen.

Para Korfhage, “el área comprendida entre la búsqueda actual y la gráfica ideal representa una medida de la ejecución del SRI” (Korfhage, 1997). Esta medida se calcula restando al valor de la unidad el resultado de dividir el valor de esta área por (n1 * (N – n1)). En el ejemplo anterior, el valor del área es 29, por lo que el valor de la exhaustividad normalizada, aplicando la anterior fórmula, será el resultado de la siguiente operación: (1 – 21/(5 * (25 – 5)) = (1 – 0.21) = 0.79

La precisión normalizada se define de manera análoga: “mientras la precisión ordinaria es una medida exactamente definida, esta medida depende del conocimiento del número total de documentos relevantes” (Korfhage, 1997). Rijsbergen propone como método para su cálculo “restar a la unidad el resultado de dividir el valor de esta área por el valor del área existente entre la búsqueda ideal y la peor búsqueda” (Rijsbergen, 1999). En el ejemplo propuesto, el resultado de esta precisión normalizada sería (1 – 21/(95 – 15)) = (1 – 21/80) = 0.7375. Rijsbergen destaca algunos aspectos de estas medidas: “ambas presentan un comportamiento consistente, es decir, cuando una se aproxima a cero la otra se aproxima a la unidad. Ambas medidas asignan valores distintos de peso a los documentos recuperados en la secuencia, la precisión los asigna a los iniciales y la exhaustividad asigna un valor uniforme a todos los documentos relevantes. En tercer lugar, estas medidas pueden entenderse como una aproximación de la precisión y exhaustividad promedio y, por último, los problemas que surgían en la determinación de la longitud esperada de búsqueda (por la posición de los documentos relevantes), son inexistentes en este caso”.

Bibliografía.

(Korfhage, 1997) Korfhage, R.R. Information Retrieval and Storage. New York: Wiley Computer Publisher, 1997.

(Moschitti, 2003) Moschitti, A. ‘A study on optimal parameter tuning for Rocchio Text Classifier’. ECIR 2003 [En línea][Consulta: 29 noviembre 2004]

(Risjbergen, 1999) Risjbergen, C. J. Information Retrieval. [En línea]Glasgow, University, 1999.[Consulta: 29 noviembre 2004]

‘Google bombing’

bombardeo a google - google bombing

bombardeo a google - google bombingEn los últimos meses hemos asistido al nacimiento de un nuevo término conocido como ‘Google bombing‘ (expresión que se puede traducir como «bombardeo a Google»). Este «bombardeo» consiste en introducir enlaces (ojo, de forma coordinada) a un mismo sitio web dentro de varias páginas que gozan de cierta popularidad en el buscador (páginas con Page Rank alto o relativamente alto), con el objeto de que ese sitio web aparezca en los primeros lugares de la respuesta del motor, ya que Google clasifica los documentos devueltos según su «popularidad», y si páginas que gozan de cierta popularidad recomiendan en bloque una misma página, pues esta última se convierte (por propiedad «multi-transitiva» podríamos decir) en una nueva página popular.

Espero que hayas seguido leyendo hasta aquí y que no te duela la cabeza mucho, básicamente porque ahora llega lo mejor. Si bien puede parecer normal que varios administradores de sitios web recomienden una misma página, lo que caracteriza a este fenómeno (al «bombardeo») es que ese enlace al unísono se lleva a cabo por medio de la inserción de una frase escrita en tono de broma en la página que recomienda, empleándose ese texto para enlazar hacia la otra página. ¿Qué hay de raro en ello?, pues, por ejemplo, puedes poner en tu página personal, al final y escrito de forma más o menos disimulada para no mezclar este enlace con el resto del contenido de la página, un texto que diga «Obviously, I think too that George Bush is a miserable failure» (parafraseando lo que dijo hace tiempo el candidato demócrata John Kerry sobre el POTUS). Este texto «casi oculto» te traslada a la biografía de George W. Bush, 43º Presidente de los Estados Unidos de América, uno de los peores de la historia.

La gracia del «bombardeo» reside precisamente en que si vamos a Google e insertamos la búsqueda «miserable failure«, la primera página devuelta es esa biografía. Y lo más chocante a primera vista es que en esa página no aparece ni por asomo esa expresión (que podría traducirse como «miserable fracasado», más concretamente en política exterior, tal como decía Kerry). ¿Qué está pasando? ¿Falla Google? ¿Se ha descubierto la manera de enturbiar la gloriosa vida de este buscador?. En realidad no pasa nada más que lo que tenía que pasar, Google es capaz de recomendar la visita a sitios que ni siquiera ha visitado o que no poseen los términos de la ecuación planteada (a la vista está). ¿Por qué se atreve a hacerlo?, básicamente porque el buscador confía en la credibilidad de los administradores de sitios que llevan a cabo estos enlaces y si los mismos deciden «engañarle», pues el motor cae en la trampa sin ningún pudor y de forma irremediable.

Pero la gracia del «bombardeo» no se queda ahí. En este caso, la contribución de mi página es escasa y tardía a este «bombing». Ha habido otros antes, uno famoso dedicado a un «hacker sin futuro ni imaginación» que terminó recibiendo una vista del FBI y, como no podía ser de otro modo, a Bill Gates a quien enlazaban desde el texto de una archiconocida canción de los Rolling Stones), porque ya se encargaron los administradores de sitios webs mucho más populares (el cineasta Michael Moore a la cabeza), de provocarlo. Posteriormente, alguno de estos famosos personajes deja «caer» esta noticia a un periodista y rápidamente todas las televisiones del mundo lo están emitiendo, ante el gran impacto mediático que tiene este buscador y las personas involucradas.

¿Qué hacer al respecto? Mi opinión personal es que nada debe hacerse y que Google no debe corregir su algoritmo para evitar este problema, entre otras muchas razones porque ¿alguien en su sano juicio piensa que George W. Bush no es un pobre FRACASADO miserable? No obstante, se trata de una moda, y como tal desaparecerá y dejará sitio a otra nueva, ya sabemos que el tiempo en la red es cuestión de eso, de poco tiempo. Otro día hablaremos de Page Rank y de toda la serie de trucos que se vienen llevando a cabo para ganar «popularidad» ante este algoritmo, eso ya es otro cantar.