Filtran documentos internos de Google con información sobre el funcionamiento de su algoritmo de búsqueda

Una masiva filtración de datos reveló 2.500 páginas de documentos de Google que explican el funcionamiento del algoritmo de su motor de búsqueda, con detalles que no coinciden con las explicaciones públicas que han dado en distintas ocasiones desde la empresa.

Con el objetivo de cumplir con su política de transparencia con los usuarios, la compañía tecnológica publica regularmente actualizaciones sobre cómo trabaja su buscador para mostrarle los mejores resultados a los usuarios. Pero según un especialista en optimización del posicionamiento web, los mecanismos no son los que se han informado oficialmente.

El cofundador de la herramienta de inteligencia SparkToro y que durante años ha trabajado en SEO, Rand Fishkin, publicó recientemente un artículo en el que afirma haber tenido acceso a una serie de documentos relacionados con la interfaz de programación (API) del motor de búsqueda de Google.

Basándose en esa información, Fishkin ha señalado que el pasado 5 de mayo recibió un correo electrónico en el que una persona afirmaba tener acceso a una filtración masiva cuya autenticidad había sido verificada por extrabajadores de Google y que tanto estos como otras personas habían compartido información privada adicional sobre las operaciones de búsqueda de Google.

El experto en SEO comentó que muchas de las afirmaciones incluidas en estos archivos "contradicen directamente las declaraciones públicas realizadas por los empleados de Google a lo largo de los años", tal y como ha compartido en el blog de SparkToro.

También comentó que lo descubierto en estos documentos "es solo la punta del iceberg" y ha insistido en que "las afirmaciones extraordinarias requieren pruebas extraordinarias". De ahí que haya tomado como válida la aportación del también experto en SEO y fundador de EA Eagle Digital, Erfan Azimi, una persona relacionada con el sector del marketing que le mostró la filtración en sí.

Si bien los documentos filtrados no aportan detalles sobre, por ejemplo, cómo se utilizan los sistemas de clasificación en la búsqueda, sí dan información sobre los datos que recopila la compañía.

Para chequear la fiabilidad de esta filtración, Fishkin se puso en contacto con el fundador de iPullRank, Mike King, a quien considera como "uno de los SEO técnicos más destacados del mundo". Este determinó que los documentos parecían legítimos dentro de la división de Búsqueda de Google y que contenían una cantidad extraordinaria de información no confirmada previamente sobre el funcionamiento interno de Google.

Cinco puntos clave

En primer lugar, el investigador indicó que Google parece tener diferentes formas de filtrar los clics que no quiere registrar en sus sistemas de clasificación y que incluye solo los que le interesan. Asimismo, miden la duración de los clics y las impresiones.

Por otra parte, los documentos de la API sugieren que Google dispone de una lista de las URL principales y que usa la cantidad de clics en las páginas de Chrome para determinar cuáles son las más populares.

En tercer lugar, los documentos sugieren que Google introduce determinados dominios relacionados con "consultas muy controvertidas o potencialmente peligrosas" en búsquedas relacionadas con viajes y política, lo que ofrece resultados que favorecen la información sesgada.

La filtración también ha revelado que existen evidencias de que las puntuaciones y los datos generados por algunos evaluadores de la plataforma EWOK, que miden la calidad de los sitios web, pueden estar directamente involucrados con el sistema de búsqueda de Google, "en lugar de ser simplemente un conjunto de entrenamiento para experimentos".

Finalmente, parte de estos documentos revisados concluyen que Google utiliza datos de los clics para determinar cómo ponderar los enlaces en las clasificaciones (de calidad baja, media o alta). De esta manera, si uno de ellos no registra clics, ingresa en el índice de baja calidad y se ignora. Por el contrario, si tiene un gran volumen de clics desde dispositivos verificables, se clasifica como enlace de alta calidad.