Google leak mai 2024 : des secrets de l'algo dévoilés par une fuite.

Résumer l'article avec votre IA préférée :

Fuite de documents : de quoi parle t’on vraiment ?

Le 29 mai 2024, les deux experts du SEO Rand Fishkin et Mike King, ont dévoilé environ 2500 documents, obtenus d’une source anonyme au début du moi de mai. Ils sont depuis décortiqués par les experts SEO du monde entier, qui partagent leurs conclusions sous le nom de « Google Leak ».

Que contiennent ces documents ?
Entre autres, des détails sur le système de collecte des données par le géant Google et de l’utilisation de ces données pour le fonctionnement de l’algorithme de classement Google Search.

Ces informations étaient en fait disponibles publiquement depuis près de 2 ans, dans la documentation des bibliothèques Github de différents langages.

Looks like the code for the ContentWarehouse has been available on GitHub since Sept 20, 2022 in Google's official client repos for PHP, Java, and Ruby.
– https://t.co/Cc7DQV6dee
– https://t.co/SXS6ApVbvX
– https://t.co/E9pqAGRD1d @iPullRank @randfish
— Derek Perkins (@Derek_Perkins) May 30, 2024

La différence avec le leak (fuite) en cours tient à sa précision : les informations disponibles dans les dépôts Github, étaient très peu documentées, rendant leur interprétation presque impossible. Les nouveaux documents sont eux, beaucoup plus explicites. Il ne faut pas pour autant les prendre pour argent comptant et le temps nous dira s’il s’agit d’un cadeau ou d’un poison.

Attention au Manque de contexte

Ces documents sont bruts, il est impossible de déterminer avec précision si ce qui y est écrit est toujours d’actualité.
De plus, ils ne se limitent pas à Google Search puisque Google Lens et Youtube sont aussi mentionnés.
Il se peut d’ailleurs qu’une partie plus ou moins importante de ces informations soient périmées.

Google a confirmé l’authenticité de ces documents. Néanmoins,
Davis Thompson, le porte-parole de Google, à déclaré à The Verge (site d’actualité Américain) à ce sujet :

Nous mettons en garde contre les hypothèses inexactes sur Google Search basées sur des informations hors contexte, obsolètes ou incomplètes
Davis Thompson, le porte-parole de Google

Nous sommes prévenus.

On peut malgré tout en tirer une idée générale, une sorte de fil rouge, sur le fonctionnement de l’algorithme de Google Search.

Absence de pondération

Les algorithmes Search fonctionnent avec un système de pondération, qui donne plus ou moins d’importance à chaque paramètre qui le compose. Hors, dans le cas présent, nous n’avons aucune information quant à cette pondération.

C’est l’une des parties les plus obscures de tous les algorithmes de ranking des moteurs de recherche. A force d’observation et d’expérimentation, les experts du référencement ont globalement su décrypter les paramètres importants : réponse à l’intention de recherche, champs sémantique fort, originalité et qualité du contenu… Tout ça est connu.

Ce qu’on connait moins en revanche, c’est l’importance de chacun de ces signaux : vaut il mieux prioriser l’un ou l’autre ? les équilibrer ?
Ici, malheureusement, point de réponse grâce au leak.

Sujet à interprétation

Bien que ces documentations contiennent plus de détails que leur prédécesseurs sur Github, ces données risquent d’être surinterprétées, surexploitées, sous prétexte qu’elles viennent d’une source fiable.

Par exemple : on constate que les documents font mention à un paramètre « siteAuthority » qui aurait pour but d’évaluer l’autorité du site et d’un autre se référant à l’autorité de la page d’accueil.
Pourtant les portes paroles de Google ont nié à de nombreuses reprises avoir recours une mesure d’autorité du domaine, malgré les signaux forts, qui laissaient penser le contraire.

Mais puisque nous ignorons dans quelle mesure ce « siteAuthority » est pris en compte, notamment dans le cas des sous-domaines, peut-on estimer qu’il a eu mensonge ? La réputation du domaine dans son intégralité ne semble pas prise en compte mais ça n’a pas empêché de nombreux media de crier au mensonge en découvrant cette métrique.

Quelles découvertes ?

Les données du navigateur Google Chrome influent sur NavBoost

On le sait depuis quelques temps maintenant, Google Chrome, le navigateur de la firme de Montain View, fait de nombreuses mesures pendant la navigation.
Deux systèmes de classement sont ici en cause :

« glue » analyse les comportements sur la page des résultats de recherche ;
« navboost » lui se concentre sur les comportements dans le site et influe sur le positionnement de celui ci.

Que ce soit dans les résultats de recherche ou sur les sites en eux mêmes, les comportements de type UX (user experience) sont mesurés.

On sait que le score PageSpeed Insights prends en compte les données réelles des visiteurs, auditées grâce aux tags Google Analytics éventuellement présent sur le site mais aussi lors de lors des navigations depuis Chrome.

Les infos utilisateurs de page speed insight chez SEOMix — Les données de l’expérience utilisateur de pagespeed insight pour l’agence SEOMix. Source : https://www.seomix.fr/fuite-de-donnees-google-seo/

Le temps passé sur la page et les clics sont mis en corrélation, pour définir 3 types de clics depuis les résultats de recherche :

Le clic écrasé, qui est ignoré.
Il correspond à un clic et un retour en arrière ou une sortie de page immédiate ;
Le clic court, qui à une valeur moyenne.
L’utilisateur clique un résultat mais ne poursuis pas sa navigation ensuite, il ne reste pas sur le site ;
Le clic long, qui est celui qu’on doit rechercher.
L’utilisateur clique sur un résultat et reste sur le site en question, il navigue.

On comprend que Navboost est potentiellement l’un des systèmes les plus importants de l’algo de ranking de Google Search.

Pages, URL et liens

Autre chose qui était déjà admise : les liens n’ont pas tous le même poids dans une page, selon qu’ils sont dans un menu, dans le contenu ou en pied de page. On sait désormais qu’ils sont répartis en 3 rangs de qualité : basse, moyenne ou forte.
Ceux en catégorie haute auraient le plus d’impact. Ceux en catégorie basse seraient carrément ignorés.

Daniel Roch, de l’agence SEOMix et auteur de « Optimiser son référencement WordPress », dont je vous avais parlé à la sortie de la 5e édition, à notamment relevé 2 autres paramètres :

« creationDate » sauvegarde la date où le lien a été lu pour la première fois, ce qui suggère qu’un lien ancien pourrait avoir un poids supérieur.
la taille du lien serait mesurée via un attribut « fontsize ».
Je me rappelle avoir déjà reçu des alertes de la search console, informant qu’un lien ou un bouton était difficilement clicable sur mobile. Encore une fois, on remarque donc que l’UI (Interface utilisateur) à son importance aussi en SEO.

On a également obtenu la confirmation de ce qui est enseigné en SEO : les URLs transmettent une partie de leur popularité, appelée PageRankScore, aux URLs qu’elle cible à travers ses liens.
Les pages sont réparties en 3 catégories, appelée « tiers » :

top tier : très haute qualité et régulièrement mis à jour ;
medium tier : qualité moyenne et mises à jours ponctuelles ;
low tier : qualité faible, peu ou pas de mises à jour.

Obtenir un backlink d’une page « top tier » aura évidement plus de valeur qu’un lien depuis un « low tier ».

Illustration du pagerank et de la transmission de popularité d’une page à l’autre

Quand on parle de backlinks d’ailleurs, attention lors de vos campagnes de netlinking : il semblerait que Google évalue le nombre de liens externes obtenus sur une courte période en fonction de la tendance moyenne de la page. Cela pourrait indiquer une tendance de « negative SEO » et engendrer une pénalité.

L’intention de recherche

C’est une chose que toute personne pratiquant le SEO sait : connaitre l’intention de recherche est primordial lors de la rédaction d’un contenu. On ne rédige pas une page à visée informative comme une page à visée commerciale.

Les documents du Google Leak confirment la prise en compte de l’intention de recherche dans le contenu des documents à travers l’attribut « commercialScore » qui renseigne sur l’intention commerciale de la page (page de vente, d’inscription à un webinaire, produit…).
Faites donc bien attention à répondre correctement à l’intention de recherche du visiteur quand vous créez le contenu de votre page !

Le paramètre commercialScore dans la documentation qui a fuité lors du Google Leak

Certain ont pu croire que les balises title avaient perdu de leur intérêt ces dernières années mais l’existence de signaux tels que « badTitleInfo » et « titleMatchScore » indiquent le contraire.

Contenu et auteur

Ecrire un contenu original est plus important qu’écrire un contenu long. En effet, seules les pages ayant peu de contenus sont dotées de l’attribut « originalContentScore », qui vise à noter l’originalité d’un contenu.

OriginalContentScore dans la documentation qui a fuité lors du Google Leak

D’ailleurs, bien qu’il soit en général recommandé d’écrire des contenus longs pour le SEO, il semblerait que Google ai une limite dans le contenu qu’il peut indexer, représentée par l’attribut « numTokens », sans que l’on sache précisément quelle est la limite max de tokens possible.

Google semble apprécier particulièrement les entités nommées et leur appartenance au Knowledge Graph. Cela se révèle particulièrement intéressant lors de l’attribution des articles à leur auteur mais aussi de manière globale à toute page web.
L’utilisation des balises schema.org prend ici tout son sens pour faire connaitre les auteurs aux visiteurs et à l’algo Google Search.

On y découvre aussi les attributs « siteFocusScore » et « siteRadius » qui déterminent la précision de la thématique du site pour le premier, et l’éloignement d’une page vis à vis de cette thématique, pour le second.
On comprend donc qu’il vaut mieux avoir une thématique bien précise et de ne pas trop s’en éloigner, si on ne veut pas perdre des points.

Ajoutons à cela que Google mesure la quantité de contenu mis à jours lors des modifications. Cela influerai sur la fréquence des futurs indexations. Il est nécessaire de faire des mises à jour conséquentes (pas juste changer 2 mots et 3 virgules) mais pas non plus trop importantes en une seule fois.

Si les contenus générés par IA ne sont à priori pas un problème, la métrique « contentEffort », laisse à penser qu’un texte original rédigé par un humain, fouillé et documenté, pourrait avoir plus de chances de bien se positionner.

Domaines

On l’a vu en intro : s’il n’y a pas de prise en compte de l’autorité des domaines, il y a bien un attribut « SiteAuthority », qui juge donc la crédibilité du site entier. S’il n’y a pas d’autres site sur le domaine ça équivaut ni plus ni moins à une autorité du domaine sans pour autant être comparable avec le Domain Authority (DA) de SEMrush ou Moz.
On peut donc supposer qu’une page avec un fort siteAuthority aura plus de facilité à bien ranker une nouvelle page.

L’attribut « hostAge » lui, enregistre la date où le contenu a été vu pour la première fois avec un système de « sandboxing » (mise en bac à sable) pour les nouveaux sites, plus susceptibles de spammer d’après Google.
Il est donc plus difficile de bien positionner une nouvelle page pour un site récent.

Pour finir, le positionnement des « Exact Match Domain » (EMD) pourrait s’avérer plus compliqué qu’il n’y parait. Pour rappel, l’EMD consiste à se positionner sur un nom de domaine qui contient le mot clé recherché, par exemple « voitures-de-luxe.shop » pour un vendeur de véhicules de luxe.
Les documents révèlent l’attribut « exact_match_domain_demotion », signifiant littéralement « rétrogradation du domaine de correspondance exacte », sans que l’on connaisse avec exactitude sa difficulté.

Recommandations

Au final, rien de bien neuf sous le SEOleil (haha ce jeu de mot bidon XD). Cette fuite de documents n’a pas rebattue les cartes et ce qui était dit auparavant reste valable : du moment qu’on est attentif aux besoins de l’utilisateur, on va dans le bon sens.

Travailler l’Expérience et les Interfaces Utilisateurs (UX et UI)

Si l’utilisateur se sent bien sur un site il restera plus volontiers, alors qu’un design vieillot ou peu professionnel aura tendance à le faire fuir.
On sait désormais qu’un visiteur qui repart immédiatement équivaut à pas de visiteur du tout !

Navboost étant cité à de nombreuses reprises dans le Google Leak, il semble qu’il ai une certaine prépondérance dans le positionnement d’une page. Le comportement des visiteurs dans les résultats de recherche et dans le site sont importants et influent sur le ranking. Il est donc grand temps de prendre soin de vos interfaces et de l’expérience utilisateur.

Comment ?
Commence par analyser le ratio clics / impressions de tes pages web et les durées de session. Si une page a beaucoup d’impressions et aucun clic, il y a certainement un problème et cela peut conduire à des baisses de positions.

Un positionnement expert, de qualité et mis à jour régulièrement

On ne peut pas être expert en tout et Google l’a bien compris. Il vaut mieux privilégier des sujets connexes, bien documentés et originaux, plutôt que vouloir parler de sujets trop nombreux et moins bien maitrisés pour favoriser le « siteFocusScore ».

C’est d’autant plus parlant avec un rédacteur seul, auquel cas il vaudra mieux éviter d’aborder des thématiques trop éloignées les unes des autres.
Avec plusieurs rédacteurs, la notion d’entité nommées peut permettre un rédactionnel plus vaste en mettant en avant les entités auteur, sans pour autant devenir Babel.

Comment ?
Se concentrer sur son domaine d’expertise a toujours été un critère EEAT et reste donc particulièrement bénéfique. Mettre à jour les contenus une à deux fois par an, même lorsqu’ils sont bien positionnés, serait aussi un bon procédé. Ajouter des précisions ou des modifications de point de vue est utile et permet d’améliorer son ranking avec des efforts moindres qu’un nouvel article.

Tester, ajuster, recommencer

En SEO il n’y a pas de science exacte et le meilleur moyen d’obtenir des résultats c’est l’expérience : il faut itérer. D’autant plus que l’algorithme aime les mises à jours de contenus alors il faut en profiter.

Dernière petite info pour les courageux qui seront allés jusqu’à la fin de l’article : utiliser des titres longs ! Même si le titre est tronqué dans les résultats de recherche, les titres de plus de 70 caractères ne pénalisent pas le ranking.

Ca donne raison à Olivier Andrieu, le « papa du SEO » en France et auteur de nombreux livres de références, qui en parlait justement pendant l’interview « Améliorer son SEO : Les meilleures optimisations SEO (30 ans que ça fonctionne) – Olivier Andrieu » chez Bilkher Diakhaté (vers 30mn42s) : « J’étais pour des titles assez longs (…) 10-12 mots, on s’en fou que ce soit pas affiché, Google il le lit le title… ».
Bravo Monsieur, vous aviez déjà tout compris 😉

Je terminerai en indiquant que je n’ai pas moi même accédé et analysé ce Leak, je laisse ça a des experts autrement plus à même de comprendre les subtilités de tous ces signaux.
Le sujet m’intéressant, j’ai lu plusieurs articles en français et en anglais, pour me faire un avis et rédiger cet article.

Voici mes sources : https://www.abondance.com/20240603-543987-google-leak-nouvelles-decouvertes.html, https://www.seomix.fr/fuite-de-donnees-google-seo/, https://searchengineland.com/how-seo-moves-forward-google-leak-442749, https://foxglove-partner.com/google-leak-les-secrets-de-lalgorithme-reveles/, https://www.wegrowth.io/seo-referencement-naturel/google-algo-leak-seo, https://www.search-foresight.com/leak-google-les-secrets-seo-enfin-devoiles/, https://universem.com/fr-be/inspirations/google-leaks/.

Articles relatifs

Laisser un commentaire

Google Leak : les secrets de l’algo dévoilés ?