L’année 2023 débute à peine et un évènement agite déjà le monde du SEO : la découverte rendue publique d’une faille de Yandex, le célèbre moteur de recherche russe. Retour sur une opportunité exceptionnelle pour la communauté SEO, entre zones d’ombres et débats particulièrement passionnés.
L’élément déclencheur
BreachForums, le 25 janvier 2023, une journée aux apparences comme une autre pour le forum de discussions, célèbre pour ses fuites diverses d’informations confidentielles et ses contenus illégaux. Cependant, tapis dans l’ombre de son activité, la plate-forme s’apprête à recevoir une contribution d’un utilisateur anonyme qui va créer une effervescence rarement égalée dans le milieu du SEO.
Un nouveau thread fait son apparition, avec en guise de titre « yandex git sources ». La description se résume en trois courtes lignes et un lien mystérieux vers ce qui est indiqué comme un code source appartenant au moteur de recherche Yandex.
Certains experts SEO se risquent et s’engouffrent dans le lien. Ils y découvrent un code volumineux et en décryptent progressivement les lignes. De leur fastueuse analyse résulte une vertigineuse librairie de critères de pertinence utilisée par l’algorithme de Yandex. Ce qui s’apparentait à l’origine comme un clickbait de mauvais goût se transforme en une affaire qui est considérée comme possiblement l’avancée la plus fulgurante dans la compréhension des algorithmes de moteurs de recherche.
Yandex ? c’est quoi ?
Créé à Moscou en 1997 (soit un an avant Google) comme l’un des premiers search engine adaptés au langage cyrillique, Yandex possède historiquement une part de marché majoritaire dans le pays qui l’a vu naitre (Russie) et dans certains pays membres de l’ancienne URSS (CEI). Moteur de recherche le mieux doté pour comprendre les spécificités de la langue et de la culture slave, le fleuron de la tech russe profite de son rayonnement local pour se hisser à la 3ème place du classement des parts de marché mondial après Google (91,88%) et Bing (3,19%) (StatCounter, en juin 2022).
Google et Yandex partagent de nombreux points communs. Les 2 firmes font la fierté nationale de leur pays respectif, et ce n’est pas un euphémisme. Elles sont parmi les plus grandes entités médiatiques du monde par les outils proposés comme une messagerie instantanée, des applications de cartographie, de stockage, de photo, de visio-conférence et tant d’autres ! Yandex va même jusqu’à exploiter des marchés adaptés à ses utilisateurs locaux comme s’associer avec Uber pour fonder Yandex.Taxi en 2017. Autre exemple avec son service de paiement en ligne Yandex.Money qui a pour vocation de jouer sur la proximité pour minoriser des concurrents à rayonnements internationaux comme PayPal.
Si vous ne l’avez pas encore compris, Yandex joue sur son ancienneté et son rapprochement culturel avec ses utilisateurs russophones pour tenir tête à la concurrence étrangère. Et cette stratégie paye puisqu’entre février 2021 et février 2022, Yandex gère 45% des requêtes traitées dans le pays (contre 52% pour le géant américain) (StatCounter, 2022). Mais l’invasion de l’Ukraine par la Russie début 2022 remet en question l’avenir de la société d’un point de vue éthique, politique et économique.
Hypothèses sur les causes du leak
L’exil de nombreux talents russes de la tech et les sanctions économiques frappent Yandex de plein fouet, au point que son fondateur Arkady Volozh (également condamné financièrement à l’international) quitte le navire officiellement le 30 décembre 2022. Il sera remplacé par un proche du Kremlin en la personne de Alexeï Koudrine. Il semblerait alors qu’un ancien employé anonyme, dans un but de contestation, aurait rendu public ce leak. Cette version est encouragée par la déclaration officielle de Yandex selon laquelle « « Yandex n'a pas été piraté. Notre service de sécurité a trouvé des fragments de code d'un référentiel (repository) interne dans le domaine public […] Nous menons une enquête interne sur les raisons de la diffusion de fragments de code source au public, mais nous n'y voyons aucune menace pour les données des utilisateurs ou les performances de la plateforme. »
En quoi consiste le leak ?
Le leak comporte un document de 44,70 Go qui n’est autre qu’un large fragment de code appartenant à différents services du géant comme Yandex.Search (moteur de recherche), Yandex.Maps, Alice (AI), Yandex.Taxi, Yandex.Direct (régie publicitaire), Yandex.Mail, Yandex.Disk (stockage de données en ligne), Yandex.Market (marketplace), Yandex.Travel (platform de voyage), Yandex360 (workspaces service), Yandex Cloud, Yandex Pay (paiement en ligne), Yandex Metrika (analytics et dataviz).
Malgré sa taille conséquente, le fichier date de juillet 2022 et est loin d’être complet, par l’absence des règles anti-spam. Cependant, il liste une impressionnante librairie de 1 922 critères de pertinence pour noter la pertinence d'une page par rapport à une requête donnée, parmi lesquelles :
- Age des back links
- Trafic et part du trafic organique
- Présence de nombre dans les url
- Nombre de sous-répertoires dans les terminaisons d’url
- Optimisation du code
- Qualité du crawl (nombre d’erreurs 40x et 50x)
- Age de la page et date de mise à jour
- Niveau de profondeur (jusqu'à 3)
- Pages orphelines moins bien classées
- Liens depuis la page d’accueil plus forts que depuis d'autres pages
- Part de lettres en majuscules dans une balise title
- La qualité du texte du site (des pages de mauvaise qualité impactent tout le site)
- …
Et bien d’autres référentiels !
Il est à noter que malgré le premier chiffre relayé par la communauté SEO de 1 922 facteurs découverts, ces derniers ne représentent en réalité qu’une fraction réelle de ce qui est présent dans le leak. En effet, l’origine de ce nombre vient des premières estimations rendues publiques par Martin MacDonald sur la base d’un unique fichier web_factors_info/factors_gen.in. Une exploration plus poussée de l’ensemble du répertoire indique une multitude de fichiers supplémentaires comportant d’autres sous-ensembles et facteurs de référencement SEO. Actuellement, le total se porte sur 17854 facteurs identifiables autour de vastes métriques comme le clic, le Dwell Time (temps qu’un utilisateur passe sur une page donnée avant de retourner sur la page de résultats de recherche (SERP)) ou encore des données issues de Yandex.Metrica.
Une aubaine pour la compréhension globale des moteurs de recherches
A contrario de moteurs de recherches comme Qwant qui a besoin de technologies Microsoft / Bing pour alimenter ses résultats, Yandex peut se targuer d’avoir des technologies, des bases de données et un algorithme qui lui sont propres. Mais la découverte de ce leak est une aubaine dans la compréhension d’autres moteurs de recherches, et Google est clairement visé dans cette intention.
Il faut comprendre que Google et Yandex sont deux mastodontes concurrents depuis presque 15 ans. Les deux entités sont aux avant-postes de l’innovation et il n’est pas rare que certains de leurs employés les plus importants aient eu une expérience dans les deux sociétés. De plus, le monde du SEO est petit. Leurs ingénieurs respectifs se connaissent et échangent sur leurs pratiques lors de conférences internationales. Enfin, Yandex utilise ouvertement des technologies open source de Google qui ont contribué à de nombreuses innovations au niveau des algorithme comme BERT (performances en traitement automatique des langues).
Ces échanges se reflètent sur l’architecture du moteur de recherche de Yandex qui partage finalement un certain nombre de points communs avec Google, au point que certains experts avancent une statistique invérifiable avec un taux de 70% de SERP similaires entre les deux search engines.
Mais à nuancer comme il se doit !
Malgré ses similarités et l’émulation suscitée par cette concurrence, il est important de garder à l’esprit que Yandex n’est pas Google. La raison principale reste la dimension locale du moteur de recherche russe dont l’objectif reste le renforcement de sa notoriété auprès des utilisateurs russophones. Cet écart avec le rayonnement mondial de Google amène une adaptation des critères de référencement et donc une différenciation par défaut.
De plus, la comparaison des deux géants reste à l’heure actuelle un doux rêve car Google n’a pas publié la moindre information sur ses propres critères de référencements ni sur leurs niveaux d’importance. Etablir des parallèles revient donc à comparer les données concrètes à des hypothèses établies au fil des années par la communauté SEO et distillées par les ingénieurs de Google. Et sans aucune information au sujet du cœur de chaque moteur, à savoir l’algorithme, cela revient à comparer des ingrédients sans en appliquer la recette. (Cf. Olivier Andrieux)
Il faut également prendre en considération l’influence politique grandissante du Kremlin au sein de la société qui incrémente de plus en plus de facteurs pouvant biaiser les résultats de la SERP dans un but de propagande. Par-delà la nomination d’un nouveau PDG proche du pouvoir en la personne d’Alexeï Koudrine, nous pouvons relever des critères spécifiques à l’Ukraine (site en .ua, requête en langue ukrainienne, page rank spécifique). Aussi, d’après une enquête délivrée par le média Meduza en mai 2022, Yandex favoriserait dans ses résultats et ses actualités une liste secrète de média pro-Kremlin, approuvée par l’administration présidentielle de Russie.
Enfin, un dernier détail peut également faire pencher la balance pour l’impossible comparaison : l’ancienneté des données du leak datant de juillet 2022. En effet, alors que Google met régulièrement à jour son moteur de recherche à raison de plusieurs fois par an, il en est de même pour Yandex qui a déclaré à la suite de la faille rendue publique : « Notre service de sécurité a trouvé des fragments de code d'un référentiel (repository) interne dans le domaine public, mais le contenu diffère de la version actuelle du référentiel utilisé dans les services Yandex. »
En conclusion, au-delà de rappeler que les plus grandes failles de cybersécurité sont essentiellement déclenchées par un comportement humain, il en est de même pour l’interprétation de toute forme de données. Vouloir comparer Yandex et Google par le biais d’un leak sans l’intervention d’un ingénieur Google/Yandex ne peut pas donner de résultats concluants.
Pourtant, une telle analyse offre des opportunités de réflexions intéressantes sur notre manière de concevoir les critères de référencement. Elles ouvrent des perspectives de tests captivantes qui pourront être mesurées et le cas échéant incluses dans l’amélioration continue de notre compréhension des moteurs de recherches.
Des évènements impactants comme celui-ci façonneront indéniablement les actions SEO de demain. Vous souhaitez implémenter ou mettre à jour votre stratégie SEO en conséquence ? Parlons-en !
By Stéphane Auroux, Consultant SEO
We Create Continuous Relationship Experiences !