Le SEO technique, c’est quoi ?

Le SEO technique, c'est quoi ?

Historiquement, le SEO technique (Search Engine Optimization) est un travail orienté serveur/client, effectué par des spécialistes dont l’attention est portée sur le crawling, le rendering et l’indexation d’un site web, par des moteurs de recherche.

Le SEO technique est défini par les différentes configurations qui peuvent êtres implémentées sur un site web ou sur son serveur : HTTP header responses, XML sitemaps, redirections… Le SEO technique a un impact direct et indirect sur la capacité de crawl, d’indexation et finalement de positionnement des moteurs de recherche. Le SEO technique n’inclut pas l’analytics, la recherche de mots-clés, le netlinking ou les stratégies sur les réseaux sociaux.

En 2017, Russ Jones défini le SEO technique comme ceci :

Toute action technique entreprise dans l’intention d’améliorer les résultats de recherche.

 

Le crawling

Le crawling définit la manière qu’ont les moteurs de recherche à découvrir de nouveaux liens ou de nouvelles pages sur internet. Voici un aperçu de ce qu’est le crawling.


L’index de Google search contient des milliards de pages web. : cela représente une quantité gigantesque de données (100 K Terabytes). Pour nourrir cet index, Google utilise un robot crawler : Googlebot. Ce dernier parcours le web à la recherche de nouvelles pages et l’ajoute à une liste. De son côté, Bing utilise Bingbot. Tous deux possèdent une variante mobile et une variante desktop de leurs robots pour explorer le web.

Malgré cette taille gigantesque, Google et Bing ne connaissent pas l’entièreté du Web. Ils ne connaissent que sa surface. Cette portion est accessible publiquement et elle est régulièrement mise à jour via les crawlers (Googlebot et Bingbot). L’autre partie du Web est appelée le “Deep web“. Ce web insivible serait 4000 ou 5000 fois plus grand la partie publique selon l’Université de Washington.

Pour explorer tout ça, Google possède une puissante infrastructure qui répartit la charge à travers les différentes machines. Les crawlers fonctionnent de manière incrémentale : ils rafraichissent en continue les pages qu’ils connaissent déjà pour avoir la version la plus récente dans leur index. Attention : le crawling se différencie du rendering, nosu y reviendrons plus bas.

Selon John Muller(Google), chaque page est crawlée au moins deux fois par an :

 


Le crawl budget

En 2017, Google a fournit aux webmasters quelques guidelines sur la façon d’appréhender le crawl budget. Le terme de crawl budget est utilisé par la sphère SEO pour indiquer la quantité de ressources que Google est susceptible d’accorder à un site web.

Google indique dans ses guidelines qu’un site possédant quelques milliers d’URL ne devrait pas s’inquiéter, qu’il sera crawlé correctement la plupart du temps (source).

L’objectif principal du SEO technique est d’assurer, que Google dépense son temps de crawl et de rendu de manière optimale. A l’inverse, on voudra qu’il dépense très peu de ressources pour des contenus sans valeur.

Voici quelques exemples d’urls sans valeur aux yeux de Google :

  • Navigation à facette
  • Identifiants de session
  • Contenu dupliqué
  • Soft 404
  • Pages infectées
  • Contenus infinis

…et quelques exemples qui influencent le taux de crawl de vos urls :

  • Contenu bloqué par le robots.txt
  • Santé de votre serveur
  • Limite de crawl fixé dans la Search Console
  • Migration de contenu
  • Popularité des urls pour les utilisateurs
  • Technologie utilisée (JS, PHP…)
  • Catégorie du site web (news, ecommerce, blog..)

Le cloaking

Google définit le cloaking comme le fait de présenter un différent contenu ou une différente urls selon que le visiteur soit un humain ou un moteur de recherche. Le cloaking est considéré comme une violation des guidelines de Google car il fournit aux visiteurs un résultat différent que celui attendu.

Cloak of Visibility: Detecting When Machines Browse A Different Web
Cloak of Visibility: Detecting When Machines
Browse A Different Web

En 2016, Google a entrainé un modèle de classification capable de détecter 95.5% des techniques de cloaking avec un faux positif de 0.9%.


Le rendering

Le rendering est le processus de prendre les contenus crawlés et d’utiliser un WRS (Web Rendering Service) pour construire le DOM à partir du HTML et d’autres technologies comme JavaScript.

Etapes du rendering d’une page web

  1. Analyse du HTML et création du DOM.

    DOM tree
    DOM tree

    Le HTML est une structure hiérarchique qui commence par un tag <html> et qui contient un <head>, un <body> et une multitude d’autres éléments. Ces tags sont inséré dans un “DOM tree” par le moteur de rendu.

  2. Rendu de la hiérarchie
    3D view render process
    Après ce premier rendu, le moteur va également combiner les fichiers CSS pour créer une structure visuelle : la taille des <div>, les couleurs sont prises en compte pour s’approcher au mieux de ce que voit l’utilisateur sur son écran.
  3. Création du layout
    Une fois le rendu créé, le moteur de rendu va placé chaque élément HTML à sa place sur l’écran. Il commence par tout en haut à gauche et créé le layout jusque tout en bas à droite.

Un moteur de recherche ne peut pas “voir” une page comme nous. Pour analyser une page, il utilise une série de règles afin de construire une hiérarchie et tente de comprendre où les éléments sont placés dedans (sidebar, body, header, footer..). Pour Google, il est nécessaire de construire toute la page pour en comprendre le sens.

Ce que nous savons à propos du moteur de rendu de Google (WRS)

  • Il utilise une version très proche de Google Chrome
  • Il n’utilise pas les cookies
  • Les service workers ne sont pas autorisés par Googlebot.
  • Le test en temps réel sur la Search Console est différent de celui de Googlebot. Le live test est sensible à la durée, pas Googlebot.
  • La date ainsi que le temps de crawl et d’indexation peuvent différer. Google peut indexer ce qu’il a déjà si le nouveau crawl échoue.

Les limitations JavaScript

Martin Splitt (Google) passe beaucoup de temps à éduquer les SEO et les webmasters aux limitations de rendu du JavaScript par les moteurs.
Le JavaScript est beaucoup utilisé par les plateformes web car il propose de nombreuses fonctionnalités qui rendent les outils très puissants. Rendre votre application web Google-friendly peut impacter fortement la visibilité de celle-ci dans les résultats de Google.

 

J’espère que cet article permettra aux curieux de mieux comprendre ce que le SEO technique signifie et pourquoi il est important de s’en soucier.

Laisser un commentaire