2 – Audit SEO technique : l’indexation

Après la première partie concernant le crawl d’un site web, nous parlerons ici de l’indexation.

Dans cette partie, nous aborderons plus sujets :

  • Ratio d’indexation
  • Sitemaps
  • Pages bloquées
  • Contenu dupliqué
  • Mobile first

Ratio d’indexation

Pour qu’une page soit affichée dans la SERP, cette page doit premièrement être indexée par le moteur de recherche.
Le ratio d’indexation est un ratio entre le nombre de pages indexées par le moteur de recherche et le nombre de pages sur votre site.

Est-ce qu’il y a une différence entre ces deux nombres ? Généralement oui !

ll existe trois scénarios d’indexation :

  1. Le nombre de pages indexées = nombre de pages existantes sur le site.
  2. Le nombre de pages indexées > nombre de pages existantes (= présence de contenu dupliqué).
  3. Le nombre de pages indexées < nombre de pages existantes (= présence de contenu bloqué).

Comment connaitre le ratio de votre site

  1. Rendez-vous sur Google et entrez la commande site:votresite.com
    Google affichera le nombre de pages qu’il a indexé.
  2. Lancez un crawl de votre site avec Screaming Frog et filtrez uniquement le HTML.
    Vous obtiendrez le nombre de pages existantes sur votre site.

Une méthode plus précise pour connaître le nombre de pages indexées est d’utiliser la search console et d’y envoyer l’url de votre sitemap.xml. La search console est gratuite et vous permet de monitorer la bonne santé de votre site.

 

Le sitemap

Le plan du site permet d’informer les moteurs de recherche des changements effectués sur votre site. A chaque modification ou création de page, le sitemap ce mets à jour.

Ce fichier n’est pas obligatoire, alors pourquoi le créer ?
Simplement car il permet de gagner du temps ! En effet, vous faite gagner du temps à Google en lui présentant un fichier qui liste toutes les urls de votre site. Retournez-voir la section sur le crawl budget pour bien comprendre.

Le sitemap permet très rapidement de trouver les pages profondes, voici un exemple de sitemap.xml :

Bonnes pratiques en matière de sitemap

  1. Utiliser le protocole XML (voir la documentation)
  2. N’envoyer que les urls canoniques
  3. Ajouter l’adresse de votre sitemap dans le fichier robots.txt
  4. Limitez-vous à 50.000 urls dans le sitemap (vous pouvez créer plusieurs sitemap)
  5. N’envoyer que des pages en code 200, de bonne qualité (= pages accessibles)

Créer un fichier sitemap

Si vous utilisez un CMS récent (Joomla, WordPress ou Drupal par exemple), ils gèrent nativement la création d’un sitemap.xml

Si vous avez un site sans CMS, lancez un crawl avec SF et exportez l’ensemble de vos pages HTML au format xml.

Sitemap
Sitemap

Placez le fichier xml à la racine de votre site et ajoutez-le sur la search console.

Opportunités

En analysant régulièrement les urls présentes dans votre sitemap avec SF, vous pourrez voir les pages qui présentent des erreurs.

Les pages bloquées

Dans le cas de figures où le nombre de pages indexées < nombre de pages existantes, votre site a des pages bloquées pour les moteurs de recherche.

Ces pages sont souvent bloquées dans le fichier robots.txt. En effet, c’est dans celui-ci que l’on peut indiquer aux robots quelles pages il peut indexer ou non.

Exemple pour le site pompes-cng.be :

Analysons ce fichier :

  • La première ligne “User-Agent : *” précise que nous autorisons tous les crawlers à suivre les instructions ci-dessous. L’astérisque signifie “tous”.
  • “Disallow: /reperoire” : indique aux robots de ne pas crawler ou indexer ce répertoire.
  • “Allow: /repertoire*.png” : indique de crawler / indexer les fichiers png du répertoire.
  • Enfin dans la dernière ligne, nous précisons l’adresse du sitemap.xml

Pour vérifier que votre robots.txt est valide, vous pouvez utiliser le testeur présent dans la search console.

Bonnes pratiques concernant le robots.txt :

  1. Il doit être présent à la racine du site (votresite.com/robots.txt)
  2. Utiliser un fichier robots.txt par sous-domaine (sub.votresite.com/robots.txt)

 

Le tag “meta-robot”

Ce tag est placé dans entre les balises <head> et </head> de vos pages. Ces codes donnent aux crawler des instructions sur l’indexation de pages spécifiques. Ces meta-tags permettent par exemple de crawler une page sans que celle-ci ne soit indexées par exemple.

1 commentaire sur “2 – Audit SEO technique : l’indexation

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *