Chaque jour, les robots d’exploration de Google crawlent des milliards de pages web. Il y a plusieurs années, en 2016, le moteur de recherche avait annoncé avoir indexé 130 000 milliards de pages de sites internet. Il faut noter que cela ne représente pas l’intégralité des URLs présentes sur la toile.
Afin de posséder une copie fiable du web dans son index et de proposer aux utilisateurs des résultats pertinents en lien avec leur recherche, Google demande à ses Googlebots de crawler (c’est-à-dire parcourir, analyser, répertorier et classer) les pages d’un site internet.
En fonction du nombre d’URLs que possède votre site, un budget crawl vous est alloué par le moteur de recherche. Cette ressource, qui dépend de plusieurs critères (performance du serveur, profondeur des pages, fréquence de mise à jour, qualité de contenu, …), va permettre l’indexation d’un certain nombre de pages.
Sans cette étape d’indexation, il sera impossible pour un utilisateur de voir les pages de votre site internet dans les résultats de recherche. Voici quelques étapes simples à mettre en place pour rendre l’indexation plus efficace.
La Google Search Console est un outil gratuit de Google permettant de vérifier l’indexation des pages de son site mais également de suivre leur performance et de résoudre les différentes erreurs qui peuvent survenir.
Cet outil vous permet de vérifier l’état d’indexation de vos pages qu’elles soient déjà en ligne depuis plusieurs mois ou qu’elles viennent d’être publiées.
Pour ce faire :
L’inspection de l’URL, vous donne également plusieurs indications comme “l’autorisation d’indexation”. Autrement dit, il est possible que votre page ne soit pas prise en compte dans l’indexation de Google à cause de la présence de balise “noindex”.
Il est donc important, lorsque vous souhaitez indexer une page, de vérifier les en-têtes HTML pour s’assurer qu’il n’y ait pas de balise “X-Robots-Tag” par exemple. Dans le cas contraire, il faudra supprimer la balise et soumettre l’URL à une nouvelle demande d’indexation.
La balise canonique permet d’expliquer à Google si la page est unique ou s’il existe d’autres versions de cette page sur le site.
Si la page ne possède pas de balise canonique ou que celle-ci correspond à votre URL, alors Googlebot indexera votre page.
Dans le cas contraire, si votre page possède une balise canonique autre que l’URL de celle-ci alors cela signifie qu’il existe une autre page, désignée comme “favorite” et donc ne sera pas indexée.
Le sitemap.xml est un fichier conçue uniquement pour les robots des moteurs de recherche afin de leur communiquer plusieurs informations :
Une fois créé, vous pouvez déposer l’URL de votre fichier dans l’onglet “Sitemaps” de la Search Console pour demander à Google de prendre en compte les URLs de votre site dans son index.
Le fichier robots.txt donne des directives aux robots. Il indique les URLs qu’ils ont le droit de suivre ou non grâce à des consignes d’exécutions claires. Par exemple, vous pouvez demander au robot du moteur de recherche de ne pas indexer certaines pages pour donner la priorité à d’autres plus importantes.
Vous l’aurez donc compris, il faut vérifier les directives que vous avez mises en place afin de vous assurez que vous pouvez faire indexer vos pages par Google.
Les Googlebots suivent les liens internes entre vos pages pour les découvrir. En liant vos pages entre elles, vous évitez non seulement d’avoir des pages orphelines (non reliées à l’arborescence) mais également d’avoir une profondeur à plus de 3 clics de la page d’accueil.
A l’instar du sitemap, le plan de site est une page qui transmet l’intégralité des pages du site internet. Avec sa présence en bas de page, il donne un accès naturel aux robots comme aux utilisateurs.
Très intéressant pour les sites internet avec énormément de pages, il permet de transmettre l’ensemble des URLs à faire indexer.
Afin d’avoir des pages indexées rapidement, vous pouvez également essayer de récupérer des backlinks d’autres sites. Cela permettra de signaler à Google que votre site possède une autorité importante et que vos contenus sont de qualité.
Vous l’aurez donc compris, l’indexation des pages par Google est un processus important si vous souhaitez être visible dans les résultats de recherche. N’hésitez pas à vérifier les différents points énumérés ou à contacter une agence de référencement SEO comme Synerweb pour mener à bien l’optimisation et l’indexation de votre site internet.