Budget crawl : Google donne des explications

Publié le : 30 Janvier 2017
Le logo de Google

Le « budget crawl » est une notion qui fait référence au fait que Google allouerait un nombre limité de ressources pour parcourir (crawler) un site web.Google via un article officiel nous donne quelques précisions à ce sujet.

Le crawl d’un site est une étape nécessaire pour Google afin qu’il puisse l’analyser et mettre à jour son index.
Lors de l’étape de crawl les moteurs de recherche comme Google utilisent des robots (nommés également crawlers, agents, spiders,…) pour parcourir toutes les pages d’un site en suivant les différents liens.

Il est surtout utile de s’intéresser à la notion de budget crawl pour les sites possédant plusieurs milliers de pages.
Google liste dans un document officiel quelques paramètres qui influencent le « budget crawl » :

  • La limite de la vitesse d’exploration :
Lors de l’exploration, Google se fixe une limite (nombre de connexions simultanées) afin de ne pas surcharger le serveur.
Elle est grandement liée à la vitesse du serveur et aux codes d’erreurs renvoyés par celui-ci.

  • Le besoin d’exploration
Suivant les besoins Google s’adaptera et crawlera plus moins de pages.
Par exemple pour un site rarement mis à jour les robots de Google ne passeront pas souvent, dans le cas d’une refonte les robots seront beaucoup plus actifs.

C’est en associant la vitesse d’exploration et le besoin d’exploration que Google détermine le nombre d’URL qu’il veut et peut explorer.

Comme l’indique le moteur de recherche, il est important de ne pas gaspiller les ressources des crawlers en ayant des pages de faible qualité.

Google nous donne également un aperçu de facteurs pouvant affecter négativement l’exploration et l’indexation d’un site internet :

  • La navigation à facettes ainsi que les identifiants de session
  • Le contenu dupliqué sur le site
  • Les pages d'erreurs "soft 404"
  • Les pages piratées
  • Les espaces infinis et proxys
  • Les contenus de mauvaise qualité et spam


Le fait que le crawl d’un site soit facilité n’est pas un critère de positionnement, mais cela est nécessaire pour que toutes les pages importantes d’un site soient prises en compte par les algorithmes.

SEO/Content
Paid Media
Web Analytics / Data

Échangeons sur votre projet