Indexation par les moteurs de recherche et industrie de santé

Les principes de bases de la recherche Google ; l’indexation

Vous utilisez chaque jour Google ou un autre moteur de recherche sans vraiment savoir comment cela fonctionne exactement. Pourtant les résultats de vos recherches peuvent considérablement variées en fonction de nombreux paramètres. Vous trouverez ici les informations à connaitre pour mieux utiliser ces outils indispensables à une bonne utilisation du web. Il s’agit également du minimum de connaissances à maitriser avant de se lancer dans un projet visant à améliorer la visibilité de son site web, et à augmenter son niveau de trafic qualifié.

Tout commence par l’indexation du web.

Beaucoup l’ignore, mais lorsque Google vous présente une page de résultat de moteur de recherche, SERP, de l’anglais Search Engine Results Page, il s’agit des résultats issus de l’index du web de Google ou équivalent.

Le rôle des robots d’exploration et d’indexation.

Google explore en permanence le web grâce à des robots ou spiders qui vont parcourir le web, le « crawler », c’est à dire analyser chaque page pour ensuite les indexer. La manière dont chaque spider explore le web ainsi que les règles d’indexation sont propres à chaque moteur.

Certains estiment que près de 50% du trafic web provient de l’activité de ces robots ou spiders. Il est d’ailleurs possible de vérifier ce point à partir d’outils comme Google Analytics ou bien encore de plug-in spécifique de votre CMS qui vont indiqueront la provenance des visites sur votre site.

Ainsi vos visiteurs de Mountain View, Californie sont certainement le fameux googlebot. Ceux en provenance de Redmond, Washington le msnbot de Microsoft pour son moteur Bing.

Même si ce n’est pas officiel, on peut penser que certaines règles et algorithmes sont appliqués au moment de l’indexation de manière à optimiser le traitement de celui-ci en réponse à une requête. Un exemple, la compatibilité d’une page de votre site avec une lecture confortable sur téléphone mobile, ce qui permettra ensuite à Google de présenter ou nom cette page si l’utilisateur consulte le web depuis ce type d’appareil.

Premier enseignement ; les résultats présentés par les moteurs de recherche vont variés en fonction de certains paramètres, ici le type d’appareil utilisé. Nous verrons, qu’il existe plusieurs dizaines de facteurs pouvant influencer les résultats de recherche.

Robot indexant le web

Les robots d’indexation ou spiders explorent le web pour alimenter un index de celui-ci ; c’est cette base qui est exploitée lors de vos recherches sur Google

 

Comment les robots choisissent leurs cibles, comment ajustent-ils la fréquence de leur passage?

Historiquement, les crawlers de Google partaient d’une page et suivaient les liens entre les pages (« link » en anglais), soit internes au site soit externes à celui-ci.
On comprend mieux pourquoi certains sites très riches en contenu et souvent cités en référence par de nombreux autres sites, comme par exemple Wikipedia, voyaient leurs pages visitées et crawlées par les robots plus souvent que les autres.

Cette notion de « référence » est toujours d’actualité -nous le verrons dans de prochains chapitres- mais n’a probablement plus d’influence sur la fréquence de l’indexation par les moteurs.

Ainsi, il est aujourd’hui possible de « soumettre » à Google un plan de votre site ou « sitemap » pour lui indiquer quelles pages peuvent et doivent être crawlées. Il est également possible et conseiller de lui indiquer avec quelle fréquence le contenu de cette page va être modifié et donc avec quelle fréquence il est nécessaire de revenir explorer cette page.

Inutile d’indiquer une fréquence quotidienne si votre article ne doit jamais changer ; Google et les autres moteurs de recherche n’apprécient pas, mais alors pas du tout, de perdre leur temps et leurs précieuses ressources à explorer en permanence des pages statiques.
Le risque en cas d’abus est important avec l’application de pénalités et / ou un espacement de la fréquence de l’indexation.
Si vous devez de temps à autre modifier quelques passages, il existe d’autres techniques pour les faire indexer rapidement.

Au final ce que vous voyez dans votre page SERP, c’est une sélection de l’index ; prenons l’exemple de la page correspond aux résultats de la recherche « consultant web industrie santé », avec B6B Consulting en première position juste après les annonces payantes (une bonne illustration d’un référencement naturel réussi…)

SERP et Cache

Vous pouvez accéder à l’index Google en sélectionnant « en cache » après avoir cliqué sur la flèche verte à côté de l’adresse du site.
Vous accèderez directement à la page « archivée » dans l’index Google, qui peut être différente de la page actuellement en ligne.

Les bonnes pratiques et les erreurs à ne pas faire

Il n’existe aujourd’hui plus beaucoup de moyens pour influencer l’indexation de votre site, par contre il y a de nombreuses manières d’être pénalisé même si ce terme n’existe pas officiellement.

Concevoir et maintenir un site web techniquement irréprochable, voici quelques points essentiels ;

  • Développer une architecture simple en évitant les pages trop profondes (plus de deux clics),
  • Soigner la navigation intra-site en multipliant les liens internes,
  • Rechercher et corriger les liens rompus, internes ou externes ; les spiders n’aiment pas du tout les voies sans issues,
  • Inspecter régulièrement l’état de santé de votre site, le nombre de pages indexées par Google ou les autres moteurs, comparer avec le nombre de pages soumises à l’indexation dans votre sitemap, ce qui suppose bien sûr d’en avoir un accessible aux spiders,
  • Vérifier que votre fichier « robots.txt » ne bloque pas l’accès à certaines sections de votre site, ne riez pas c’est assez courant,
  • Rechercher et corriger les erreurs « 404 » pour « page not found »,
  • N’utilisez les redirections, comme par exemple les codes 301 « moved permanently » qu’avec discernement et si possible pendant des périodes limitées de transition,

 

 

Les robots et spiders ont horreur des voies sans issue!!!

Voie sans issue et indexation

 

 

Pour un site de contenu et sans fréquente actualisation, une telle surveillance peut se faire tous les mois et peut prendre quelques minutes une fois le processus mis en place. Ne pas surveiller l’état de santé de son site c’est prendre le risque d’une lente et insidieuse dégradation de son positionnement dans les moteurs de recherche, quasiment indétectable. C’est souvent au bout de plusieurs mois que l’on constate les dégâts et les causes réelles sont alors rarement identifiées.

A la clé, une mort lente par asphyxie ou si les budgets sont là une refonte totale et coûteuse du site avec à la base souvent les mêmes erreurs.

Vous avez des doutes sur l’état de santé de votre site ? Demandez un diagnostic à votre agence web ou adressez-vous à un spécialiste indépendant comme B6B Consulting.

 

Quelles implications pour les industries de santé ?

La première étape du long chemin qui mène à une bonne visibilité sur les moteurs de recherche est l’indexation des pages d’un site web par les robots ou spiders. Si votre site présente à la conception ou par défaut de maintenance de nombreuses erreurs techniques, son indexation et donc sa visibilité sera compromise.

Pour les industries de santé, il y a beaucoup à perdre en négligeant ces aspects techniques.

Pour un laboratoire pharmaceutique par exemple, développer un contenu original et de qualité est tout à fait accessible ; la question du public cible sera abordée dans d’autres articles sur le référencement naturel des sites web des industries de santé.

Toutefois si l’indexation est déficiente, ce qui est souvent très difficile à diagnostiquer, la visibilité sur les moteurs de recherche sera fortement dégradée. En pratique, cela se traduit par une déperdition des moyens et budgets investis, simplement parce qu’il est plus facile et évident de se concentrer  sur la mise en page du site, ses animations, ses vidéos, ses services, etc.

Tout cela est alors plombé par une indexation déficiente avec comme cause principale une technique défaillante et le non-respect des quelques règles simples, parfaitement connues et stables de l’indexation d’un site web par les moteurs de recherche.

A l’extrême il est inutile de développer un contenu de qualité, parfaitement structuré pour optimiser certains mots ou expressions clés si votre site ne peut être indexé parce qu’une ligne de votre fichier robots.txt bloque l’indexation. Si cet exemple est volontairement caricatural, il permet de bien comprendre que la technique doit précéder le contenu et l’optimisation éditoriale.