Semalt: Comment bloquer Darodar Robots.txt

Le fichier Robots.txt est un fichier texte typique qui contient des instructions sur la façon dont les robots ou les robots Web doivent analyser un site. Leur application est évidente dans les robots des moteurs de recherche qui sont courants dans de nombreux sites Web optimisés. Dans le cadre du protocole Robots Exclusion Protocol (REP), le fichier robots.txt constitue un aspect essentiel de l'indexation du contenu du site Web et permet à un serveur d'authentifier les demandes des utilisateurs en conséquence.

Julia Vashneva, la responsable principale de la réussite client de Semalt , explique que la liaison est un aspect de l'optimisation des moteurs de recherche (SEO), qui consiste à gagner du trafic provenant d'autres domaines au sein de votre créneau. Pour que les liens «suivre» transfèrent le jus de liens, il est essentiel d'inclure un fichier robots.txt sur votre espace d'hébergement de site Web pour agir en tant qu'instructeur sur la façon dont le serveur interagit avec votre site. À partir de cette archive, les instructions sont présentes en autorisant ou en interdisant le comportement de certains agents utilisateurs spécifiques.

Le format de base d'un fichier robots.txt

Un fichier robots.txt contient deux lignes essentielles:

Agent utilisateur: [nom de l'agent utilisateur]

Interdire: [la chaîne d'URL ne doit pas être explorée]

Un fichier robots.txt complet doit contenir ces deux lignes. Cependant, certains d'entre eux peuvent contenir plusieurs lignes d'agents utilisateurs et de directives. Ces commandes peuvent contenir des aspects tels que les autorisations, les refus ou les retards d'exploration. Il y a généralement un saut de ligne qui sépare chaque ensemble d'instructions. Chacune des instructions permettant ou interdisant est séparée par ce saut de ligne, en particulier pour le fichier robots.txt avec plusieurs lignes.

Exemples

Par exemple, un fichier robots.txt peut contenir des codes tels que:

User-agent: darodar

Interdire: / plugin

Interdire: / API

Interdire: / _comments

Dans ce cas, il s'agit d'un fichier bloc robots.txt interdisant au robot d'exploration Darodar d'accéder à votre site Web. Dans la syntaxe ci-dessus, le code bloque certains aspects du site Web tels que les plugins, l'API et la section des commentaires. De cette connaissance, il est possible d'obtenir de nombreux avantages en exécutant efficacement le fichier texte d'un robot. Les fichiers Robots.txt peuvent exécuter de nombreuses fonctions. Par exemple, ils peuvent être prêts à:

1. Autorisez tout le contenu des robots d'indexation Web dans une page de site Web. Par exemple;

Agent utilisateur: *

Refuser:

Dans ce cas, tout le contenu utilisateur peut être consulté par tout robot d'indexation à qui il est demandé d'accéder à un site Web.

2. Bloquez un contenu Web spécifique à partir d'un dossier spécifique. Par exemple;

Agent utilisateur: Googlebot

Interdire: / exemple-sous-dossier /

Cette syntaxe contenant le nom de l'agent utilisateur Googlebot appartient à Google. Il empêche le bot d'accéder à n'importe quelle page Web de la chaîne www.ourexample.com/example-subfolder/.

3. Bloquer un robot d'indexation Web spécifique à partir d'une page Web spécifique. Par exemple;

Agent utilisateur: Bingbot

Interdire: /example-subfolder/blocked-page.html

L'agent utilisateur Bing bot appartient aux robots d'indexation Bing. Ce type de fichier robots.txt empêche le robot d'indexation Bing d'accéder à une page spécifique avec la chaîne www.ourexample.com/example-subfolder/blocked-page.

Une information important

  • Tous les utilisateurs n'utilisent pas votre fichier robts.txt. Certains utilisateurs peuvent décider de l'ignorer. La plupart de ces robots d'exploration Web incluent des chevaux de Troie et des logiciels malveillants.
  • Pour qu'un fichier Robots.txt soit visible, il doit être disponible dans le répertoire du site Web de niveau supérieur.
  • Les caractères "robots.txt" sont sensibles à la casse. Par conséquent, vous ne devez en aucun cas les modifier, y compris la capitalisation de certains aspects.
  • Le "/robots.txt" est du domaine public. N'importe qui peut trouver ces informations en les ajoutant au contenu de n'importe quelle URL. Vous ne devez pas indexer les détails essentiels ou les pages dont vous souhaitez qu'ils restent privés.

send email