 |
|

 |
 |
 |
L'utilité du fichier "robots" :
Toutes les pages de votre site sont potentiellement "indexables".
C'est à dire que toutes les urls peuvent être enregistrées.
Toutefois avec des FRAMES, des pages DYNAMIQUES, du FLASH, de
sites marchands, il faut limiter le parcours des moteurs, leur
interdire certaines pages.
Rien de plus pénalisant que d'arriver
sur un fragment de page !
Exemple : absence de menu, absence de bandeau, absence d'image,
...
Le visiteur doit impérativement arriver
par la porte d'entrée choisi
C'est quoi un fichier "robots" :
Il se présente sous un format texte (d'ou l'extension txt),pèse moins de 1
Ko.
Il se positionne à la racine du site, sur le serveur.
Exemple : www.adcom.fr/robots.txt.
Il n'en faut qu'un, inutile d'en mettre dans chaque répertoire.
Quel est le contenu de ce fichier ? :
Il faut indiquer ici les pages qui ne doivent pas être visitées
par les robots des moteurs. La syntaxe est :
# robots.txt pour le site http://www.adcom.fr
User-agent: *
Disallow: /noel/
Disallow: /prive/
La ligne "User-agent : *" indique que tous les moteurs sont concernés.
La ligne "Disallow : /noel/" interdit l'accès des moteurs à tout
le répertoire noel, toutes les pages sous celui ci ne seront pas
indexées.
Quelques règles de base :
Vous pouvez interdire l'accès à certaines pages
Vous pouvez interdire l'accès à tout le site,
Cette commande permet donc de bloquer certains accès.
Un retour chariot est nécessaire en fin de ligne de commande.
Le texte original en anglais est disponible à l'adresse suivante
:
www.robotstxt.org
Le site voilà de France Télécom donne aussi quelques explications
à la page :
www.voila.fr/Informations/Moteur_guide/donnee_tech.html#four
Comment optimiser l'arborescence d'un site :
Pour des raisons de facilité de réalisation de ce fichier,
il est préférable d'utiliser des sous-répertoires
plutôt que de mettre toutes les pages à la racine. il vaut mieux
faire :
www.adcom.fr/rep1/
www.adcom.fr/rep2/ etc
que de faire :
www.adcom.fr/page1.htm
www.adcom.fr/page2.htm etc
Ensuite, lors de l'utilisation de frames, pensez à mettre vos
frameset (la page de cadre) dans un répertoire /framset/ qui sera
visité par les moteurs et mettez les frames (pages qui composent
la frameset) dans un autre répertoire /frames/ par exemple.
Le fichier robots.txt sera alors :
# robots.txt pour le site http://www.chezmoi.fr
User-agent: *
Disallow: /frames/
Seules seront visitées les pages de frameset, la page d'accueil,
les éventuelles pages satellites.
Attention !! :
En règle générale et d'après expériences, presque tous les moteurs
de recherche comprennent ce fichier.
Lors de la soumission d'une page sur un moteur celui-ci va automatiquement
vérifier la présence d'un fichier "robots" d'interdiction.
Cette technique n'est pas obligatoire, vous pouvez aussi utiliser
la balise méta suivante :
<metaname="robots" content="noindex,
follow"> n'indexe pas la page, suit les liens
<metaname="robots" content="noindex,
nofollow"> n'indexe pas la page, ne suit pas les liens
<metaname="robots" content="index, follow">
indexe la page, suit les liens
<metaname="robots" content="index, nofollow">
indexe la page, ne suit pas les liens.
Ici il faut le faire sur toutes les pages... attention aux gros
sites.
|
|