Qu'est-ce que le
fichier Robot.txt ?
Ce fichier permet surtout
d'indiquer aux outils de recherche de ne pas indexer certaines parties
de votre site. Il s'agit d'un fichier texte que vous créez avec
Word, Wordpad ou Notepad. Pour qu'il soit prix en compte par les outils
de recherche, vous devez le télécharger dans le répertoire
racine de votre site web.
Voici ce que doit contenir
ce fichier pour chaque moteur:
User-agent: { nomduspider
}
Disallow: { document-a-exclure
}
Par exemple, pour indiquer
au spider d'Excite, dénommée ArchitextSpider, de ne pas indexer
les fichiers secret.html et secrets2.html, il faut insérer les lignes
suivantes dans robot.txt :
User-agent: ArchitextSpider
Disallow: secret.html
Disallow: secrets2.html
Vous pouvez ajouter plus
de lignes pour exclure des pages d'autres moteurs en indiquant le paramètre
User-Agent encore dans le même fichier, suivi de plus rejetez des
lignes.
Si vous voulez exclure un
répertoire entier, utilisez cette syntaxe suivante:
User-agent: ArchitextSpider
Disallow: / nomdurepertoire
/ *
Vous pouvez demander à
ce qu'une page ne soit visitée par aucun outil de recherche avec
la syntaxe suivante
User-agent: *
Disallow: secrets2.html
Lorsque je veux interdirà
un moteur de recherche d'indexer mon site, j'insère les ligne suivante
dans le fichier robot.txt
User-agent: Sooter
Disallow: / *
(ici, j'ai demandé
à Scooter, le spider d'Altavista, un viel ami à moi, de ne
pas visité le site).
D'ailleurs, je vous donne
la liste de tous les spiders dont j'ai fait la connaissance.
Outil de
recherche: |
User-Agent
de l'outil: |
Alta Vista |
Scooter |
Infoseek |
InfoSeek Sidewinder |
Excite |
ArchitextSpider |
Lycos |
Lycos_Spider_(T-Rex) |
Northern Light |
Gulliver |