robot.txt für Suchmaschienen Bots

robot-txt.png

Die Datei robots.txt muss sich  im Root-Verzeichnis  des Servers befinden. (z.B. beraz.de/robot.txt). Robot.txt bestimmt, welche Ordner, Dateien zur Indexierung von Suchmaschinen Bots nicht zugelassen werden.

Die Spezifikation der robots.txt

Die Suchmaschinen unterstützen nur drei Direktiven der Datei robots.txt:

#:

Bedeutet der Anfang des Kommentars. Die ganze Zeile, die hinter diesem Zeichen folgt, wird ignoriert.

User-agent:

bezeichnet einen Suchmaschinen Bot, dem der Block der Instruktionen adressiert wird. Zum Beispiel, der Bot des Suchsystems Google heißt Googlebot und, die Zeile für seinen Hinweis sieht so aus:

User-agent: Googlebot

In einer Direktive kann man nur einen Bot oder alle  (*) angeben. Für alle Bots:

User-agent: *

disallow:

Bezeichnet den Namen oder den Teil des Namens, der nicht zur Indexierung zugelassen ist. Wie bei der Direktive User-agent ist es nur ein Parameter zulässig.

disallow: / 
Der Bot darf nicht die ganze  Seite indexieren. ( / bezeichnet Root-Veryeichnis)

disallow: /ordner
Der Bot darf nicht alles, was mit ordner anfängt, indexieren.

disallow: /ordner/ 
Der Bot darf nicht Verzeichnis ordner indexieren.

disallow: /datei.html/
Der Bot darf nicht datei.html indexieren, aber das gilt nicht für datei.HTML

Die Liste der  wichtigen Suchmaschinen Bots (User-Agent):

Googlebot/1.0 - Google.com
Googlebot/2.1 - Google.com
Googlebot/Test - Google.com
googlebot - Google
GoogleBot - Google
googlebot @ googlebot.com - Google.com
Googlebot-Image/1.0 - Google.com Image Bot

YahooSeeker/CafeKelsa - Yahoo.com
Yahoo! - Yahoo
Yahoo-MMCrawler - Yahoo-MMCrawler
Yahoo Web Pages: Googlebot
Yandex - Yandex

W3C_Validator - libwww.W3C_Validator
www.inktomisearch.com - Yahoo.com

Aport = "Aport"
msnbot = "MSNbot"
Yandex = "Yandex"
WebZIP = "WebZIP"

Baiduspider+ - Baidu.com
BaiDuSpider - Baidu.com

Lycos_Spider_(T-Rex)/3.0 - Lycos.com
Lycos_Spider_(T-Rex) - Lycos.com
lycos - Lycos.com
Lycos - Lycos
Lycos.com - Lucos

Mozilla (Mozilla@somewhere.com) - Somewhere.com
Mozilla/2.0 (compatible; Ask Jeeves) - Ask Jeeves
Mozilla/2.0 (compatible; EZResult -- Internet Search Engine) - DirectHit.com
Mozilla/3.0 (compatible; MuscatFerret/1.5.4; claude @ euroferret.com) - Euroferret.com
Mozilla/3.0 (compatible; MuscatFerret/1.5; olly @ muscat.co.uk) - Euroferret.com
Mozilla/3.0 (compatible; MuscatFerret/1.6.x; claude @ euroferret.com) - Euroferret.com
Mozilla/3.01 (Compatible; Links2Go Similarity Engine) - Links2go.com
Mozilla/4.0 (compatible; FastCrawler3, support-fastcrawler3 @ fast.no) - AllTheWeb.com
Mozilla/4.0 (compatible; grub-client-2.x) - Grub.org
Mozilla/4.0 (compatible; MSIE 5.0; Windows 95) TrueRobot; 1.5 - Echo.com
Mozilla/4.0 (compatible; SpeedySpider; www.entireweb.com) - EntireWeb.com
Mozilla/4.0 (compatible; www.galaxy.com) - Galaxy.com
Mozilla/4.0 [en] (Ask Jeeves Corporate Spider) - Ask Jeeves
Mozilla/4.0(compatible; Zealbot 1.0) - LookSmart.com
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT; MS Search 4.0 Robot) - MSN.com
Mozilla/5.0 wgao @ genieknows.com - GenieKnows.com
MnoGoSearch - mnoGoSearch
MP3Bot - mp3bot.de
MSNBOT/0.1 - MSN.com
msnbot - MSN.com
MSN - MSN.com