Die Datei „robots.txt“ liegt im Root-Verzeichnis eines Webservers, bzw. im Root-Verzeichnis eines Webspace, und dient dazu, Crawlern und Bots Anweisungen zu geben, wie diese die Seite behandeln sollen..

Unter anderem werden in der Robots-Datei gespeichert, welche Seiten der Crawler besuchen darf/soll, welche er indexieren darf/soll und wo die Sitemap liegt. Vor allem letzteres ist sehr wichtig, da Suchmaschinen auf diese Weise gezielt die Sitemap auswerten können und eine Übersicht über alle indexierbaren Einzelseiten und Inhalte bekommen.

Da Google beim crawlen von Websites mittlerweile die komplette Seite rendert – ähnlich wie es ein Browser macht – kann das ausschließen von einzelnen Inhalten, vor allem JavaScript- und CSS-Dateien, zu schlechteren Rankings führen, da Google denken könnte das man beispielsweise über JavaScript bestimmte Inhalte versteckt. Du solltest daher keine direkten Seitenelemente über die robots.txt Datei sperren!

Das auschließen von Unterseiten kann vor allem für automatisch generierte Seiten wie Schlagwort-Seiten oder Kategorie-Seiten bei Content-Management-Systemen sinnvoll sein. Bei WordPress zum Beispiel werden automatisch Tag- und Kategorie-Seiten erstellt, allerdings haben diese Seiten kaum Wert für den Nutzer und sind oft Ursache von Duplicate Content, weshalb entsprechende automatisch generierte Seiten mit Hilfe der Robots.txt-Datei vom Crawler ausgeschlossen werden können, um Duplicate Content zu verhindern und die Crawling-Ressourcen sinnvoll zu nutzen.

Ob eine Robots-Datei vom Crawler angenommen wird und anschließend auch die richtigen Anweisungen an die Bots weitergibt, kann in der Google Search Console mit Hilfe des „robots.txt-Tester„ nachgeprüft werden. Eine beispielhafte Robots-Datei könnte folgendermaßen aussehen:

User-agent: *
Disallow: /tag/
Sitemap: http://www.schmidtfriends.de/sitemap.xml

 Diese Robots.txt-Datei besteht lediglich aus drei Zeilen, die allen Crawlern den Standort der Sitemap mitteilen und das die Schlagwort-Seiten der WordPress-Website nicht indexiert werden sollen. Hier eine kurze Erklärung zu jeder einzelnen Zeile dieser Beispiel-Datei:

  • User-agent: * – Diese Zeile gibt an, dass alle Informationen der robots-Datei für alle Arten von Crawlern und Bots gelten sollen
  • Disallow: /tag/ – Diese Zeile weist den Crawler an, Einzelseiten, die innerhalb des Verzeichnisses „tag“ liegen, nicht zu indexieren. Wenn du möchtest, dass Schlagwort-Seiten indexiert werden, lässt du diese Zeile einfach weg
  • Sitemap: … – Diese Zeile beschreibt den Standort der Sitemap einer Webseite, wobei sowohl relative Pfade, als auch absolute Pfade angegeben werden können

Grundsätzlich ist es von Vorteil, so viele Einzelseiten wie möglich im Google-Index zu haben, um die Wahrscheinlichkeit für gute Rankings zu steigern, allerdings schaden schlechte Seiten, also Seiten mit Duplicate Content oder Seiten mit schwachen / zu wenigen Inhalten, den Rankings der gesamten Domain wesentlich mehr.

Auch wenn eine Unterseite per Robots.txt ausgeschlossen wurde, kann es sein das diese, nur mit der Anzeige einer URL, in den Suchergebnissen auftaucht. Dies liegt daran, dass man der Suchmaschine NUR das Crawling verboten hat. Wenn die Unterseite auf keinen Fall in den Index soll, kann man das Noindex verwenden.