robots.txt – Definition - Dominik Kienzle

Die robots.txt ist eine einfache Textdatei im Wurzelverzeichnis deiner Website, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche sie crawlen duerfen und welche sie ignorieren sollen. Sie steuert das Crawling, nicht die Indexierung.

Was bedeutet robots.txt?

Die robots.txt liegt unter deinedomain.de/robots.txt und ist die erste Datei, die ein Crawler beim Besuch deiner Seite abruft. Ueber Anweisungen wie "Disallow" sperrst du Verzeichnisse oder Dateien fuer bestimmte oder alle Bots, mit "Allow" gibst du sie wieder frei.

Wichtig: Die robots.txt verhindert das Crawling, garantiert aber keine Geheimhaltung. Eine gesperrte Seite kann trotzdem im Index landen, wenn andere Seiten darauf verlinken. Zum sicheren Ausschluss aus dem Index brauchst du andere Mittel wie das Noindex-Tag.

Warum ist die robots.txt wichtig?

Mit einer durchdachten robots.txt lenkst du das Crawl-Budget der Suchmaschinen auf deine relevanten Seiten und haeltst Bots von unwichtigen Bereichen fern. Das verbessert die Effizienz des Crawlings, gerade bei groesseren Websites mit vielen Filter- oder Suchseiten. Ein Fehler in dieser Datei kann jedoch fatal sein und ganze Seitenbereiche unsichtbar machen.

Wichtige Anweisungen in der robots.txt

User-agent: legt fest, fuer welchen Crawler die Regel gilt
Disallow: sperrt einen Pfad fuer das Crawling
Allow: gibt einen Pfad ausdruecklich frei
Sitemap: verweist auf deine XML-Sitemap

Haeufige Fragen

Schuetzt die robots.txt vertrauliche Inhalte?

Nein. Die Datei steuert nur das Crawling und ist oeffentlich einsehbar. Vertrauliche Inhalte solltest du mit Passwortschutz oder serverseitigen Sperren absichern, nicht ueber die robots.txt.

Was passiert, wenn ich keine robots.txt habe?

Dann duerfen Crawler grundsaetzlich alle erreichbaren Seiten besuchen. Fuer kleine Websites ist das oft unproblematisch, bei groesseren Projekten hilft eine gezielte Steuerung aber, das Crawl-Budget zu schonen.