Crawler / Bot – Definition

Ein Crawler, auch Bot oder Spider genannt, ist ein automatisiertes Programm, das Webseiten systematisch besucht und deren Inhalte ausliest. Suchmaschinen nutzen Crawler, um neue und aktualisierte Seiten zu entdecken und für den Index aufzubereiten.

Was bedeutet Crawler?

Ein Crawler folgt Links von Seite zu Seite und ruft dabei den Inhalt jeder Seite ab, ähnlich wie ein Browser. Er liest Texte, Bilder, Verlinkungen und technische Signale aus und meldet diese Daten an die Suchmaschine zurück. Der bekannteste Crawler ist der Googlebot, der das Web fortlaufend nach Inhalten durchsucht.

Crawler arbeiten nach festen Regeln und Prioritäten. Sie entscheiden, welche Seiten wie oft besucht werden, und respektieren dabei Vorgaben, die du als Betreiber hinterlegen kannst. So lässt sich steuern, welche Bereiche einer Website erfasst werden sollen und welche nicht.

Warum ist ein Crawler wichtig?

Ohne den Besuch eines Crawlers kann eine Seite nicht in den Suchergebnissen erscheinen, denn nur erfasste Inhalte landen im Index. Damit ist der Crawler die Grundlage jeder Sichtbarkeit in der Suche. Über die robots.txt steuerst du, welche Bereiche deiner Website ein Crawler besuchen darf und schützt so etwa interne Verzeichnisse vor unnötigem Abruf.

So funktioniert ein Crawler

Er startet bei bekannten URLs und folgt den darin enthaltenen Links
Er ruft den Inhalt jeder Seite ab und wertet ihn aus
Er prüft technische Vorgaben wie die robots.txt und Meta-Anweisungen
Er meldet die Daten zur Weiterverarbeitung an die Suchmaschine

Häufige Fragen

Was ist der Unterschied zwischen Crawler und Index?

Der Crawler ist das Programm, das deine Seiten besucht und ausliest. Der Index ist die Datenbank, in der die Suchmaschine die erfassten Inhalte speichert. Erst nach dem Crawling kann eine Seite in den Index aufgenommen werden.

Kann ich einem Crawler den Zugriff verbieten?

Ja, über die robots.txt oder Meta-Anweisungen kannst du einzelne Seiten oder ganze Bereiche vom Crawling ausschließen. Beachte jedoch, dass ein Ausschluss vom Crawling nicht automatisch verhindert, dass eine URL indexiert wird.