In diesem Text wird gezeigt, wie man Einfluss auf den Crawler nehmen kann und wie man ihn von beginn an, von entsprechenden Seiten fernhält oder dazu animiert diese Inhalte zu durchsuchen und zu bewerten.
Definition:
Die robots.txt
ist eine Textdatei auf der obersten Ebene einer Website, die Suchmaschinen-Crawlern (auch als Robots bekannt) Anweisungen gibt, welche Teile der Website gecrawlt oder nicht gecrawlt werden sollen. Diese Datei ist ein wesentliches Werkzeug im Bereich der Suchmaschinenoptimierung (SEO), da sie hilft, das Crawler-Budget effizient zu nutzen und sicherzustellen, dass wichtige Inhalte priorisiert werden.
Funktionsweise:
Die robots.txt
-Datei gibt die „Disallow“- und „Allow“-Direktiven an, die steuern, welche URLs von den Suchmaschinen-Crawlern besucht werden dürfen. Zusätzlich kann die Datei auch die „Sitemap“-Direktive enthalten, die den Pfad zur XML-Sitemap der Website angibt. Suchmaschinen wie Google, Bing und Yahoo lesen diese Datei, bevor sie eine Website crawlen, um zu verstehen, welche Seiten sie ignorieren sollen.
Beispiel einer robots.txt-Datei:
User-agent: *
Disallow: /nicht-oeffentlicher-bereich/
Allow: /oeffentlicher-bereich/
Sitemap: https://www.beispielwebsite.com/sitemap.xml
- User-agent: Gibt an, welcher Crawler betroffen ist. Der Stern (*) steht für alle Crawler.
- Disallow: Listet Verzeichnisse oder Seiten auf, die nicht gecrawlt werden sollen.
- Allow: Erlaubt den Zugriff auf bestimmte Bereiche, die zuvor durch „Disallow“ eingeschränkt wurden.
- Sitemap: Weist Crawler auf die Lage der Sitemap hin.
Direktiven in der robots.txt
1. User-agent:
Diese Direktive identifiziert den Suchmaschinen-Crawler, der den folgenden Regeln folgen soll. Es kann sich um einen spezifischen Crawler wie Googlebot
oder um alle Crawler (*
) handeln.
Beispiel:
User-agent: *
Dies bedeutet, dass die folgenden Regeln für alle Bots gelten.
2. Disallow:
Die Disallow
-Direktive wird verwendet, um Suchmaschinen-Crawlern zu verbieten, bestimmte URLs oder Verzeichnisse einer Website zu besuchen. Es wird der Pfad angegeben, der nicht gecrawlt werden soll. Ein leerer Wert (Disallow:
) bedeutet, dass nichts verboten ist und alle Bereiche gecrawlt werden dürfen.
Beispiel:
Disallow: /privat/
Dies würde alle Crawler anweisen, das Verzeichnis /privat/
nicht zu durchsuchen.
3. Allow:
Die Allow
-Direktive wird verwendet, um spezifische Bereiche innerhalb eines verbotenen Pfades zu erlauben. Sie ist besonders nützlich, wenn größere Bereiche mit Disallow
blockiert sind, aber bestimmte Unterseiten oder Verzeichnisse zugänglich gemacht werden sollen.
Beispiel:
Disallow: /verzeichnis/
Allow: /verzeichnis/oeffentlich/
Hier wird den Bots verboten, das gesamte Verzeichnis /verzeichnis/
zu crawlen, aber das Unter-Verzeichnis /verzeichnis/oeffentlich/
ist erlaubt.
Mustererkennung, keine Regulären Ausdrücke
Die robots.txt
-Direktiven nutzen eine einfache Mustererkennung, die spezifische Regeln folgt:
*
(Stern) steht als Platzhalter für jede Zeichenfolge.$
(Dollarzeichen) am Ende einer Direktive bedeutet, dass die URL genau so enden muss, wie sie angegeben ist.
Beispiel für den Einsatz des Sterns:
Disallow: /tmp/*
Dies verhindert das Crawlen von allem innerhalb des /tmp/
Verzeichnisses.Beispiel für den Einsatz des Dollarzeichens:
Disallow: /*.pdf$
Dies blockiert alle URLs, die auf .pdf
enden.Wichtige Hinweise
- Direktiven werden von oben nach unten abgearbeitet, und die erste passende Regel wird angewendet.
- Die Syntax sollte genau eingehalten werden, da Fehler dazu führen können, dass die
robots.txt
nicht wie beabsichtigt funktioniert. - Die
robots.txt
steuert nur das Crawling, nicht das Indexieren. Um eine Seite vollständig aus den Suchergebnissen zu entfernen, sollten zusätzliche Maßnahmen wienoindex
-Tags verwendet werden.
Durch das Verständnis und die korrekte Anwendung dieser Direktiven können Webmaster die Kontrolle über das Crawling ihrer Websites effektiv steuern und optimieren.
Wichtige Überlegungen:
- Nicht alle Crawler folgen den Anweisungen: Während seriöse Suchmaschinen wie Google die in der
robots.txt
festgelegten Regeln befolgen, können andere Bots diese ignorieren. - Die Datei sollte öffentlich zugänglich sein: Die
robots.txt
muss im Hauptverzeichnis der Website liegen und unterhttp://www.beispielwebsite.com/robots.txt
erreichbar sein. - Sicherheit: Die
robots.txt
sollte nicht zur Sicherung sensibler Bereiche verwendet werden, da sie von böswilligen Bots ignoriert werden kann. Für die Sicherheit sensibler Daten sind andere Methoden wie Authentifizierung und Verschlüsselung notwendig.
Best Practices:
- Einfachheit bewahren: Halten Sie die
robots.txt
einfach und klar, um Fehler zu vermeiden. - Regelmäßige Aktualisierungen: Überprüfen Sie die Datei regelmäßig, um sicherzustellen, dass sie aktuelle und korrekte Anweisungen enthält.
- Testwerkzeuge nutzen: Verwenden Sie Tools wie den Google Search Console „robots.txt“-Tester, um sicherzustellen, dass Ihre Datei wie beabsichtigt funktioniert.
Fazit:
Die robots.txt
spielt eine wichtige Rolle in der SEO-Strategie einer Website, indem sie den Suchmaschinen-Crawlern hilft, die Inhalte der Website effizient und effektiv zu durchsuchen. Durch die richtige Konfiguration und regelmäßige Pflege dieser Datei können Website-Betreiber die Sichtbarkeit ihrer wichtigsten Seiten verbessern und sicherstellen, dass Suchmaschinen die relevanten Informationen leicht finden können.
Robots.txt