In diesem Artikel erfahren Sie, was eine „robots.txt“ ist, was Sie beachten sollten und wie Sie sie erstellen. Anschließend verfügen Sie über eine einfache Datei für TYPO3, die Sie in Ihrem Webprojekt sofort einsetzen können.
Was ist eine „robots.txt“?
Die „robots.txt“ ist eine Textdatei (.txt), in welcher festgelegt wird, wie Bots (z. B. der Google-Bot) Ihre Website crawlen sollen. Sie können Anweisungen für bestimmte Bots geben, wobei es keine Garantie gibt, dass sich wirklich alle Bots daran halten.
Wie sollte eine „robots.txt“ aussehen?
Tatsächlich gibt es keinen Königsweg, wie eine „robots.txt“ auszusehen hat. Je nach Projekt, eingesetztem System oder individuellen Anforderungen kann es zu ganz unterschiedlichen Ergebnissen kommen. Vergleichen wir einmal die „robots.txt“ von SEO-Spezialisten wie Sistrix oder Abakus Internet Marketing, stellen wir fest, dass die eine Datei tatsächlich leer ist, während sich die andere äußerst umfangreich zeigt.
Hände weg, wenn Sie nicht genau wissen, was Sie tun:
Je umfangreicher die „robots.txt“ ist, desto genauer sollte man wissen, was man tut. Nicht umsonst nennt der SEO-Anbieter „SEOSüdwest” 5 verhängnisvolle Fehler, die beim Anlegen der „robots.txt“ passieren können. Aber heißt dies, dass Sie im Zweifel besser gar keine Datei anlegen sollten?
Erstellen Sie auf jeden Fall eine leere „robots.txt“
Wer nicht genau weiß, wie er seine „robots.txt“ befüllt, sollte sich vor möglicherweise falschen Angaben hüten. Denn eine falsch erstellte Datei kann verheerende Folgen haben. Allein die Datei mit Namen „robots.txt“ aber sollten Sie auf jeden Fall erstellen! Warum? Weil es Ihnen Google „höchstpersönlich” empfiehlt: webmaster-de.googleblog.com
https://www.youtube.com/watch?time_continue=24&v=P7GY1fE5JQQ
Hello Robots!
Falls Sie sich dazu entschließen, in Ihrer „robots.txt“ Angaben für alle Bots zu machen, sollte Ihre Datei wie folgt beginnen:
User-agent: *
Was ich projektbezogen in eine robots.txt schreibe:
Wenn Sie in Ihrem Projekt eine XML-Sitemap pflegen, sollte der Pfad zu dieser Sitemap in der „robots.txt“ stehen, und zwar wie folgt:
Sitemap: https ://www.t3guards.de/sitemap.xml # nach https bitte das Leerzeichen entfernen, # wenn Sie diesen Code nutzen # eigene Domain nutzen
Was Sie aufgrund der Verwendung von TYPO3 in die „robots.txt“ schreiben sollten:
Es gibt zudem Daten, die nicht in den Google-Index kommen sollten. In der Regel sollten diese Daten für den Zugriff von außen zwar gesperrt sein, aber es passieren eben mitunter Dinge, die nicht passieren sollten. Eine doppelte Absicherung jedenfalls kann nicht schaden.
# Only allow URLs generated with frontend routing
Disallow: /*?id=*
Disallow: /*&id=*
# L=0 is the default language
Disallow: /*?L=0*
Disallow: /*&L=0*
# Should always be protected, but you know...
Disallow: /*/Private/*
Disallow: /*/Configuration/*
# Disallow all files in /typo3temp/var/
Disallow: /typo3temp/var/*
# Disallow all files in /typo3/
Disallow: /typo3/
# Disallow all kind of sql files
Disallow: *.sql
Disallow: *.sql.gz
Quelle: https://typo3.com/robots.txt
Fazit:
Im Grunde führen drei Schritte zu einer sinnvollen „robots.txt“:
Erstellen Sie eine leere „robots.txt“.
Verbieten Sie Dateien und Verzeichnisse, die sicherheitsrelevant sind, damit sie nicht einfach in den Google-Index kommen. (Sie sollten sie natürlich dennoch vor unbefugtem Zugriff schützen).
Geben Sie an, wo sich Ihre Sitemap befindet.
Mit diesen Schritten haben Sie vermutlich bereits mehr getan als die meisten Ihrer Mitbewerber. Sie wissen jetzt sicher, wie Sie eine gute „robots.txt“ erstellen, dass sie im Zweifel lieber schlank oder sogar leer sein sollte und sie kennen einige bekannte Fehler. Falls Sie weiter in das Thema einsteigen möchten bzw. weitere Angaben vornehmen möchten, helfen Ihnen womöglich ausgewählte „robots.txt“-Generatoren, die ich allesamt getestet habe („Benutzung dennoch auf eigene Gefahr“).
Robots.txt Generatoren
https://de.ryte.com/free-tools/robots-txt-generator/#custom
http://pixelfolk.net/tools/robots
https://seo-ranking-tools.de/seo-tools/robots-txt-generator/