Robots.txt: Sie funktioniert nicht mehr so, wie du es vielleicht denkst!

Bis vor zirka einem halben Jahr funktionierte die robots.txt noch so wie es sollte. Doch auf einmal wurden über die robots.txt gesperrte Seiten in den Google Index aufgenommen. Zwar ohne Titel und ohne Beschreibung, aber immerhin da.

“Das kann nicht gut sein”, dachte ich mir, als ich davon vor einiger Zeit ziemlich viele entdeckte (zum Beispiel Session IDs) und begab mich auf einen etwas längeren Weg der Ursachenforschung. Bis am Ende dabei herauskam: Die Sperrungen über die robots.txt waren schuld.

Die robots.txt funktioniert nicht mehr wie seit Jahren gewohnt

Seit Jahren werden von den meisten Webmastern die typischen Double Content Seiten einer Domain in die robots.txt eingetragen. Dieses System ist mittlerweile mehr als überholt, denn Google nimmt inzwischen alle Seiten in den Index auf, die von intern oder extern angelinkt werden.

Ist eine solche Seite über die robots.txt gesperrt, wird sie als eigenständige Seite (ohne Titel und ohne Beschreibung) aufgenommen. Zudem sorgt der robots.txt Eintrag noch dafür, dass Google sich die restlichen Anweisungen (wie z. B. die Canonical URL) nicht ansieht (darf es laut dem Eintrag der robots.txt ja nicht) und kann so gar nicht erkennen, dass dies eine Double Content Seite ist.

Die größte Problematik tritt diesbezüglich mit Session IDs auf, von denen auf einmal unter Umständen tausende im Index auftauchen. Google kann so nicht erkennen, dass dies Session IDs sind und behandelt sie wie eine eigenständige Produktseite und es kann unter Umständen zu Problemen der Domain führen.

WordPress selbst ist nicht so arg von der Problematik betroffen, außer es besteht Double Content und die Behandlung dessen wir alleinig über die robots.txt getroffen!

Geniale Themes: MyThemeShop
MyThemeShop
Vorteile:
MyThemeShop Vorteile
  • Extrem schöne WordPress Themes
  • Bereits SEO-optimiert und flexibel einsetzbar
  • Einzelkauf oder Premium Abo möglich

Wie soll eine optimale robots.txt nun aussehen?

Am besten steht so gut wie gar nichts mehr in der robots.txt Datei. Um Double Content in den Griff zu bekommen empfiehlt es sich stattdessen mit dem Robots Meta Tag „noindex“ zu arbeiten (z. B. über ein SEO Plugin).

Weiter ist auch der Einsatz der Canonical URL hilfreich sowie die Parameterbehandlung in den Google Webmaster Tools (vor allem für die Behandlung von Session IDs und anderen ungewünschten Seiten, die in der Regel von Shop Systemen zu Hauf generiert werden) und gegebenenfalls noch der Einsatz von 301 Umleitungen über die htaccess.

Die empfohlene Vorgehensweise ist, dass die Crawler freien Zugriff zur Domain erhalten und so selbst erkennen, was Double Content ist und was nicht (gegebenenfalls mit den oben genannten zusätzlichen Hilfsoptionen). Crawler sind nicht mehr so „dumm“ wie sie vielleicht noch vor Jahren waren und kennen gerade die weit verbreiteten Open Source Softwares und deren Probleme ziemlich genau.

Mein Shop ist nun seit längerem offen, was die robots.txt betrifft. Alle Seiten, die ich nicht im Index haben möchte, wie z. B. die gesamten SSL Seiten, Warenkörbe etc. habe ich mit dem Robots Meta Tag „noindex“ versehen, setze ein Modul für die Canonical URLs ein und den Rest (Session IDs, actions usw.) hat mir Google über die Parameterbehandlung vorgeschlagen.

Hin und wieder verirrt sich noch eine Session ID in den Index, was aber mittlerweile ziemlich selten geworden ist. Hin und wieder prüfe ich die indexierten Seiten und entferne manuell, was nicht hin gehört.

WordPress und die robots.txt

Ich kann dir nur empfehlen dir deine robots.txt zu Gemüte führen, die entsprechend gesperrten Seiten darin anzusehen und gegebenenfalls auf den Robots Meta Tag und die WordPress Funktion Canonical URL zuzugreifen. Dann kannst du getrost die meisten Einträge aus der robots.txt entfernen.

In meiner robots.txt stehen nur noch ein paar Verzeichnisse des Servers, in denen kein Bot etwas zu suchen hat, sowie einige Bots, die ich generell hier nicht sehen möchte (weil sie dauernd Unsinn veranstalteten und hunderte von 404 Seiten generierten etc.) und natürlich der Pfad zu meiner Sitemap.

Grundsätzlich ist WordPress bezüglich Double Content lange nicht so problematisch wie zum Beispiel einige Shopsysteme, aber es kommt auch immer darauf an, was alles in der robots.txt drin steht. Wer sie von oben bis unten voll gespickt hat mit Einträgen, arbeitet mittlerweile kontraproduktiv was die Vermeidung von Double Content betrifft.

Als weiterführende Literatur möchte ich dir noch den Artikel Hilfe Artikel aus der Google Webmaster Zentrale bezüglich xtc Session URLs ans Herz legen. Hier erklärt zwischendrin der Google Mitarbeiter JohnMu was warum passiert und wie man heutzutage mit Double Content umgeht.

Geniale Themes: MyThemeShop
MyThemeShop
Vorteile:
MyThemeShop Vorteile
  • Extrem schöne WordPress Themes
  • Bereits SEO-optimiert und flexibel einsetzbar
  • Einzelkauf oder Premium Abo möglich

Weitere Vorgehensweisen um Duplicate Content zu vermeiden

Die übliche empfohlene Vorgehensweise zur Vermeidung von DC (das wichtigste kurz zusammengefasst)sind:

  1. Erkenne DC und behebe ihn. Wenn deine Site schon online ist, nutze hierfür zum Beispiel den Google site:-Operator.
  2. Lege deine bevorzugte Domain in den Webmaster-Tools und per .htaccess fest (z.B. mit oder ohne www, oder bei mehreren Domains die auf ein Ziel verweisen).
  3. Nutze das Tag rel=”canonical” um den Sumas mitzuteilen wo das Original liegt.
  4. Nutze das Tool zur Parameterbehandlung in den Webmaster-Tools für Sites die den gleichen Content über verschiedene URLs ausgeben.
  5. Sorge am besten im Rahmen der On-Page-Optimierung schon vorab für eine suchmaschinenfreundliche Ausgabe der URLs z. b. per mod_rewrite
Bewerte diesen Artikel
1 Stern2 Sterne3 Sterne4 Sterne5 Sterne


Bis jetzt keine Bewertung
Loading...

Ein Kommentar zu Robots.txt: Sie funktioniert nicht mehr so, wie du es vielleicht denkst!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

How-to-WordPress.de unterstützt dofollow und ist somit nofollow frei.