Googles Gier nach Daten

Google rühmt sich seiner Nachhaltigkeit: „Netto-Null-Emissionen bis 2030. Dieses ambitionierte Ziel wollen wir mit Erfindergeist und innovativen Technologien erreichen.“

Das alltägliche Verhalten der Google Search Console spricht eine andere Sprache. Auf meiner Domain https://www.schoefl.info gibt es aktuell nicht mehr als 155 indizierbare URL. Trotzdem fand es der Google-Bot zeitweise notwendig, weit über 500 URL regelmäßig zu crawlen.

155 regelmäßige Page-Visits des Google-Bots machten Sinn, 345 URL waren sinnlos. Da kann jeder einzelne Seitenbesuch für sich in der CO²-Bilanz noch so emmissionneutral sein, Energieverschwendung bleibt Energieverschwendung. Das ist vergleichbar mit einer Straßenbeleuchtung, die man auch am helllichten Tag eingeschaltet lässt, nur weil der Strom dafür mit einer guten CO²-Bilanz produziert wurde.

Nachhaltigkeit geht anders!

Wie kommen die sinnlosen Crawls zustande?

Die einfache Antwort lautet: Wegen Googles Gier nach Daten. Im Detail lässt sich diese Angst von Google, irgend etwas zu versäumen, folgendermaßen aufschlüsseln.

Ineffiziente Verarbeitung von 301-Weiterleitungen

In den Urzeiten meiner Website lauteten die Links meiner Beiträge /2003/filmkritik001.html, /2003/filmkritik002.html usw.. Irgendwann in den Jahren 2006 oder 2007 habe ich die Website auf WordPress umgestellt. Damals habe ich auch die Links auf das Muster /titel-des-beitrags/ umgestellt. Entsprechende 301-Weiterleitungen habe ich für jeden einzelnen Beitrag eingerichtet.

Heute – sicher mehr als 15 Jahre später – sucht Google immer noch regelmäßig nach 68 Dateien mit dem Muster filmkritik00x.html. Eine Prüfung so einer URL in der Search Console zeigt oft, dass Google selbst keine verweisende Seite mehr für diese Seite findet. Aber die Tatsache, dass im World Wide Web keine einzige Seite mehr auf die vaerlatete Seite verweist, ist für Google noch lange kein Grund die Suche nach Jahrzehnten sinnlosen Suchens doch einzustellen. Google argumentiert: „Die URL ist möglicherweise aus anderen Quellen bekannt, die derzeit nicht gemeldet werden“.

Hält Google den Webmaster, der vor Jahrzehnten die Weiterleitung eingerichtet hat, einfach für zu blöd und kontrolliert deswegen die tausendfach bestätigte Weiterleitung immer wieder?

Wie auch immer, eine effiziente Verarbeitung einer 301-Weiterleitung schaut anders aus.

Google konstruiert eigene URLs aus GET-Parametern

Manchmal tauchen bei WordPress in der URL Anhängsel auf wie

https://www.domain.com/?wordfence_lh=1&hid=22B4DBE94BCFC1C2CCFC1EC78BD

oder

https://www.domain.com/?doing_wp_cron=1611762039

Solche Parameter sollten nicht auftauchen, manchmal passiert es doch. Manchmal, weil das Plugin den Google-Bot als menschlichen Besucher missinterpretiert und ihm eine „menschliche“ Session-ID verpasst. Bei mir war es ein veralteter Webspace. Der Provider hatte vergessen, mich zu informieren, dass mein altes Hosting-Paket nicht mehr aktualisiert wird.

Normalerweise erscheint bei einer Seite mit „?wordfence_lh=1&hid=“ eine leere Seite. Bei mir sah man die Originalseite. Glücklicherweise habe ich das Problem frühzeitig entdeckt. Sonst wären es nicht Hunderte, sondern Tausende fehlerhafte Seiten gewesen. Mit jedem Besuch des Crawlers kommt eine neue Session-ID hinzu. Und der Google-Bot bekommt damit eine neue Seite, die er künftig bis in alle Ewigkeit besuchen wird.

Einzige Lösungsmöglichkeit, ist die Weiterleitung auf eine leere Seite. Mit diesen Zeilen in der functions.php können sie Google überzeugen, dass es auf den Seiten mit „wordfence_lh=1&hid=“ nichts interessantes zu sehen gibt:

function google_fighter() {
 if ( isset( $_GET['wordfence_lh'] ) ) {
  include( get_template_directory() . '' );
  exit;
  }
 }
add_action( 'template_redirect', 'google_fighter');

Wie lange es dauern wird, bis Google daraus lernt, muss sich noch zeigen. Bei mir hält Google noch immer an 164 solcher Seiten fest.