Als Google-Bot getarnt surfen

Sicher wird dem ein oder anderen beim „Googeln“, insbesondere im „Bilder“ Suchmodus, aufgefallen sein, das seltsamerweise Bilder und Texte von Zugangsgeschützen Seiten im Suchindex enthalten sind. Solche Suchergebnisse zeichnen sich dadurch aus das man auf der Zielseite ohne vorheriges Login bzw. Benutzeraccount nicht weiter kommt.

Aber wie kam der Google-Bot dann an die Inhalte, schliesslich hat er sie ja im Suchindex ?

Des Rätsels Lösung sind HTTP-Header, wie die Browser-ID die den Google-Bot als Bot ausweisen und von den normalen Websurfern unterscheiden. Einige Siteadmins haben daher eine Browserweiche gebastelt die bestimmte Bots durchlässt, aber von normalen Websurfern eine Anmeldung verlangt.

Das macht die Inhalte einer Site für die Google-Bots verfügbar ohne sie damit gleich für die Allgemeinheit freizugeben. Hintergrund für ein solches Verhalten ist natürlich, das einige Sites ihre Popularität den Suchmaschinen respektive ihrer Auffindbarkeit verdanken, jedoch generieren sie ihre Umsätze mittels Abo-, Pay-Per-View oder ähnlichen Modellen, welche definitiv eine Benutzeranmeldung verlangen.

Aber auch für solche Browerweichen gibt es elegante Wege diese als normaler Benutzer zu umgehen. Sicherlich kann man die HTTP-Header des Browsers direkt manipulieren, was mittels Firefox-Extensions sogar recht einfach geht. Das setzt natürlich etwas Vorwissen und einige Handgriffe voraus.

Besser ist da der Weg über einen Webproxy wie Be-The-Bot, dazu muss man nichts am Browser verändern und die Zugriffe auf bestimmte Sites werden durch den Proxy „mehr oder weniger“ anonymisiert.

 

Quelle

http://www.avivadirectory.com/bethebot/

2 Kommentare.

  1. So interessant die Theorie auch ist: Es muss sich schon um einen recht unversierten Siteadmin handeln, wenn er Google auf diese Weise Zugang zu eigentlich geschützten Inhalten gewährt. Denn Google bietet eigentlich für geschützte Inhalte die Möglichkeit, entsprechende Zugangsdaten zu hinterlegen. So kann sich Google beim Besuch selbst einloggen und die Inhalte crawlen.

    Dennoch ein interessanter Artikel, und vielleicht nutzt ja tatsächlich der eine oder andere Siteadmin nur eine Art „HTTP-Header“ Weiche. Aber ich würde jedem empfehlen, dies nicht zutun. 😉

  2. Das ist mal ein gut geschriebener Artikel, vielen Dank. Muss man erstmal verarbeiten. Generell finde ich den Blog leicht zugaenglich.