Artikel-Schlagworte: „robots.txt“

Anwendungen finden, die man eigentlich nicht sehen sollte

Sonntag, 1. August 2010

In unserem Beitrag Google-Hacks – Mit Google suchen und finden haben wir Ihnen Befehle zusammengetragen und erklärt mit denen man die Google-Suche effektiver nutzen kann.

Google lässt sich so natürlich auch von Dr. Evil & seinen Freunden nutzen. Wie das geschehen kann, möchten wir Ihnen gerne anhand von einigen Beispiel-Suchanfragen demonstrieren:

Wenn Viagra-Spam direkt im Drucker liegt …
… dann könnte es sein, dass Sie “HP Jetadmin” nutzen: Drucker finden mit Google:

inurl:”hp/device/this”

Hilfe! Auf meinem Webspace ist der Blog eines Hackers …
Wenn sorglose Webseiten-Betreiber ihre nicht fertig installierten WordPress-Installationen einfach so im Netz liegen lassen, werden sie irgendwann wie von Geisterhand zu Leben erweckt:

inurl:install.php inurl:wp-admin intitle:installation intitle:wordpress filetype:php

Unter http://www.hackersforcharity.org/ghdb/ findet sich eine der größten Datenbanken, die mit sogenannten “Google Dorks” gefüttert ist. Ein Paradies für Hacker, die Google nutzen um ihre Ziele zu finden …

Bots mit “robots.txt” aussperren
Manchmal ist es sinnvoll, bestimmte Seiten oder Bereiche einer Webpräsenz vor der Indexierung zu schützen. Zum Beispiel dann, wenn es sich um Seiten handelt, die sich täglich ändern oder an denen noch gearbeitet wird. Auch Programmdateien, Bilder oder Logfiles will man vielleicht vor dem GoogleBot schützen.

Um das zu ermöglichen, gibt es den Robots Exclusion Standard. Nach diesem Standard muß man eine Textdatei mit dem Namen robots.txt erstellen und diese im Stammverzeichnis der Domain plazieren, so daß Robots sie finden. Der Pfad sieht dann z.B. so aus:

http://www.cyscon.de/robots.txt

Die robots.txt Datei ist nach einem bestimmten Schema aufgebaut. Zuerst gibt man an, für welchen Crawler die Anweisungen gelten und dann die einzelnen Anweisungen.

Beispiel robots.txt für die Indexierung von Bildern unter Google:
Wenn Google das Bild “hunde.jpg”, das auf Ihrer Website unter “www.cyscon.de/bilder/hunde.jpg” angezeigt wird, nicht in den Index aufnehmen soll, fügen Sie Folgendes in die “robots.txt”-Datei ein:

User-agent: Googlebot-Image
Disallow: /bilder/hunde.jpg

Wenn alle Bilder Ihrer Website aus unserem Index entfernt werden sollen, platzieren Sie die folgende “robots.txt”-Datei in das Stammverzeichnis Ihres Servers:

User-agent: Googlebot-Image
Disallow: /

Durch die Möglichkeit der Verwendung von Platzhalterzeichen hat Google den Standard für “robots.txt”-Dateien flexibler gemacht. Die “Disallow”-Syntax kann z. B. ein “*” enthalten, um eine beliebige Zeichenfolge anzugeben, oder ein “$” am Ende einer Zeichenfolge, um das Ende eines Namens anzugeben. Zum Entfernen aller Dateien eines bestimmten Dateityps (z. B. wenn Bilder mit der Dateierweiterung .jpg in den Index aufgenommen werden sollen, nicht aber Bilder mit der Erweiterung .gif) verwenden Sie den folgenden robots.txt-Eintrag:

User-agent: Googlebot-Image
Disallow: /*.gif$

Wenn Sie “Googlebot-Image” als User-Agent angeben, werden die Bilder aus Google Bilder ausgeschlossen. Möchten Sie jedoch die Bilder aus allen Google-Suchen ausschließen (also auch aus Google Bilder), geben Sie “user-agent Googlebot” an.

Weitere Informationen hierzu finden Sie unter: http://www.robotstxt.org/