Crawler

Als Crawler wird ein Computerprogramm bezeichnet, das Dokumente im World Wide Web mittels eines automatisierten Verfahrens durchsucht . In den meisten Fällen wird ein Crawler programmiert, um sich wiederholende Aktionen durchzuführen und somit das Durchsuchen nach neuen Inhalten zu automatisieren. Suchmaschinen verwenden Crawler um neue Webseiten und neue Inhalte zu finden und den durchsuchbaren Teil dieser Webseiten in einen Index aufzunehmen. Es gibt verschiedene Arten von Crawlern für unterschiedliche Arten von Informationen (Links, E-Mails, RSS-Feeds u.w.). Der Begriff Crawler ist ein Abkürzung für Webcrawler, der ersten Suchmaschine für das Internet und gilt als Oberbegriff für Programme wie Robot oder Spider.

Wie funktionieren Crawler?

Grundsätzlich handelt es sich bei Crawler, um spezielle Bots, die autonom die selbe Aufgabe immer wieder durchführen. Die Hauptaufgabe beginnt damit, eine Internetseite nach der anderen über Hyperlinks zu besuchen und die URLs abzuspeichern. Der auf dieser Weise zurückgelegte Weg, wird automatisch gespeichert. Das Ziel ist theoretisch, das gesamte Netz zwischen allen Internetseiten aufgrund der Verlinkungen nachzustellen. In der Praxis werden jedoch nur die wichtigsten Links angesteuert. Ein Umstand der auch der begrenzten Rechnerkapazität und der Wirtschaftlichkeit geschuldet ist. Die Suche endet dementsprechend nach einer gewissen Zeit und die Aufgabe beginnt wieder von Neuem. Es wird jedoch nicht nur der gesamt Weg gespeichert und damit die Meta-Daten sondern auch zusätzliche Informationen wie z.B. die E-Mail-Adresse der besuchten Seiten sowie Nachrichten von News-Feeds. Ebenso werden Texte mit in den Index mit aufgenommen um die Inhalte der Webseiten schneller durchsuchen zu können bzw. eine Volltextsuche überhaupt zu ermöglichen.

Wichtig bei der Ausführung der Crawler sind die Arbeitsschritte der Computerprogramme, die im Vorfeld festgelegt werden. Somit kann jeder Auftrag vorzeitig definiert werden. Der Ablauf der Crawler verläuft schließlich automatisch ab. Welche Informationen aus dem Internet bezogen werden, hängt somit von der im Vorfeld eingestellten Aufgabe ab. In der Regel wird anhand der Ergebnisse ein Index angelegt, auf den mithilfe einer Ausgabesoftware zugegriffen werden kann. Die von den Crawlern im Index aufgeführten Webseiten werden ebenfalls nach Informationen und Links durchsucht.

Der Googlebot (auch “Spider” genannt) ist der bekannteste Webcrawler von Google. Für die Umsetzung des Crawling setzt Google eine hohe Anzahl von Computern ein, die täglich mehrere Milliarden Webseiten durchsuchen. Der Googlebot arbeitet dabei mit einem algorithmischen Prozess.  Es wird im Vorfeld durch Computerpogramme festgelegt, welche Websites wann und wie oft durchsucht werden.

Wo werden Crawler verwendet?

Wie oben beschrieben ist das primäre Ziel eines Crawlers das Erstellen eines Index. Sie bilden damit die Basis für die Aufgaben von Suchmaschinen. Der Großteil der Webseiten wird nämlich nicht über die URLs angesteuert sondern über Suchmaschinen. Jeder Webseite wird dabei je nach Größe und Aktualität in individuelles Crawl Budget zugewiesen. Die gesammelten Ergebnisse der Crawler werden vor allem für die Internet-User zur Verfügung gestellt. Eine besondere Art bilden die focused Crawler, die nur themenrelevante und besonders aktuelle Webseiten in den Index aufnehmen. Diese können auch speziell bei der Suche nach aktuellen Nachrichten zu einem bestimmten Thema eingesetzt werden. Im Gegensatz dazu konzentrieren sich allgemeine Crawler auf ein möglichst breites Themenspektrum. Ein weiteres Einsatzgebiet sind Preisvergleichsportale, um im Internet nach speziellen Angeboten zu suchen.  Im Bereich des Data-Mining werden Crawler genutzt, um erreichbare Adressen (E-Mail oder Postadressen von Unternehmen) und Kontaktdaten zu sammeln. Im Rahmen von Webanalyse Tools werden sie ebenfalls verwendet um Daten zu Seitenaufrufen oder Links zu sammeln.

Crawler vs. Scraper

Im Gegensatz zum Crawler, der Daten nur sammelt und aufbereitet, zielen Scraper darauf ab, auch Content von Internetseiten zu sammeln und diese in gleicher oder leicht veränderten Form auf der eigenen Seite zu platzieren. Da es sich beim Scrapen um eine Black Hat SEO Technik handelt sind sie nicht sehr beliebt und werden oft durch die Betreiber der gescapten Seiten geblockt. Auch Google blockt Scraper. Im Vergleich zum Crawling, bei dem Meta-Daten genutzt werden, die im ersten Moment nicht immer sichtbar sind, arbeiten Scraper mit konkret sichtbaren Inhalten.

Crawler blockieren

Viele Webseiten möchten nicht von einem Crawler durchsucht werden. Wenn der Webmaster dem Crawler den Zutritt verwehren möchte, können über die User Agents die robots.txt ausgeschlossen werden. Dies verhindert allerdings nicht, dass die Inhalte der Webseite auf den Index der Suchmaschinen gelangen. Zur vollständigen Unterbindung ist ein noindex-Metatag oder ein Canonical Tag notwendig. Das Abgreifen der Inhalte durch Scraper wird auf diese Weise nicht verhindert.

Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls kann bei der robots.txt Datei festgelegt werden, welche Bereiche einer Domain vom Crawler durchsucht werden dürfen. Zusätzlich ist der Ausschluss von einzelnen Dateien in einem Verzeichnis, ganzer Verzeichnisseiten und sogar ganze Domains möglich. Mit der robots.txt Datei können die Webmaster damit das Verhalten der Webcrawler gezielt steuern. Zu beachten sind in diesem Zusammenhang Bad Bots. Diese halten sich teilweise nicht an den Robots Exclusion Standards und sollten daher aus Gründen des Spam-Crawlings über die htaccess Datei ausgeschlossen werden.

Nachfolgend ist daher beispielhaft eine Liste mit Bat Bots zusammengestellt. Teilweise geben sich Bat Bots auch als gutartige Bots aus und verschleiern ihre wahre Absicht dadurch.

  • EasyDL/3.04 http://keywen.com/Encyclopedia/Bot
  • Syntryx ANT Scout Chassis Pheromone
  • OrangeSpider
  • http://www.picsearch.co m/bot.html
  • T8Abot/v0.0.7-beta (3724461@gmail.com)

Weitere Bat Bots können auch unter: http://www.kloth.net/internet/badbots.php und https://www.ip-bannliste.de/bad-bots.html entnommen werden.

Die Grenzen von Crawlern

Auch wenn effiziente Crawler nur bis zu einem gewissen Punkt lernfähig sind, liefern sie vergleichsweise gute Ergebnisse. Durch Zugangsbeschränkungen der Crawler oder wenn die Informationen beispielsweise nur über Suchmasken abgerufen werden können, wird ein großer Teil des Internets nicht durchsucht. Fachsprachlich wird dieser Bereich auch als “Deep Web” bezeichnet.

Ein weiteres Problem stellen in diesem Zusammenhang Datenschützer dar, da sie sich vehement gegen das wahllose Sammeln von Daten wehren.

Auch das Cloaking, wodurch dem Bot eine andere Seite angezeigt wird als dem normalen Nutzer, stellt Crawler vor Herausforderungen. Besonders problematisch ist das für Websites, die fast nur über Suchmaschinen erreichbar sind. Sogenannte Teergruben sind für Crawler ebenfalls unbeliebt, da sie schlechte Bots die nur Adressen oder Spam-Mails sammeln, behindern.

Quellen

Ihr Weg zu mehr Besuchern und Umsatz