Googlebot

Der Begriff Googlebot definiert sich über den Namen der Suchmaschine „Google“ und der Abkürzung von Robot (zu deutsch Roboter). Die Bezeichnung Bot ist ein Begriff aus der Informatik und beschreibt ein automatisch agierendes Programm. In diesem Fall ist es ein suchendes Programm, ein sogenannter Searchbot. Der Googlebot ist demnach ein Suchroboter der Firma Google Inc. Suchroboter beziehen auch die Namen Searchbot, Crawler oder Spider.

Wozu dient der Googlebot?

Der Googlebot sucht nach neuen, aktualisierten Webseiten und Inhalte, die er für den Google Index sammelt und später für die Google Suche aufbereitet. Dazu müssen allerdings bestimmte Parameter zugänglich für den Googlebot sein. Gibt ein Nutzer also einen Suchbegriff bei Google ein, wird nicht das Internet, sondern der Google Index durchsucht. Die durch den Googlebot gecrawlten Seiten werden durch den Ranking Algorithmus gewertet, welche dementsprechend dann Auswirkungen auf die Platzierung in den SERPs, der Ergebnisseiten von Google, haben. Je nach Aufgabe gibt es Bots für die Textsuche, Bildersuche, Werbung und vieles mehr.

Wie funktioniert der Googlebot?

Der Googlebot, der Webcrawler von Google, durchsucht Website um Website in einem regelmäßigen Abstand. Die Anzahl der externen Links und die Höhe des Pageranks bestimmen dabei, wie oft der Bot eine Seite besucht, dies wird auch Crawl Budget genannt. Das bedeutet, dass wenn eine Seite nicht verlinkt wird, vom Bot auch nicht gefunden werden kann. In der Regel besucht der Googlebot eine Website lediglich einmal alle paar Sekunden und gibt sich mit Namen (zunächst als normaler User Agent sichtbar) und jeweiliger Funktion zu erkennen. Die Häufigkeit des Besuchs kann aber je nach Webseite stark variieren. Bei jedem Besuch erkennt der Crawler Hyperlinks (SRC und HREF) und neue bzw. veränderte Inhalte und fügt sie zum Cache (eine Liste der zu crawlenden Seiten) zu, die für jeden Bot zugänglich ist. Veränderungen von bestehenden Seiten, neue Webseiten oder veraltete Links können somit ermittelt werden und dienen dementsprechend der Aktualisierung des Google Indexes und des daraus erfolgenden Rankings. Dynamische Webseiten können von Googlebot nur schwer oder gar nicht beurteilt werden, da nötige Variablen und Parameter nicht bekannt sind. Das liegt daran, dass die Seiteninhalte hinter Variablen oder den sogenannten PHP-Sessions liegen. Google arbeitet jedoch daran, dass diese Seiten auch erfasst werden können.

Sperrung von Inhalten für den Googlebot

Webmaster können bestimmen, welche Inhalte für den Googlebot freigegeben werden. Dies ist u.A. mit der robots.txt-Datei, mit Hilfe des Attributes “ Disallow:/ “ möglich. Nutzt der Webmaster den Meta Tag „Robots“ mit dem Wert „Noindex“ oder „Nofollow“ in einem HTML-Dokument, kann er die Indexierung von bestimmten Seiten vermeiden. Solch ein Meta Tag sähe beispielsweise wie folgt aus:

Meta Tag „noindex“ Meta Tag „nofollow“
<meta name = „Googlebot“ content = „nofollow“ /> <meta name = „Googlebot“ content = „noindex“ />

Mit Hilfe des Google Webmaster Tools kann ebenfalls bestimmt werden, mit welcher Frequenz der Bot die Seite im Web besuchen kann. Dies ist besonders wichtig, da die Serverleistung, je nach Häufigkeit, vom Scrawler negativ beeinflusst werden kann. Ebenso werden Seiten, die oft aktualisiert werden auch häufiger vom Googlebot gescrawlt. Neben dem genannten Tool, kann auch durch das Crawl Budget die Frequenz eingegrenzt werden.

Logfiles

Logfiles (zu deutsch Logdatei), auch Protokolldateien, sind Dateien, in denen Prozesse von Netzwerk- und Computersystemen gespeichert und protokolliert werden. Sie bieten wichtige Dateien zur Analyse von Zugriffen auf Websites oder auch Netzwerken. Daher war die Logfile Analyse eine der populärsten Methode, um Daten von Usern einer Seite im Web zu erhalten. Die einzelnen Informationen werden über die sogenannten Hits übermittel und sind in der Regel immer die Gleichen. Die häufigsten Formate der Logfiles sind NCSA, W3SVC, Microsoft IIS3.0 und O’Reill. Die Informationen, die ein Logfile erhält, sind unter anderem die Folgenden:

  • IP-Adresse
  • Nutzername, solange nicht Passwortgeschützt
  • Zugriffszeit
  • Befehl, der verlangt wurde
  • Art des Übertragungsprotokolls
  • Serverantwort
  • übertragene Bytes
  • verwendetes Betriebssystem

Die aufgelisteten Beispielinformationen zeigen, dass bedeutende Aspekte über den Besucher, sein Verhalten und die Herkunft, an dem Webmaster übermittelt werden. Das positive daran ist, dass sich anhand des Verhaltens des Bots, welches aus der Logfile Analyse hervor geht, Optimierungsmöglichkeiten der Website interpretieren lassen. Ebenfalls können Logfiles als Kontrolldateien verwendet werden, um Serverfehler zu finden.

Bedeutung für die Suchmaschinenoptimierung (SEO)

Für die Suchmaschinenoptimierung (SEO) ist es von großer Bedeutung die Art, wie der Googlebot arbeitet, zu kennen. Wichtig ist, dass dem Bot eine Start-URL zur Verfügung gestellt wird. Dadurch, dass der Crawler, auf Grund von Verweisen auf anderen Websites, neue Inhalte finden kann, sorgt ein HREF-Link ebenfalls dafür, dass der Bot eine neue URL erhält.

Sendet man einen Pingback ins World Wide Web, findet der Googlebot diese Benachrichtigung und schaut sich die gesendete Adresse an. Stellt man dem Bot eine sogenannte Sitemap zur Verfügung, erhält er Einblicke in die Struktur und weiß, welche URLs er als nächstes betrachten kann. Das ist besonders empfehlenswert, bei umfangreichen Seiten.

Grundsätzlich muss die Entwicklung von Googlebots unter ständiger Beobachtung sein, da Google permanent daran arbeitet Inhalte, wie zum Beispiel von dynamischen Seiten, Bildern, Videos und Audiodateien für den Bot erkennbar zu machen, damit auch diese Inhalte analysiert und dem Google Index hinzugefügt werden können.

Quellen

Ihr Weg zu mehr Besuchern und Umsatz