Google Deepbot
Der Deepbot ist ein Teil des Googlebot Crawlers. Der Googlebot durchsucht das gesamte Internet nach indexierbaren Seiten, welche dann in der Organic Search auftauchen können. Der Google Deepbot durchsucht bereits indexierte Einzelseiten in regelmäßigen Abständen nach Linkverweisen und folgt diesen. Das Gegenstück zum Deepbot ist der Freshbot, welcher sich auf die Suche nach neuen Seiten bzw. Fresh Content konzentriert.
Inhaltsverzeichnis
Deepbot vs. Freshbot
Beide Spider sind Teil des Googlebots. Während sich der Deepbot mit der Verfolgung von Linkverweisen beschäftigt, sucht der Freshbot nach neuem Content. Insbesondere sind das Webseiten, die in regelmäßigen Abständen neue Inhalte hochladen, wie zum Beispiel Newsseiten, Blogs und Social Media Posts. Diese Durchforstung nach neuen Webseiten und Unterseiten wird auch als Fresh Crawl bezeichnet. Seiten, die so indexiert werden (Fresh Index), bekommen einen Fresh Bonus, können also in den Suchergebnissen weit oben stehen, obwohl ihr PageRank 0 ist. Läuft der Fresh Bonus ab, können Seiten ihre gute Platzierung allerdings wieder verlieren, wenn der Deepbot eine schlechte Bewertung abgibt. Dieser führt einen Deepcrawl durch, der Webseiten komplett crawlt.
Allgemein lässt sich also sagen, dass der Deepbot Webseiten auf einer vertikalen Ebene untersucht, während der Freshbot auf einer horizontalen Ebene agiert.
Funktionsweise
Die Struktur von Webseiten kann als Ableitungsbaum dargestellt werden. Auf dieser Grundlage durchsuchen Bots, Crawler und Spider eine Domain, angefangen bei der Startseite, welcher den Baumstamm darstellt. Dabei werden die Struktur, die Inhalte und die Links einer Webseite eingescannt. Jeder Link, sofern er nicht als “nofollow” gekennzeichnet ist, bildet einen Ast, dem der Deepbot folgt. Diese Links werden in der Informationstechnik auch als Kanten bezeichnet. Der Algorithmus des Google Bots, also Freshbot und Deepbot zugleich, beeinflusst das Ranking von Seiten, da die gescannten Inhalte und Links zur Bewertung einer Domain beitragen. Je logischer und reicher eine Webseite aufgebaut ist, desto besser wird auch die Domain eingestuft, da sie viel Usability verspricht.
Wie genau der Deepbot arbeitet, ist allerdings Betriebsgeheminis von Google. Jede Suchmaschine hat ihren eigenen Algorithmus für ihre Crawler, und folglich auch das Ranking. Aus diesem Grund unterscheiden sich die SERPs bei Google, Yahoo, Bing, und anderen Suchmaschinen auch häufig.
Probleme mit Spam
Nicht alle Bots, die auf einen Server zugreifen, sind von Google oder anderen Suchmaschinen. In einigen Fällen handelt es sich dabei um Spambots, die unter anderem Serverlogspam betreiben. Um herauszufinden, ob es sich bei dem Bot um den Googlebot oder einen anderen User-Agent von Google handelt, müssen folgende Schritte eingeleitet werden:
- Umgekehrter DNS-Look-Up: Dieser Schritt, welcher auch unter Reverse DNS Look Up bekannt ist, dient zur Ermittlung von Domainnamen entsprechender IP-Adressen. Mit Hilfe des host-Befehls können diese in den Protokollen gesucht werden.
- Im nächsten Schritt wird der Domainname überprüft. Dieser sollte entweder googlebot.com oder google.com lauten.
- Im Anschluss wird ein normaler DNS-Look Up gefahren. Dort wird nun mittels host-Befehl verglichen, ob es sich um bei diesem Domainnamen um die ursprüngliche zugreifende IP-Adresse aus den Protokollen handelt.
Beispiel 1:
> host 66.249.66.1 1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com. > host crawl-66-249-66-1.googlebot.com crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Beispiel 2:
> host 66.249.90.77 77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com. > host rate-limited-proxy-66-249-90-77.google.com rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Nutzen in der SEO
Der Deepbot trägt neben dem Freshbot entscheidend dazu bei, dass Webresourcen im Index von Google aufgenommen werden. Durch ihn werden Webseiten komplett, also auch in tieferen Verzeichnissen, bei Google verfügbar. Webmaster, die auf Nummer sicher gehen möchten, dass alle Webseiten der Domain indexiert werden, kann die XML-Sitemap in der Google Search Console hochladen.
Die Indexierung ist allerdings nicht die einzige Aufgabe des Deepbots. Gleichzeitig dient er auch der Gewinnung von Big Data, welcher unter anderem für Data Mining und Web Scraping wichtig ist. Darüber hinaus sammelt der Deepbot auch „Schnappschüsse“ von Webseiten, die im Suchmaschinen Cache gespeichert werden.