Indexierung

Indexierung beschreibt im Allgemeinen eine Informationserfassung von Inhalten, im Online Context sind dies Inhalte aus aus dem World Wide Web. Über Schlüssel- und Suchbegriffe werden Dokumente in einem Index gesammelt und sortiert. Die indexierten Dokumente werden zum besseren und schnelleren Auffinden mit entsprechenden Deskriptoren versehen. Ähnlich wie in Bibliotheken kann auf Grund dieser Schlagwörter ein Suchbegriff, der von einem Nutzer eingegeben wird, mit relevanten Inhalten bedient werden. Deskriptoren sind in diesem Fall Keywords, die ein User zu einer bestimmten Suchanfrage eingeben könnte. Zusammengefasst lässt sich sagen, dass die Indexierung die Erstellung eines Indexes ist, bei dem Webdokumente gesammelt und mit Deskriptoren versehen werden, sowie sortiert und für Suchanfragen bereitgestellt werden.

Indexierung allgemein

Der Prozess der Indexierung von Webdokumenten ist komplex und wendet viele Methoden aus der Informatik und den Informationswissenschaften an. Wichtige Begriffe sind hierbei das Information Development, Information Retrieval und das Data Mining.

  • Information Development beschreibt die Informationserfassung der Webdokumente anhand von Keywords
  • Information Retrieval ist die Auswertung von unstrukturierten Daten, im Deutschen auch Informationsrückgewinnung genannt
  • Data Mining ist eine empirische Methode, um große Datensätze zusammen zu fassen und auszuwerten. Dies geschieht unter Anderem mit Hilfe von Algorithmen, künstlicher Intelligenz und Statistiken.

Schon bevor der User eine Suchanfrage stellt, durchsuchen sogenannte Crawler, wie beispielsweise der Google Bot, Dokumente im Internet. Diese werden ausgelesen, dem Index hinzugefügt und sortiert. Erst dann können die Suchmaschinen dem User in den SERPs relevante Inhalte zutreffend zum Suchbegriff (Keyword) liefern. Um diesen Vorgang zu optimieren, arbeiten die Suchmaschinenanbieter ständig an der Verbesserung der Indexierung von Webseiten.

Indexierungsprozess: Der Crawler durchsucht das World Wide Web, Texte, Video- sowie Bilddateien und fügt diese zu einem Index hinzu
Indexierungsprozess: Der Crawler durchsucht das World Wide Web, Text-, Video- sowie Bilddateien und fügt diese zu einem Index hinzu

Methoden

Zur Beeinflussung der Indexierung können unter anderem folgende Methoden verwendet werden:

Welche Gründe liegen vor, aufgrund derer die Indexierung beeinflusst werden soll? Webmaster möchten nur relevante HTML-Seiten im Index stehen haben. Dies bedeutet wiederum, dass irrelevante Inhalte oder doppelte Inhalte bei der Indexierung vermieden werden sollen. Die Methoden dienen daher der Beeinflussung, ob die Verfolgung von Links erlaubt oder untersagt wird. Im Folgenden werden die drei genannten Methoden genauer vorgestellt.

Robots.txt

Robots.txt ist eine Textdatei, die Anweisungen für den Crawler beziehungsweise Robot einer Suchmaschine aufweist. Zweck dieser Textdatei ist, für die Suchmaschine festzulegen, welcher Bereich einer Website gecrawlt werden darf. Die Tabelle zeigt auf, welche wesentliche Funktionen und zugehörige Aufgaben eine robots.txt enthalten kann:

Funktion Aufgabe
User Agent Bestimmt den Crawler, für den die unten stehenden Anweisungen gelten
Allow/Disallow Bestimmt, ob eine Webseite gecrawlt (allow) oder nicht gecrawlt (Disallow) werden soll

Meta Tags

Damit der Webmaster entscheiden kann, wie der Crawler eine HTML-Seite indexieren und mit den vorhandenen Hyperlinks umgehen soll, gibt es zwei des Meta Tags, die bei der Steuerung des Robots eine wichtige Rolle spielen. Die folgende Tabelle zeigt, wie die Funktion von index/noindex und follow/nofollow bezogen auf die Meta Anweisung <meta name=”robots” content=”index,follow” /> genutzt werden kann:

Funktion Bedeutung
content=“index,follow“ HTML-Seite indexieren und den Links folgen
content=“noindex/follow“ HTML-Seite nicht indexieren und den Links folgen
content=“index/nofollow“ HTML-Seite indexieren und den Links nicht folgen
content=“noindex/nofollow“ HTML-Seite nicht indexieren und den Links nicht folgen

Canonicals

Der Canonical Tag ist eine Methode, die hauptsächlich dazu dient, dass doppelter Content im Index vermieden wird. Der Suchmaschine kann damit angegeben werden, dass nicht die gefundene, sondern beispielsweise die ursprüngliche Hauptseite in den Index aufgenommen werden soll. Wird jeder statischen HTML-Seite ein Canonical Tag mit der eigenen URL zugewiesen, kann ein Duplicate Content (doppelter Inhalt) vermieden werden. Gründe für doppelte Inhalte sind etwa:

  • Webseiten sind mit und ohne „wwww.“ zu erreichen
  • Session IDs werden in URLs angewandt
  • Es gibt ähnliche Inhalte auf HTML-Seiten

Der Canonical Tag gehört in den Head einer HTML-Seite und sieht folgendermaßen aus:

Canonical Tag Bedeutung
<link rel=”canonical” href=http://www.beispiel.de/richtigeseite.html> Durch den Part rel=“canonical“ wird angegeben, welche Seite aufgenommen werden soll

 

Bedeutung für die Suchmaschinenoptimierung

Für die Suchmaschinenoptimierung hat die Indexierung eine sehr große Bedeutung. Die Webmaster können steuern, welche Seiten gecrawlt, indexiert und letztendlich in den Suchmaschinenergebnissen angezeigt werden sollen. Hohe Positionen in den SERPs werden unter anderem mit qualitativ hochwertigen Content erreicht. Da Google regelmäßig an den Algorithmen der Suchmaschinen arbeitet, sollten Webmaster sich diesbezüglich immer auf dem Laufenden halten, damit sie jeder Zeit eingreifen können, um beispielsweise Spam Seiten vom Index fern zu halten.

Quellen

Ihr Weg zu mehr Besuchern und Umsatz