Indexierung
Indexierung beschreibt im Allgemeinen eine Informationserfassung von Inhalten, im Online Context sind dies Inhalte aus aus dem World Wide Web. Über Schlüssel- und Suchbegriffe werden Dokumente in einem Index gesammelt und sortiert. Die indexierten Dokumente werden zum besseren und schnelleren Auffinden mit entsprechenden Deskriptoren versehen. Ähnlich wie in Bibliotheken kann auf Grund dieser Schlagwörter ein Suchbegriff, der von einem Nutzer eingegeben wird, mit relevanten Inhalten bedient werden. Deskriptoren sind in diesem Fall Keywords, die ein User zu einer bestimmten Suchanfrage eingeben könnte. Zusammengefasst lässt sich sagen, dass die Indexierung die Erstellung eines Indexes ist, bei dem Webdokumente gesammelt und mit Deskriptoren versehen werden, sowie sortiert und für Suchanfragen bereitgestellt werden.
Inhaltsverzeichnis
Indexierung allgemein
Der Prozess der Indexierung von Webdokumenten ist komplex und wendet viele Methoden aus der Informatik und den Informationswissenschaften an. Wichtige Begriffe sind hierbei das Information Development, Information Retrieval und das Data Mining.
- Information Development beschreibt die Informationserfassung der Webdokumente anhand von Keywords
- Information Retrieval ist die Auswertung von unstrukturierten Daten, im Deutschen auch Informationsrückgewinnung genannt
- Data Mining ist eine empirische Methode, um große Datensätze zusammen zu fassen und auszuwerten. Dies geschieht unter Anderem mit Hilfe von Algorithmen, künstlicher Intelligenz und Statistiken.
Schon bevor der User eine Suchanfrage stellt, durchsuchen sogenannte Crawler, wie beispielsweise der Google Bot, Dokumente im Internet. Diese werden ausgelesen, dem Index hinzugefügt und sortiert. Erst dann können die Suchmaschinen dem User in den SERPs relevante Inhalte zutreffend zum Suchbegriff (Keyword) liefern. Um diesen Vorgang zu optimieren, arbeiten die Suchmaschinenanbieter ständig an der Verbesserung der Indexierung von Webseiten.
Indexierungsprozess: Der Crawler durchsucht das World Wide Web, Text-, Video- sowie Bilddateien und fügt diese zu einem Index hinzu
Methoden
Zur Beeinflussung der Indexierung können unter anderem folgende Methoden verwendet werden:
- Robots.txt
- Meta Tags
- Canonical Tag
- Pagination über rel=prev“, rel=“next“ zum Verweis auf die erste Komponentenseite
Welche Gründe liegen vor, aufgrund derer die Indexierung beeinflusst werden soll? Webmaster möchten nur relevante HTML-Seiten im Index stehen haben. Dies bedeutet wiederum, dass irrelevante Inhalte oder doppelte Inhalte bei der Indexierung vermieden werden sollen. Die Methoden dienen daher der Beeinflussung, ob die Verfolgung von Links erlaubt oder untersagt wird. Im Folgenden werden die drei genannten Methoden genauer vorgestellt.
Robots.txt
Robots.txt ist eine Textdatei, die Anweisungen für den Crawler beziehungsweise Robot einer Suchmaschine aufweist. Zweck dieser Textdatei ist, für die Suchmaschine festzulegen, welcher Bereich einer Website gecrawlt werden darf. Die Tabelle zeigt auf, welche wesentliche Funktionen und zugehörige Aufgaben eine robots.txt enthalten kann:
Funktion | Aufgabe |
---|---|
User Agent | Bestimmt den Crawler, für den die unten stehenden Anweisungen gelten |
Allow/Disallow | Bestimmt, ob eine Webseite gecrawlt (allow) oder nicht gecrawlt (Disallow) werden soll |
Meta Tags
Damit der Webmaster entscheiden kann, wie der Crawler eine HTML-Seite indexieren und mit den vorhandenen Hyperlinks umgehen soll, gibt es zwei des Meta Tags, die bei der Steuerung des Robots eine wichtige Rolle spielen. Die folgende Tabelle zeigt, wie die Funktion von index/noindex und follow/nofollow bezogen auf die Meta Anweisung <meta name=”robots” content=”index,follow” /> genutzt werden kann:
Funktion | Bedeutung |
---|---|
content=“index,follow“ | HTML-Seite indexieren und den Links folgen |
content=“noindex/follow“ | HTML-Seite nicht indexieren und den Links folgen |
content=“index/nofollow“ | HTML-Seite indexieren und den Links nicht folgen |
content=“noindex/nofollow“ | HTML-Seite nicht indexieren und den Links nicht folgen |
Canonicals
Der Canonical Tag ist eine Methode, die hauptsächlich dazu dient, dass doppelter Content im Index vermieden wird. Der Suchmaschine kann damit angegeben werden, dass nicht die gefundene, sondern beispielsweise die ursprüngliche Hauptseite in den Index aufgenommen werden soll. Wird jeder statischen HTML-Seite ein Canonical Tag mit der eigenen URL zugewiesen, kann ein Duplicate Content (doppelter Inhalt) vermieden werden. Gründe für doppelte Inhalte sind etwa:
- Webseiten sind mit und ohne „wwww.“ zu erreichen
- Session IDs werden in URLs angewandt
- Es gibt ähnliche Inhalte auf HTML-Seiten
Der Canonical Tag gehört in den Head einer HTML-Seite und sieht folgendermaßen aus:
Canonical Tag | Bedeutung |
---|---|
<link rel=”canonical” href=http://www.beispiel.de/richtigeseite.html> | Durch den Part rel=“canonical“ wird angegeben, welche Seite aufgenommen werden soll |
Bedeutung für die Suchmaschinenoptimierung
Für die Suchmaschinenoptimierung hat die Indexierung eine sehr große Bedeutung. Die Webmaster können steuern, welche Seiten gecrawlt, indexiert und letztendlich in den Suchmaschinenergebnissen angezeigt werden sollen. Hohe Positionen in den SERPs werden unter anderem mit qualitativ hochwertigen Content erreicht. Da Google regelmäßig an den Algorithmen der Suchmaschinen arbeitet, sollten Webmaster sich diesbezüglich immer auf dem Laufenden halten, damit sie jeder Zeit eingreifen können, um beispielsweise Spam Seiten vom Index fern zu halten.
Häufige Fragen
Was ist eine Indexierung?
Die Indexierung beschreibt die Registrierung von Inhalten im World Wide Web. Hierfür werden Dokumente in einem Index gesammelt und Nutzern anschließend zur Verfügung gestellt.
Welche Methoden werden im Rahmen der Indexierung verwendet?
Es kommen Strategien aus der Informatik zum Einsatz. Darunter fallen beispielsweise Information Retrieval, Data Mining und Information Development.
Womit kann die Indexierung beeinflusst werden?
Um eine Indexierung individuell anzupassen oder zu beeinflussen, können beispielsweise eine Robots.txt, Meta Tags, Canonical Tags oder eine Pagination verwendet werden.