Das Attribut „noindex“ wird bei den Meta Tags verwendet. Mittels des „noindex“ Attributs verhindert ein Webmaster, dass eine Website bzw. Webseitenteil in den Index einer Suchmaschine aufgenommen wird. Sobald das Attribut „noindex“ verwendet wird, wird einem Crawler (auch Robot oder Spider genannt) mitgeteilt, dass diese Seite nicht in den Index einer Suchmaschine aufgenommen soll.

Aufbau

Der Meta-Tag findet sich im Quelltext beziehungsweise im Head eines HTML-Dokuments wieder und wird wie folgt angegeben:

<meta name=”robots” content=”noindex”/>

Liest ein Bot eine Webseite aus und erkennt das diese mit dem „noindex“ Attribut im Head versehen ist so indexiert er sie dementsprechend nicht bzw. entfernt die Seite wieder aus dem Index wenn diese zuvor indexiert war. Folge ist, dass eine mit dem Attribut versehene Seite nicht in den SERPs (Search Engine Result Pages) einer Suchmaschinen angezeigt wird. Mit Hilfe der Site-Abfrage, kann ein Webmaster kontrollieren, ob der Meta-Tag „noindex“ richtig eingebaut wurde. Wenn die zutreffende Website in den Suchergebnissen nicht angezeigt wird, hat der Webmaster den Tag korrekt gesetzt.

Anwendung

Der Teil des Internets der über Suchmaschinen nicht auffindbar ist wird auch als Deep Web bezeichnet. Dazu zählen auch Webseiten(teile) die vom Index mit Hilfe es Befehls „noindex“ in den Meta-Angaben vom Webmaster ausgeschlossen wurden. Nützlich wird diese Angabe, wenn bestimmte Seiten nicht in den Index einer Suchmaschine landen sollen, da diese in den Suchergebnissen ungewünscht sind. Beispielsweise gilt dies für folgende Inhalte:

  • Doppelte Inhalte
  • Urheberrechtlich geschützte Inhalte
  • Interne Sucheregbnisseiten

Abgrenzung „noindex“ von „disallow“

Es gibt einen Unterschied zwischen dem Befehl „disallow“ in der robots.txt und dem Attribut „noindex“ bei den Meta-Angaben. Dieser Unterschied ist manchem Webmaster nicht bewusst. Der Befehl „disallow“ richtet sich an den Robot und gibt diesem die Anweisung, dass der Robots die Seite nicht crawlen soll bzw. darf. Das bedeutet jedoch nicht automatisch, dass die Seite nicht indexiert wird. Während der Befehl „noindex“, wie schon erwähnt, dem Crawler das Signal gibt, dass die bestimmte Seite keine Indexierung erfahren soll. Wird also angenommen, dass die Verwendung beider Befehle bei einem Inhalt dafür sorgt, dass eine doppelte Absicherung gegeben ist, so liegt der Webmaster falsch. Durch die Angabe „disallow“ und der damit verbundenen Nicht-Durchsuchung der Seite, übersieht der Robot das Attribut „noindex“ und belässt die Website einfach im Index der Suchmaschine. Das heißt will ein Webmaster bestimmte Seiten wieder entfernen, so erreicht er dies nicht automatisch über einen Ausschluss mittels robots.txt. Auch, dass noch nicht indexierte Seiten nicht im Index auftauchen kann durch die robots.txt nicht zu 100% ausgeschlossen werden. Besonders bei stark verlinkten Inhalten werden diesen dennoch in den SERPs angezeigt. Bei Dokumenten die keine Meta-Angaben besitzen, wie z.B. Bilder oder PDF Dokumente ist der Ausschluss über die robots.txt dennoch ein gangbarer Weg.

Die folgende Auflistung soll einen Überblick Möglichkeiten von „disallow“ und „noindex“ geben:

Disallow:

  • Gibt den Befehl, dass Inhalte nicht gecrawlt werden sollen
  • Der Befehl ist für sensible Seiten, wie beispielsweise Login-Seiten,
  • oder für große Datenmassen, wie beispielsweise Bilddatenbanken, sinnvoll
  • Die Aufnahme bzw. Verbleibt der Inhalte ist weiterhin möglich.

Noindex:

  • Gibt den Befehl, dass Inhalte nicht indexiert werden sollen.
  • Inhalte dürfen gecrawlt werden.
  • Es ist sinnvoll den Befehl für interne Suchergebnisseiten anzuwenden.

Der Sonderfall „noindex, follow“

Möchte ein Webmaster, dass eine Unterseite der Domain nicht indexiert wird, jedoch vom Bot durchsucht wird und den dort vorhandenen Hyperlinks folgt, kann er die Attribute „noindex“ und „follow“ verwenden. Die Zusammensetzung sieht dann wie folgt aus:

<meta name=”robots” content=”noindex,follow”/>

Das Attribut wird in diesem Sonderfall einfach mit „follow“ erweitert. So wird beispielsweise der Googlebot (der Robot der Suchmaschine Google) den Links der Unterseite folgen, deren Inhalt jedoch nicht in den Google-Index aufnehmen. Das ist sinnvoll, wenn sich „hinter“ der nicht indexierten Seite noch Inhalte befinden welche in den Index aufgenommen werden sollen. Anwendungsfälle sind z.B. aggregierte Übersichten bei Tag-Seiten, HTML Sitemaps, Shop-Kategorien ohne eigenen Inhalt und weitere.

Bedeutung für die Suchmaschinenoptimierung

Der Befehl „noindex“ ist sehr gut dafür geeignet doppelte Inhalte (Duplicate Content) zu vermeiden. Da nicht nur Google, sondern auch andere Anbieter von Suchmaschinen, doppelte Inhalt mit einer Penalty/Abstrafung versehen können, sollten Webmaster dieser Beeinflussung der Indexierung nachgehen. Wird mit dem oben beschriebenen Sonderfall gearbeitet, kann der Bot trotzdem den Links der nicht indexierten Seite folgen. Der Meta-Tag „noindex“ ist besonders sinnvoll für SEO-Maßnahmen, um Link Spam zu vermeiden. Auch in diesem Fall kann der Webmaster sich vor Abstrafungen schützen. Sollte eine Page einen Relaunch durchlaufen, kann mit Hilfe des „noindex“-Tags die Seite besucht und getestet werden, ohne dass der Bot diese schon in den Index aufnimmt. Das „noindex“ Attribut hat daher viele hilfreiche Funktionen für die Suchmaschinenoptimierung.

Quellen

 

Fanden Sie den Artikel hilfreich?