Deep Web ›› Definition & Bedeutung › ADVIDERA

Deep Web

Deep Web (zu Deutsch: Tiefes Netz) bezeichnet Teile des World Wide Webs, welche nicht durch normale Suchmaschinen wie Google gefunden werden können. Aus diesem Grund wird das Deep Web auch als Hidden Web oder Invisible Web bezeichnet, welches sich als “Verstecktes” und “Unsichtbares Netz” übersetzen lassen. Gegenstück des Deep Webs ist das Visible Web, wobei angenommen wird, dass dessen Größe um einiges kleiner ist als beim Versteckten Netz.

Definition

Das Deep Web ist ein allgemeiner Begriff für den Teil des Webs, der nicht indexiert ist und nur durch bestimmte Browser auffindbar ist. Der Begriff wurde 2001 von Computerwissenschaftler Michael K. Bergmann geprägt, sodass es als Vokabular des Suchindex hinzugefügt werden.

Die Größe des Deep Webs kann nicht eindeutig definiert werden. Eine Studie aus dem Jahre 2001 argumentierte, dass das Deep Web bis zu 550 Mal größer ist als das Visible Web. Da diese Studie schon mehr als ein Jahrzehnt alt ist, wird angenommen, dass dieser Wert auch heute noch exponentiell weiter steigt.

Deep-web-Visible-web-dark-web

Unterschiede zum Dark Web

Das Deep Web wird häufig mit dem Dark Web und Darknet verwechselt. Der Grund dafür ist nicht nur der ähnliche Name. Beide Begriffe behandeln Konzepte, bei denen Webseiten und Content für normale Suchmaschinen unauffindbar sind. Allerdings unterscheiden sich Deep und Dark Web technisch wie auch inhaltlich.

Das Dark Web ist ein Teil des Internets, welches im Darknet existiert. Das Darknet ist ein Peer-to-Peer Overlay-Netzwerk, bei dem Nutzer Verbindungen manuell zueinander herstellen müssen. Bei normalen Netzwerken werden diese Verbindungen, teils mittels Proxy oder VPN, automatisch hergestellt. Das Darknet ist also eine Art exklusiver Klub, in dem nur Nutzer eintreten können, wenn sie in das Netzwerk eingeladen werden. Das Darknet bietet besonderen Datenschutz, da Daten häufig verschlüsselt versendet werden können und nur schwer von Außenstehenden einsehbar sind.

Um Zugriff zum Dark Web zu erlangen wird neben der Einladung von anderen Nutzern auch noch ein spezielles Software Programm benötigt, um auf das Darknet zugreifen zu können. Der bekannteste ist der Tor Browser, ein anonymes Netzwerk und Suchmaschine für das Dark Web. Mit einem normalen Browser wie zum Beispiel Google Chrome oder Mozilla Firefox kann man also nicht ohne weiteres auf das Dark Web zugreifen.

Weiterhin wird stark vermutet, dass im Dark Web viele kriminelle Aktivitäten stattfinden, da sie dort schwerer zu finden sind und Täter kaum zurückverfolgt werden können. Hackergruppen, Filesharer und schwere Verbrechergruppen nutzen das Darknet, um sich miteinander auszutauschen. Darauf ist auch der schlechte Ruf des Dark Webs, und als Folge der Begriffsverwechslung, auch des Deep Webs, zu begründen. Allgemein kann das Darknet aber auch für ganz normale Zwecke genutzt werden, um die Privatsphäre und Daten zu schützen.

Im Gegensatz dazu bezeichnet das Deep Web alle Seiten und Inhalte, die nicht indexiert sind und damit nicht in den SERPs auftauchen können. Damit kann das Dark Web zwar als Teil des Deep Webs bezeichnet werden, jedoch nicht als Synonym.

Funktionsweise

Um Teil des Deep Webs zu werden gibt es ganz allgemein zwei Möglichkeiten:

  1. Ausschluss aus dem Index durch Suchmaschinen. Aufgrund von technischen Gründen werden Seiten nicht indexiert. Allerdings können Webseiten auch ausgeschlossen werden, wenn sie abgestraft wurden.
  2. Selbstverschuldeter Ausschluss aus dem Index. Webseiten werden ohne Eingriff oder Schuld von Suchmaschinen aus dem Index ausgeschlossen. Dies kann eine manuelle Maßnahme sein oder Folge des Webseitenaufbaus.

Eine manuelle Maßnahme, um zum Deep Web zu gehören, wird mit Hilfe des Noindex Elements im <head> Bereich des Quelltextes erreicht: <meta name=“robots“ content=“noindex“>. Daneben kann in der robots.txt Datei mittels des Disavow Befehls spezifiziert werden, welche Inhalte von Spidern ignoriert werden sollen. Damit können nicht nur Unterseiten, sondern auch Bilder, Videos und PDFs aus dem Index ausgeschlossen werden. Weiterhin können Crawlern der Zugriff verweigert werden, indem eine Aktion ausgeführt werden muss, wie zum Beispiel die Eingabe eines Passworts, um eine Seite zu besuchen.

Arten des Deep Web

Laut Chris Sherman und Gary Price können Deep Web Inhalte in vier Kategorien zugeordnet werden. Daneben gibt es noch das “Invisible Web”, weswegen man heute auch von fünf Kategorien des Deep Web spricht.

Invisible Web

Beim Invisible Web werden Seiten bewusst von Webseitenbetreibern aus dem Index ausgeschlossen. Gründe dafür können kaufmännischer oder strategischer Natur sein.

Opaque Web

Das Opaque Web sind Webseiten und Content, die zwar indexiert werden könnten, jedoch aus leistungstechnischen Gründen auf Seiten der Suchmaschinen aus dem Index ausgeschlossen werden. Ein Deep Crawler untersucht Webseiten auf ihre Verzeichnisstruktur und folgt so vielen Links wie möglich, um Webseiten besser zu verstehen. Der Crawler verfolgt Verweise aber nur bis zu einer bestimmten Tiefe, meist nur bis zu sechs Verzeichnisebenen pro Crawl. Da ein Deep Crawler nur in regelmäßigen Zeitabständen in die Tiefe geht und dort weitermacht, wo er das letzte mal aufgehört hat, können Tage vergehen, bis eine Seite komplett vom Spider gecrawlt wird. Aus diesem Grund sind Inhalte für die Zeit, in der der Crawler sie noch nicht erreicht hat, Teil des Deep Webs.

Unter dem Opaque Web fallen auch Media- und Dateitypen, die nicht komplett von Spidern verstanden werden. Darunter fallen unter anderem längere PDF Dokumente, die nur zum Teil indexiert werden.

Weiterhin werden Spam Seiten vom Index ausgeschlossen. Google kann Spam automatisch erkennen, zum Beispiel, weil sie einen hohen Grad an Duplicate Content aufweisen. Spam Seiten machen einen sehr großen Teil des Opaque Web aus, weil sie mit Hilfe von Skripten und anderen Black Hat Methoden automatisch zu Millionen generiert werden können.

Auch Seiten ohne Hyperlinks oder Linkverweise können aus leistungstechnischen Gründen aus dem Index ausgeschlossen werden, obwohl sie technisch weder “noindex” Tag beinhalten noch eine ausschließende robots.txt. Da sie wenig bis gar nicht verlinkt werden, können neue Webseiten zeitweise Teil des Deep Webs sein bis sie vom Fresh Crawler gefunden werden.

Private Web

Unter Private Web versteht man Webseiten, die wegen einer Zugangsbeschränkung nicht im Index aufgenommen werden. Zugriff auf betroffene Seiten können durch bestimmte IP-Adressen, Passwörter oder innerhalb eines Rechnernetzwerks gewonnen werden. Dazu wird im Quelltext zusätzlich ein Meta-Tag hinterlegt (siehe Funktionsweise). Zum Private Web gehören zum Beispiel Intranet Seiten, die nur über ein bestimmtes Rechnernetz besucht werden können. Universitäten und Bibliotheken machen zum Beispiel Gebrauch von dieser Technik.

Proprietary Web

Suchmaschinen können auf den Großteil von Webseiten im Proprietary Web nicht zugreifen, da diese nur sichtbar für Besucher sind, die Nutzerbedingungen zustimmen. Obwohl sich ganz normaler und nützlicher Content hinter diesen Seiten verstecken könnte, kann ein Spider einfach nicht auf diesen zugreifen und ihn crawlen. Häufig wird auch ein Passwort oder eine Registrierung benötigt, um auf Proprietary Webseiten zugreifen zu können. Foren, die eine Registrierung benötigen, um Beiträge zu verfassen und zu lesen gehören zum Beispiel zum Proprietary Web.

Truly Invisible Web

Die letzte Kategorie des Deep Web befasst sich mit Webseiten, die aus technischen Gründen nicht indexiert werden können. Vor allen Dingen sind davon Dateiformate betroffen, die Browser nicht anzeigen können. Darunter fallen Nicht-Standardformate wie Flash, Skripte oder softwarespezifische Dateiformate.

Nutzen für die Suchmaschinenoptimierung

In aller Regel sollten Webseiten und deren Content aus der Sicht der Suchmaschinenoptimierung natürlich indexiert werden, damit Google und Co die Seite finden können. Je mehr Content einer Webseite im Index stehen, desto mehr Keywords können für die Seite ranken und desto mehr Traffic wird generiert.

Allerdings gibt es dabei auch Ausnahmen. So können zum Beispiel Datenschutz und Impressum Seiten als “noindex” markiert werden, damit sich der Link Juice besser auf relevante Seiten verteilt. Auch Seiten mit Thin Content können ausgeschlossen werden, da Suchmaschinen dies als negatives Signal auffassen können. Mit Hilfe von manuellen Maßnahmen kann also gesteuert werden, wie genau eine Webseite gefunden werden soll. Fazit: Für die Suchmaschinenoptimierung ist es nicht nur wichtig, gefunden zu werden. Manchmal ist es sogar vorteilhaft, Seiten vor Crawlern zu verstecken. 

Quelle

Ihr Weg zu mehr Besuchern und Umsatz