Eine Logfile Analyse bezeichnet die Auswertung von Prozessen, die innerhalb eines Computersystems wie zum Beispiel eines Webservers stattfinden. Die Logfile Analyse ist auch unter dem Begriff “Logdateianalyse” bekannt, da sie sich mit der Log Datei befasst, eine Datei, die Protokoll über alle Prozesse innerhalb eines Systems führt. Die dort vorhandenen Daten wurden unter anderem dafür genutzt, um die Performance von Webseiten zu verbessern, weshalb die Auswertung der Logfile ein Tool für die Suchmaschinenoptimierung darstellt.

Über Logfile

Die Logfile Analyse arbeitet auf Basis der Logdatei, auch Logfile genannt. Die Protokolldatei zeichnet alle Prozessvorgänge eines Computersystems auf. Darunter fällt auch der Webserver, bei dem Zugriffe auf eine Webseite protokolliert werden.

Im Rahmen von Datenbanken, wie sie zum Beispiel bei MySQL genutzt werden, spricht man von Transaktionsprotokollen. Hier werden Änderungen einer Datenbank festgehalten, wie zum Beispiel die Erstellung neuer Datensätze.

Logfile Inhalt und Beispiel

Logfiles enthalten immer die gleichen Informationen. Diese werden zusammen in einer Zeile zusammengefasst, wobei jede Zeile eine Aktion repräsentiert. Diese Aktion stellt allerdings nicht zwangsweise einen Klick auf eine Webseite dar. Enthält ein Dokument zum Beispiel Bilder oder Videos, protokolliert die Logfile den Ladeprozess jedes Elements auf der Seite. Die darin enthaltenen Informationen sind folgende, wobei sich die Reihenfolge je nach Format ändern kann:

  • IP-Adresse bzw. DNS Adresse
  • Zugriffsdatum mit Zeitangabe und Zeitzone
  • Benutzername, soweit vorhanden
  • Serverbefehl
  • Serverantwort
  • Betriebssystem des Nutzers
  • Browser des Nutzers
  • Übertragungsprotokoll (zum Beispiel HTTP oder HTTPS)
  • übertragene Datengröße in Bytes
  • Referrer URL (Zuvor besuchte Webseite)

Beispiel einer Logfile:

logfile-beispiel

Diese Zeile befasst sich mit dem Ladevorgang einer .gif Datei, die sich auf der Referrer URL befindet. Der Besucher mit der fiktiven IP Adresse 12.12.123.12 hat die .gif Datei am 7. Januar 2017 gegen 23:30 mittels Firefox auf einem Windows 7 Rechner aufgerufen (auch bekannt als Windows NT 6.1).

Analyse von Log Dateien

Die Zeilen der Logfile sind zahlreich und je nach Klickrate extrem unübersichtlich. Sie gehören zu den Big Data, da sie sehr viele Daten und Informationen enthalten. Die Analyse dieser Datei zählt daher zum Data Mining, welcher sich mit der Auswertung und Musterfindung von großen Daten befasst.

Auf Grund der hohen Datenmenge erfolgt die Auswertung der Logfile mittels Tools. Da es diese auch als Open Source Software gibt, lohnt es sich selbst bei kleineren Seiten, diese zu installieren:

Mit Hilfe von Logfile Analysetools kann Web Analytics betrieben werden. Vor jeder statistischen Datenanalyse müssen Betreiber allerdings festlegen, welche Fragestellung sie mit der Logfile Analyse beantwortet haben möchten. Soll der Erfolg einer Marketing Kampagne gemessen werden? Dient die Logfile Analyse zum AB Test Vergleich? Sollen mit der Auswertung neue Zielgruppen gefunden werden?

In der Praxis werden die Daten oft mit Hilfe einer transparenten Bilddatei erhoben. Dafür binden Webmaster ein 1×1 Pixel großes Bild auf ihrer Startseite ein, welches für Besucher nicht sichtbar ist. Jeder Aufruf dieser Datei wird in den Logfiles protokolliert. Da Betreiber selten Zugriff auf die Logdatei des Webservers haben, wird das Bild bei einem Server hochgeladen, bei dem der Zugriff möglich ist.

Logfiles und Google Analytics

Die reine Logfile Analyse bildete einst die Basis Google Analytics, ein beliebtes Web Analytics Tool von Google. Vor 2004 waren die Daten aus den Protokollen fast der einzige Anhaltspunkt des Tools. Daraufhin folgten dann Conversion Tracking, Kampagnen Tracking und Customer Journey. Auch heute sind die Log Dateien noch ein wichtiger Bestandteil der Webseitenanalyse. Jedoch geben sie nur begrenzten Aufschluss über Besucher und stoßen zudem auf technische Grenzen.

Datenschutz

Wie auch bei vielen anderen Analytics Tools ist die Nutzung der Logfile Analyse ein Kritikpunkt für Datenschützer. Die Logfiles sind umstritten, weil Webseitenbetreiber Informationen über IP-Adressen abspeichern können. Hinzu kommt, dass Betreiber nicht dazu verpflichtet sind, seinen Besuchern über die Aufzeichnung und Speicherung von seinen Daten hinzuweisen, wie dies bei Cookies der Fall ist. Mittlerweile ist es für Inhaber der Webseite allerdings schwierig, überhaupt Zugriff auf die Logfiles zu erlangen. Grund dafür ist unter anderem die deutsche Gesetzlage. Laut §15 des Telemediengesetzes dürfen Dienstanbieter (also Betreiber der Webserver), personenbezogene Daten nur erheben und verwenden, um die Nutzung von Telemedien zu ermöglichen und abzurechnen. Allerdings besagt gleiches Gesetz auch, dass die Daten für Marktforschungszwecke genutzt werden dürfen (§15, 3). Die rechtliche Lage bezüglich Logfiles ist in Deutschland also noch umstritten.

(1) Der Diensteanbieter darf personenbezogene Daten eines Nutzers nur erheben und verwenden, soweit dies erforderlich ist, um die Inanspruchnahme von Telemedien zu ermöglichen und abzurechnen (Nutzungsdaten). Nutzungsdaten sind insbesondere

1. Merkmale zur Identifikation des Nutzers,

2. Angaben über Beginn und Ende sowie des Umfangs der jeweiligen Nutzung und

3. Angaben über die vom Nutzer in Anspruch genommenen Telemedien.

(2) Der Diensteanbieter darf Nutzungsdaten eines Nutzers über die Inanspruchnahme verschiedener Telemedien zusammenführen, soweit dies für Abrechnungszwecke mit dem Nutzer erforderlich ist.

(3) Der Diensteanbieter darf für Zwecke der Werbung, der Marktforschung oder zur bedarfsgerechten Gestaltung der Telemedien Nutzungsprofile bei Verwendung von Pseudonymen erstellen, sofern der Nutzer dem nicht widerspricht. Der Diensteanbieter hat den Nutzer auf sein Widerspruchsrecht im Rahmen der Unterrichtung nach § 13 Abs. 1 hinzuweisen. Diese Nutzungsprofile dürfen nicht mit Daten über den Träger des Pseudonyms zusammengeführt werden.

Nutzen für die Suchmaschinenoptimierung

Hinter der Logfile Analyse steckt viel Potenzial für die Suchmaschinenoptimierung.

  • Nutzerstandort: Mit der IP-Adresse des Nutzers bringen Betreiber in Erfahrung, wo diese herkommen. Auch ausländische Besucher lassen sich so erkennen. Webseiten können aufgrund dieser Erkenntnisse neue Standorte ermitteln, die sie bei der SEO und SEA mit einbeziehen.
  • Fehler Einsicht: In den Logfiles werden nicht nur erfolgreiche Zugriffe aufgezeichnet. Auch Aktionen, die fehlgeschlagen sind bzw. 400 oder 500 Response Codes auswerfen, lassen sich dort nachverfolgen. Die Erreichbarkeit einer Seite ist fundamental für die Suchmaschinenoptimierung. Nicht nur wegen der Usability, sondern auch damit Spider eine Seite crawlen können.
  • Keine Cookies oder Tracking notwendig: Obwohl beide Methoden durchaus ihre Vorteile haben, stellen Cookies und Tracking zusätzlichen technischen Aufwand dar. Dazu kommt bei den Cookies, dass der Nutzer über die Speicherung seiner Daten benachrichtigt werden muss, was für diesen abschreckend wirken kann.
  • Cookies und Tracking kombinierbar: Obwohl die Logfile Analyse keine Cookies oder Tracking benötigt, können mehr Informationen gewonnen werden, wenn diese Tools zusammen zum Einsatz kommen. Dadurch lassen sich zum Beispiel wiederkehrende Besucher erkennen.

Grenzen und Nachteile der Logfile Analyse

Webmaster verlassen sich schon lange nicht mehr alleine auf die Logfile Analyse. Zwar hat diese nachwievor noch viele Vorteile, jedoch gibt es hier auch Grenzen, die nicht zuletzt wegen neuen Technologien und Rechtslagen entstanden sind.

Eines der größten Probleme seit dem Anfang der Logfile Analyse ist das extreme Datenvolumen. Jede einzelne Aktion wird protokolliert, weil das HTTP Protokoll diese unabhängig voneinander bewertet. Sie werden also nicht automatisch nach IP oder Referrer zusammengefasst. Da diese Hits als einzeln gewertet werden, lässt sich eine Customer Journey also nicht ohne weiteres nachvollziehen.

Die Logfiles Analyse stößt auch auf Grenzen, wenn Nutzer ihre IP-Adresse verschleiern. Dies geschieht mit Hilfe von Proxy Servern, NAT Systemen oder VPN. Clients schicken ihre Anfrage über andere Server an den Webserver, sodass am Zielort die Adresse des Zwischenservers ausgelesen wird. Damit kann eine IP Adresse nicht mit einem Nutzer gleichgesetzt werden. In manchen Fällen stecken hinter einer IP mehrere Tausende Besucher, die ihre Identität nicht preisgeben wollen.

Eine weitere Grenze der Analyse ist die geringe Anzahl der Leistungskennzahlen. Diese können mit Hilfe der Auswertung nur begrenzt oder gar nicht errechnet werden. So geben die Dateien zum Beispiel keinerlei Informationen über die Bounce Rate, die Verweildauer oder die Conversationrate. Die Logfile Analyse ist also keinesfalls ein umfangreiches Analysetool, sondern sollte in Kombination mit anderen Web Analytics Werkzeugen genutzt werden. Da es mittlerweile eine große Anzahl an kostenfreien Softwares für die Analyse gibt, lohnt es sich für Webmaster zumindest einmal einen Blick in die Logfiles Analyse zu werfen.

Quellen

Fanden Sie den Artikel hilfreich?