Data Mining bezeichnet das Konzept zur systematischen Protokollierung und Auswertung von Massendaten bzw. Big Data. Ziel von Data Mining ist es, Trends und Muster auf dem Markt und im Konsumentenverhalten zu finden und geeignete Handlungen zu tätigen. Mit Methoden aus der Statistik, Informatik und Mathematik werden beim Data Mining große Datenbestände automatisch gesammelt und analysiert.
Inhaltsverzeichnis
Hintergrund und Definition
Der Begriff Data Mining (zu Deutsch Daten Abbau) stammt aus der Statistik und nutzt nach wie vor statistische Methoden und Grundsätze. Ursprünglich bezeichnete Data Mining aber das Konzept der Bestätigung von Hypothesen durch Anwendung von unterschiedlichen Methoden. Streng genommen ist das Data Mining ein Teilbereich aus dem KDD (Knowledge Discovery in Databases), der umfassenden Datenanalyse. Dort werden Daten gesammelt, vorbereitet, analysiert (Data Mining) und evaluiert. Mittlerweile steht Data Mining aber für den gesamten KDD Prozess, wobei besonderer Fokus auf der Analyse und Evaluation liegt.
Durch die Datenbanktechnologie können Daten massenweise und systematisch gesammelt werden. Seit dem Internetboom und der Entwicklung des Social Webs werden immer mehr Daten produziert. Bei jedem Online Kauf, Registrierung, Anruf und Klick entstehen solche Daten. Diese manuell auszuwerten kostet extrem viel Zeit und Geld. Aus diesem Grund ist die Protokollierung der Daten nicht die einzige Kernaufgabe des Data Mining, sondern vielmehr die Datenanalyse. Mit Hilfe von Algorithmen werden bestehende Verhaltensmuster erkannt und mögliche Prognosen entwickelt. Erkenntnisse aus dem Data Mining sollen dabei helfen, Webseiten und Marketing-Kampagnen zu optimieren. Insbesondere E-Shops profitieren von den Data Mining Ergebnissen, da sie damit profitsteigende Optimierungen vornehmen können, wie zum Beispiel ähnliche Produktvorschläge, die der Kunde erhält, wenn er ein Produkt erwirbt.
Prozess
Der Ablauf von Data Mining läuft prinzipiell in 3 Schritten ab:
- Verarbeitung der Daten: Um passende Erkenntnisse aus den Massendaten zu entwickeln, muss erst einmal ein Ziel oder eine Absicht bestehen. Aus welchem Grund wird Data Mining betrieben? Soll die CTR erhöht werden? Handelt es sich um eine Optimierung der Conversion Rate? Je nachdem, welches (Kampagnen-) Ziel gesetzt ist, müssen nur bestimmte Daten abgegriffen werden. Handelt es sich um einen extrem großen Datenbestand kann es auch ausreichen, nur stichprobenartig Daten zu entnehmen. Bei dem Schritt der Verarbeitung werden Daten als nächstes gereinigt und unvollständige Datensätze entfernt oder ergänzt. Als nächstes werden die Daten einer Transformation unterzogen, damit sie das gleiche Format haben und in den nächsten Schritten weiterverarbeitet werden können. Dieser erste Schritt der Datenverarbeitung ist am zeitaufwendigsten, wobei ein gut strukturiertes Data Warehouse den Aufwand um einiges reduzieren kann.
- Data Mining: Die eigentliche Kernaufgabe des Data Mining liegt in der Analyse. Hierbei werden Algorithmen angewendet, um in den Datenbanken Muster zu erkennen. Der genaue Ablauf und die Aufgaben werden weiter unten im Artikel behandelt.
- Evaluation: Im letzten Schritt werden die vorgefertigten Muster mit Hinblick auf das Kampagnenziel durch Experten interpretiert. Passen die Ergebnisse nicht zur eigentlichen Absicht, können entweder neue Muster gefunden, oder neue Datensätze verarbeitet werden.
Verfahren im Data Mining
Die Analyse der Daten kann in verschiedenen Methoden realisiert werden. Häufig werden alle Verfahren genutzt, wobei dies nicht immer der Fall sein muss.
Ausreißer und Cluster:
Cluster sind Gruppierungen von Messwerten, die sich in einem ähnlichen Bereich befinden. Ausreißer bezeichnet solche Werte, die stark von solchen Clustern abweichen und keiner Gruppe zugeordnet werden können. Ausreißer werden manuell identifiziert, da sie eine kleine Minderheit innerhalb der Datensätze bilden. Dabei wird typischerweise analysiert, warum Ausreißer vom Status Quo abweichen.
Generalisierung:
Bei der Generalisierung werden Daten kompakt zusammengefasst. Dabei werden nur wichtige Werte zur Verarbeitung genutzt, da ein zu großes Datenvolumen viel Arbeitsaufwand bedeutet. In der Generalisierung nutzt man unter anderem den Durchschnitt der Daten und den Mittelwert.
Klassifikation:
Bei der Klassifikation geht es darum, Daten eine Klasse zuzuordnen. Zuvor müssen diese jedoch mit Attributwerten definiert werden, sodass neue Daten, deren Attributwerte mit der Klasse einstimmen, zugeordnet werden können. Dies geschieht durch Algorithmen bzw. einem maschinellen Lernprozess.
Abhängigkeit:
Werden Beziehungen zwischen Daten untersucht, so untersucht man die Abhängigkeit. Bei E-Commerce wird die Abhängigkeit zum Beispiel analysiert, um dem Kunden passende Warenkörbe vorzuschlagen. Dabei basiert die Annahme auf vorherige Kundendaten. Haben viele Kunden in der Vergangenheit Produkt A und Produkt B zusammen oder nacheinander gekauft, dann ist die Wahrscheinlichkeit, dass diese beiden Produkte auch in Zukunft gemeinsam gekauft werden, hoch. Aus A folgt also B. Dieser Abhängigkeitsanalyse ist vor allen Dingen im (Display) Marketing wichtig, da Werbetreibende so relevante Zielgruppen definieren und ansprechen können.
Anwendungsbeispiele und Bedeutung für SEO
Data Mining wird vor allen Dingen im Online Marketing genutzt. Der Online Handel profitiert vom Data Mining, um den Kaufprozess und die Kundenzufriedenheit zu optimieren. Auch Webseiten generell, seien diese kommerziell angelegt oder nicht, können durch die Ergebnisse aus dem Data Mining profitieren, da sie dabei helfen, die Usability zu verbessern. Aus den Informationen lassen sich Zielgruppen erfassen und definieren, die bei Implementierung von Marketing Kampagnen von großer Bedeutung sind. Für die SEO ist Data Mining deswegen ein wichtiges Tool zur Ansammlung von Informationen und der maschinellen Auswertung. SEO-Manager können auch mit Keyword Recherche Tools Daten zu relevanten Suchbegriffen erheben. Dies ist auch eine Art Data Mining, da die Keywords von den Tools gesammelt, aufbereitet und analysiert werden.
Allerdings wird Data Mining nicht nur im Marketing genutzt. Eine Ausreißeranalyse kann zum Beispiel bei der Risikoanalyse von E-Banking helfen, Sicherheitslücken zu schließen.
Häufige Fragen
Was ist Data Mining?
Der Zweck von Data Mining ist es, Daten in großen Massen systematisch auszuwerten, um somit Rückschlüsse auf neue Trends sowie das Konsumentenverhalten zu ziehen und im Umkehrschluss darauf mit geeigneten Handlungen zu reagieren.
Wie wird Data Mining durchgeführt?
Im ersten Schritt werden die entsprechenden Daten gesammelt und ausgewertet. Anschließend werden mithilfe von Algorithmen Analysen vorgenommen, um bestimmte Muster ausfindig machen zu können. Als letztes folgt eine Evaluation und Interpretation der Ergebnisse.
Wo wird Data Mining angewandt?
Data Mining findet hauptsächlich im Online Marketing Anwendung. Dort hilft die Auswertung von Daten dabei, die Zufriedenheit der Kunden zu steigern. Auch eine Verbesserung der Usability ist möglich.