Geschäftserfolg ist heute wesentlich datengetrieben. Um sich hier einen Vorteil zu verschaffen, setzen immer mehr Unternehmen auf Data-Mining, also die systematische Auswertung großer Datenmengen. Damit lässt sich beispielsweise herausfinden, wie sich die Kundennachfrage entwickeln wird oder welche Materialkosten im nächsten Geschäftsjahr anfallen werden. Erfahren Sie, welche Techniken hier zum Einsatz kommen und aus welchen vier Phasen ein Data-Mining-Prozess aufgebaut ist.

Leitfaden Datenmanagement

KOSTENLOSER LEITFADEN

Datenmanagement: Die 6 Best Practices für Ihr Unternehmen

Sie möchten noch mehr über optimales Datenmanagement erfahren? Dann laden Sie sich jetzt unseren Leitfaden „Datenmanagement: Die 6 Best Practices für Ihr Unternehmen“ herunter.

Jetzt herunterladen

Schön, dass Sie hier sind! Wie Ihnen vielleicht schon aufgefallen ist, verwenden wir aus Gründen der Lesbarkeit in erster Linie die männliche Form in unseren Texten. Im Sinne der Gleichbehandlung meinen wir damit selbstverständlich immer alle Geschlechter (m/w/d). Und jetzt wünschen wir Ihnen viel Spaß beim Lesen.

Definition: Was ist Data-Mining?

Der Begriff Data-Mining beschreibt einen Prozess zur Datengewinnung, mit dem Ziel, aussagekräftige Muster aus großen Daten-Sets zu gewinnen. Bei solchen Mustern kann es sich zum Beispiel um das Ausmachen von Gemeinsamkeiten handeln (Cluster), aber auch um das Aufspüren von Anomalien oder bestimmten Abhängigkeiten zwischen Variablen.

Hierfür kommen eine Vielzahl von Technologien zum Einsatz, von der Datenbank-Analyse über statistische Verfahren bis hin zu Machine Learning. Der Data-Mining-Prozess ist in den weiter gefassten Vorgang der sogenannten Knowledge Discovery in Databases (KDD) eingebettet. Dieser umfasst neben der eigentlichen Mustererkennung auch die folgenden Schritte:

  • Datenmanagement
  • Datenbank-Verwaltung
  • Pre-Processing und hier insbesondere die Umwandlung von unstrukturierten in strukturierte Daten
  • Komplexitäts-Abwägungen
  • Post-Processing
  • Erhebung von Kennzahlen
  • Visualisierung der Ergebnisse
  • Interpretation der Resultate

In der Praxis werden die beiden Begriffe, Data-Mining und KDD, oft synonym verwendet. Auch die Begriffe Data-Analysis und Data-Mining werden häufig austauschbar eingesetzt, wobei auch hier ein Unterschied besteht. Während Data-Analysis auch auf kleinere Ausgangsmengen von Daten angewandt werden kann, bezieht sich Data-Mining ausschließlich auf große Datenmengen.

Diese Anwendungsfälle gibt es

Es gibt zahlreiche Einsatzszenarien für Data-Mining in verschiedenen Industrien. Die folgende Liste vermittelt einen Eindruck davon.

Telekommunikation

Der Markt für Telekommunikation ist stark umkämpft. Um sich hier einen Wettbewerbsvorteil zu verschaffen, analysieren viele Anbieter das User-Verhalten. Auf diese Weise können sie Telefonier-Gewohnheiten ausmachen, zum Beispiel zu welcher Tageszeit wie lange mit einer anderen Person gesprochen wird, und speziell darauf zugeschnittene Marketing-Kampagnen entwerfen.

Social Media

Social Media ist eines der wichtigsten Einsatzgebiete für Data-Mining. Plattformen wie Facebook, Instagram, Twitter und TikTok erheben eine Vielzahl von Daten, um mehr über die Vorlieben ihrer User zu erfahren. Diese Erkenntnisse werden dann zum Beispiel für die Erstellung von personalisierten Werbeanzeigen eingesetzt.

Der Einsatz von Data-Mining im Bereich Social Media ist umstritten. Das zeigt der Skandal um das ehemalige Unternehmen Cambridge Analytica, welches sich Zugriff auf die Userdaten von Facebook-Nutzern verschaffte, um diese im US-Wahlkampf einzusetzen.

Versicherungsbranche

Große Versicherer setzen Data-Mining für eine Vielzahl von Szenarien ein, unter anderem:

  • Aufdeckung von Betrugsfällen
  • Einhaltung der Compliance
  • Risiko-Management
  • Voraussage von Kunden-Fluktuationen
  • Wettbewerbsfähige Preisgestaltung
  • Cross-Selling von weiteren Versicherungsprodukten

Bildungswesen

Mithilfe von Data-Mining können Lehrende den Fortschritt ihrer Schüler voraussagen. Genauso können Gruppen von Lernenden ausgemacht werden, die zusätzliche Betreuung benötigen, um erfolgreich zu sein. Treten unvorhergesehene Ereignisse auf, wie das zum Beispiel während der Corona-Pandemie der Fall war, können die Lernpläne unter Verwendung von Data-Mining sinnvoll angepasst werden.

Gerade die fortschreitende Umstellung auf Online-Lernangebote bietet hier viele Möglichkeiten. Data-Mining kann eine Vielzahl von Metriken nutzen, wie Tippgeschwindigkeit, benötigte Zeit zum Lösen einer Aufgabe, gewählte Kurse, Angaben über den Schüler usw.

Fertigung

Die fertigende Industrie profitiert stark von Data-Mining. Beispielsweise können Bedarfsprognosen erstellt werden, was die benötigten Rohstoffe im nächsten Geschäftsjahr angeht. Das erlaubt es, die Supply Chain entsprechend anzupassen und genauere Kalkulationen zu erstellen.

Aber auch in der Werkshalle selbst kommt Data-Mining zum Tragen. Die Abnutzung von Maschinen und Robotern kann vorhergesagt und die Wartungsintervalle entsprechend angepasst werden. Das reduziert Produktionsausfälle und sorgt für die Einhaltung von Liefer-Deadlines.

Bankenwesen

Banken können mithilfe von Data-Mining Marktrisiken besser einschätzen, Betrugsversuche ausmachen sowie gesetzliche Anforderungen besser erfüllen. Weit verbreitet ist Data-Mining auch im Zusammenhang mit der Vergabe von Krediten. Kreditgeber ermitteln mit speziellen Algorithmen einen Wahrscheinlichkeitswert, mit welchem der betreffende Kunde seinen Zahlungsverpflichtungen nachkommen wird.

Ein weiteres spannendes Anwendungsgebiet sind sogenannte Robo-Advisors, die unter Verwendung von Data-Mining eine Prognose darüber erstellen, wie risikobehaftet eine bestimmte Investition ist. Die menschlichen User müssen so nicht länger die Services eines Finanzberaters in Anspruch nehmen, sondern greifen einfach auf die Software zurück.

Einzelhandel

Die riesigen Datenbestände, über die viele Einzelhändler verfügen, können dafür genutzt werden, das Beziehungsmanagement zum Kunden zu verbessern. Beispielsweise lassen sich bestimmte saisonale Trends im Bereich Fashion oder Lifestyle-Produkte vorhersagen, sodass die entsprechenden Kollektionen geplant werden können. Auch das zu erwartende Verkaufsvolumen lässt sich prognostizieren. So wird dem Einkauf die Arbeit erleichtert. Aber auch die HR-Abteilung profitiert, weil sie Hochphasen durch zusätzliche Neueinstellungen abfangen kann.

Weit verbreitet ist Data-Mining auch im Lebensmitteleinzelhandel. Viele Supermarktketten bieten ihren Kunden Karten oder Apps zur Teilnahme an Loyalitätsprogrammen an. Die Kunden erhalten so Zugriff auf Rabatte und Sonderaktionen. Gleichzeitig kann der Händler tracken, welche Zielgruppen was und wann zu welchem Preis kaufen. Daraus ergeben sich vielfältige Marketing-Möglichkeiten, wie personalisierte Coupon- oder Sales-Aktionen.

Vorteile

Data-Mining geht mit einer Vielzahl von Vorteilen für Unternehmen einher.

Mehr Klarheit

Data-Mining erlaubt es, aus einer riesigen, chaotischen Ausgangsmenge von Daten strukturierte Muster abzuleiten. Dies geschieht in hoher Geschwindigkeit und ohne dass dafür menschliche Fachkräfte abgestellt werden müssten. Die Muster liefern wichtige Geschäftseinsichten, zum Beispiel für Produktentwicklung, Herstellung und Marketing.

Mehr Zukunftssicherheit

Die Existenz von Unternehmen hängt wesentlich davon ab, wie sich Märkte entwickeln und wie auf neue Trends und Disruptionen reagiert wird. Data-Mining verschafft Unternehmen hier einen wesentlichen Vorteil, weil nun datengestützte Prognosen möglich sind, welche mehr Planung ermöglichen.

Mehr Entscheidungsgeschwindigkeit

Eine größere, weitreichendere Datengrundlage trägt entscheidend dazu bei, schnellere, bessere Entscheidungen zu treffen. Unternehmen, die Data-Mining nutzen, haben deshalb einen Wettbewerbsvorteil.

Mehr Passgenauigkeit

Data-Mining hilft, die eigenen Kunden und ihre Vorlieben genauer zu verstehen. Das erlaubt es, personalisierte Marketing-Kampagnen zu erstellen, welche einerseits vom Kunden als weniger lästig empfunden werden und andererseits dem Unternehmen mehr Umsatz bescheren. Diese erhöhte Passgenauigkeit kann auch für das Cross-Selling, also den Verkauf weiterer, verwandter Produkte an den Kunden genutzt werden.

Mehr Service

Mithilfe von Data-Mining können Probleme bei der Nutzung von Produkten schneller identifiziert werden, zum Beispiel bei Software-as-a-Service-Lösungen. Die Data Scientists sehen hier sofort, wenn die User an einem bestimmten Punkt hängen bleiben und können aktiv werden. Sie sind also nicht länger auf den Umweg angewiesen, Rückmeldungen aus dem Support abwarten zu müssen. Stattdessen können sie dem Support direkt Lösungen präsentieren, welche dieser an die Kunden weitergibt.

Mehr Verfügbarkeit

Data-Mining hilft Unternehmen dabei, den zukünftigen Bedarf vorherzusagen, was es erlaubt, die eigenen Warenbestände effektiver zu managen. So stellen Unternehmen sicher, dass immer genügend Rohstoffe, Produkte und Verpackungsmaterialien auf Lager sind; Lieferengpässe werden vermieden.

Mehr Produktivzeit

In Verbindung mit IoT-Technologien bietet Data-Mining das Potenzial, die Downtime in der fertigenden Industrie zu reduzieren. Dafür werden im ersten Schritt über an den Produktionsmaschinen angebrachte Sensoren eine Vielzahl von Daten erhoben, wie Lautstärke, Vibrationsfrequenz, Fertigungsgeschwindigkeit etc. Data-Mining untersucht diese riesigen Datenmengen dann auf Anomalien, um Störungen vorherzusagen. Auf diese Weise können Maschinen und Roboter rechtzeitig gewartet werden, bevor es zu einem Ausfall kommt, der eine ganze Fertigungsstraße lahmlegt.

Die Vorteile von Data-Mining

Welche Methoden zum Einsatz kommen

Grundsätzlich lassen sich vier Modelle von Data-Mining unterscheiden:

  1. Deskriptive Verfahren
  2. Diagnostische Verfahren
  3. Prädiktive Verfahren
  4. Verschreibende Verfahren

Diese Modelle bauen aufeinander auf, indem sie jeweils immer weitergehende Fragen als die vorhergehende Stufe betrachten. Und jedes dieser vier Modelle umfasst wiederum bestimmte Techniken für die effektive Analyse von Daten.

Deskriptive Verfahren

Hierbei geht es darum, auf Grundlage von historischen Daten Ähnlichkeiten und Gemeinsamkeiten auszumachen. So können neue, nützliche Kategorien erstellt werden. Beispielsweise können Kunden nach Produktvorlieben, Einkaufsverhalten oder demographischen Merkmalen eingeteilt werden. Das erlaubt es, sie gezielter zu bewerben. Zu den Techniken des deskriptiven Verfahrens zählen:

  • Clustering. Ähnliche Einträge können ausgemacht und zu sogenannten Clustern zusammengefasst werden.
  • Anomalie-Prüfung. Einträge, die aus dem Rahmen fallen, können identifiziert und analysiert werden.
  • Assoziatives Lernen. Der Algorithmus macht hier bisher nicht bekannte Verwandtschaftsbeziehungen zwischen Einträgen aus.
  • Prinzipienorientierte Komponentenanalyse. Hier geht es um die Aufdeckung von Verwandtschaftsbeziehungen zwischen Variablen.

Diagnostische Verfahren

Diagnostische Verfahren beschäftigen sich mit den Gründen, Konsequenzen und Wechselwirkungen von Ereignissen. Im Mittelpunkt steht die Frage: Warum ist etwas passiert? Zu den verwendeten Techniken zählen:

  • Hypothesen-Überprüfung. Hier wird unter Verwendung statistischer Prozesse eine bestimmte Annahme verifiziert oder falsifiziert. Es gibt zukunftsorientierte Methoden und Methoden, um die historischen Daten zu betrachten. Letztere kommen für diagnostische Verfahren zum Einsatz. Ein Beispiel für eine solche Hypothese wäre: „Der Einbruch bei den Kundenanfragen im letzten Halbjahr geht auf die gestiegenen Preise zurück.“
  • Korrelation vs. Kausalität. Diese Technik kommt zum Einsatz, um die Unterschiede zwischen korrelativen und ursächlichen Beziehungen zu verdeutlichen. Nur weil zwei Variablen korrelieren, bedeutet das nicht, dass eine der beiden Variablen die andere verursacht hat. Das hilft dabei, Probleme im Unternehmen exakter zu beschreiben und die wahren Gründe auszumachen.
  • Regressions-Analyse. Diese Technik kommt zum Einsatz, um komplexe Verwandtschaftsbeziehungen zwischen zwei oder mehr Variablen (Simple Linear Regression vs. Multiple Regression) zu analysieren. Wird diese Technik auf historische Daten angewandt, lassen sich so Trends in Unternehmen oder Märkten ausmachen.

Prädiktive Verfahren

Der Fokus des prädiktiven Verfahrens liegt darauf, zuverlässige Aussagen über zukünftige Entwicklungen zu treffen. Beispielsweise könnten Kreditunternehmen diese Technologie dazu nutzen, um Voraussagen über die Rückzahlungsfähigkeit eines Kunden zu treffen. Auch wie sich die Nachfrage gestalten oder wie eine bestimmte Marketingkampagne angenommen werden wird, lässt sich via Predictive Analytics vorherbestimmen. Zu den hier verwendeten Techniken zählen:

  • Neuronale Netzwerke. Diese dem menschlichen Gehirn nachempfundenen Algorithmen können selbstständig neue Zusammenhänge lernen, Muster erkennen und Voraussagen treffen.
  • Entscheidungsbäume (Decision Trees). Sie dienen der Darstellung von Entscheidungsregeln und verwenden, wie der Name nahelegt, eine grafische Baumstruktur. Jeder Ast repräsentiert eine Möglichkeit.
  • Support Vector Machines (SVM). Bei SVMs handelt es sich um einen statistischen Ansatz zur Klassifizierung von Objekten. Diese Methode lässt sich im Machine Learning einsetzen, um Daten automatisch in bestimmte Kategorien zu sortieren. So können Wahrscheinlichkeiten für zukünftige Ereignisse ermittelt werden.

Verschreibende Verfahren

Verschreibende Verfahren gehen noch einen Schritt weiter als prädiktive Verfahren. Sie bieten dem User neben der Vorhersage über zukünftige Ereignisse auch konkrete Handlungsempfehlungen an. Diese Verfahren tragen somit aktiv zur Prozessoptimierung bei. Techniken sind:

  • Predictive Analytics in Verbindung mit Regeln. Sie werden dazu eingesetzt, Wenn/Dann-Regeln zu entwickeln, Ergebnisse vorherzusagen und Empfehlungen abzuleiten.
  • Monte-Carlo-Simulationen. Bei diesem stochastischen Verfahren werden wiederholt Zufallsstichproben einer Verteilung gezogen. Das Ziel besteht darin, Probleme, die analytisch nur schwierig zu lösen sind, unter Verwendung der Stichproben numerisch zu lösen. Das beschleunigt die Analyse und führt zu schneller verfügbaren Handlungsempfehlungen.

Die 4 Phasen des Data-Mining-Prozesses

Der Data-Mining-Prozess besteht aus vier Stufen, die im Folgenden genauer beschrieben werden.

1. Festlegung der Geschäftsziele

Data-Mining sollte niemals im luftleeren Raum stattfinden, sondern immer konkrete geschäftliche Anwendungsfälle betrachten. Deshalb ist es entscheidend, im Vorfeld jedes Data-Mining-Prozesses eine Diskussion darüber zu führen, was wir herausfinden wollen – und vor allem warum. Worin besteht der geschäftliche Nutzen? Diese Frage muss eindeutig beantwortet werden.

Typischerweise setzen sich dafür die Data Scientists eines Unternehmens mit den restlichen Stakeholdern wie der Führungsebene, Vertretern aus den einzelnen Abteilungen und sogar Kunden und Lieferanten zusammen. Abhängig vom Projekt werden dann Daten-Fragestellungen und wichtige Parameter definiert. Es kann außerdem nötig sein, dass die Data Scientists zuerst Grundlagenforschung betreiben müssen, bevor sie mit dem eigentlichen Data-Mining-Prozess beginnen können.

2. Vorbereitung der Datenbasis

Sehr häufig ist es so, dass die vorliegende Datenbasis nicht direkt für eine Data-Mining-Analyse genutzt werden kann. Der Daten-Pool muss zuerst bereinigt werden. Dafür wird unnötiger „Noise“ herausgefiltert, wie Duplikate von Datensätzen, fehlende Werte oder verzerrende Anomalien. Es kann auch nötig sein, das vorliegende Daten-Set um bestimmte Komplexitäten zu reduzieren, die keinen Analysegewinn bieten, aber die Verarbeitungszeit erhöhen.

Die wichtigste Aufgabe besteht jedoch darin, unstrukturierte Daten in strukturierte Daten zu übersetzen. Das bedeutet, dass Daten, die ursprünglich nicht miteinander kompatibel waren, so aufbereitet werden, dass die für die automatische Analyse benötigte Vergleichbarkeit gegeben ist.

3. Pattern-Mining

Nun beginnt der eigentliche Prozess der Mustererkennung. Hierfür kommen unterschiedliche Techniken und Algorithmen zum Einsatz, wie die sequenzielle Pattern-Erkennung, die Assoziationsanalyse oder Algorithmen zum Aufspüren von Korrelationen. Je nach Projekt kann der Schwerpunkt auf der Erkennung von hochfrequenten Mustern liegen, wie zum Beispiel der Analyse von Markttrends. Es kann aber auch sein, dass die Entdeckung von singulären Abweichungen im Vordergrund steht. Das spielt eine wichtige Rolle für die Erkennung von Betrugsvorfällen, zum Beispiel in der Finanzindustrie.

4. Bewertung der Ergebnisse und Implementierung

Nachdem die Datenanalyse durchgeführt wurde, müssen die gefundenen Muster bewertet und interpretiert werden. Auch hier ist es wieder wichtig, den Bezug zur geschäftlichen Praxis herzustellen. Die finalen Ergebnisse sollten aussagekräftig, neu, anwendbar und vor allem nachvollziehbar sein. Denn die wertvollsten Einsichten nützen wenig, wenn diese von Nicht-Technikern kaum nachvollzogen werden können. Data-Mining ist nur erfolgreich, wenn alle abgeholt werden.

Die Analyse-Ergebnisse müssen nun in die Organisation implementiert werden. Bestehende Prozesse müssen angepasst bzw. optimiert werden; neue Prozesse müssen geschaffen werden. Unter Umständen ist es auch nötig, neue Technologien ins Unternehmen einzuführen, um die Umsetzung der Analyse-Ergebnisse zu ermöglichen. Bei alldem sollte auch der Faktor Mensch nicht aus den Augen verloren werden. Weitreichende Änderungen von Prozessen erfordern immer ein vorausschauendes Change-Management.

Weitere Aspekte

Data-Mining bietet viele spannende Chancen für Unternehmen und Organisationen des Public Sector. Potenziell können so bessere Produkte entwickelt, weniger lästige Marketing-Kampagnen durchgeführt, Betrugsvorfälle aufgedeckt und sogar Krankheiten frühzeitig erkannt werden.

Wie bei jeder neuen Technologie stellen sich jedoch auch Fragen zu den rechtlichen, moralischen und psychologischen Konsequenzen. Für einige dieser Punkte möchten wir Sie im Folgenden sensibilisieren.

Rechtliche Aspekte

In der Europäischen Union bestehen strenge gesetzliche Anforderungen, was die Nutzung von personenbezogenen Daten angeht, Stichwort DSGVO. Deshalb müssen User-Daten zunächst anonymisiert werden, bevor sie für Data-Mining-Zwecke eingesetzt werden können.

Trotz solcher Anonymisierungsverfahren kann es unter Umständen möglich sein, Daten wieder bestimmten Personen zuzuordnen. Unternehmen sind also gefragt, Techniken zu entwickeln, die einen ausreichenden Schutz bieten. Es sollte eine echte Entkontextualisierung angestrebt werden. Selbst wenn weniger weitgehende Verfahren im Moment rechtlich akzeptabel sind, ist es doch wahrscheinlich, dass die Anforderungen in Zukunft steigen werden.

Moralische Aspekte

Data-Mining wirft auch moralische Fragen auf, zum Beispiel wenn Kunden in bestimmte „Klassen“ eingeteilt werden. Diese sozioökonomische Wertzuweisung wird zu Recht von Kritikern des Data-Minings als problematisch angesehen. Es besteht auch die Möglichkeit, dass Data-Mining von staatlicher Seite missbraucht werden könnte. Zum Beispiel könnten im Rahmen der Rasterfahndung unschuldige Menschen nur aufgrund ihrer Herkunft ins Visier genommen werden.

Psychologische Aspekte

Kunden können sich durch die Einteilung in eine bestimmte Klasse überrascht oder sogar beleidigt fühlen. Daher sollten Unternehmen sich genau überlegen, welche Klassifikationen sie vornehmen und wie sie diese präsentieren.

Schaffen Sie Ihre Data-Umgebung mit der ahd!

Um Ihre IT auf moderne Data-Mining-Verfahren vorzubereiten, benötigen Sie leistungsfähige Infrastruktur- und Speicherlösungen. Hier kommen die Experten der ahd ins Spiel: Wir realisieren für Sie eine Vielzahl von modernen Cloud- und On-Prem-Modellen. Dabei leisten wir nicht nur die technische Umsetzung, sondern unterstützen Sie auch strategisch sowie beim Change-Management. Kontaktieren Sie uns jetzt für eine unverbindliche Erstberatung!

Leitfaden Datenmanagement

KOSTENLOSER LEITFADEN

Datenmanagement: Die 6 Best Practices für Ihr Unternehmen

Sie möchten noch mehr über optimales Datenmanagement erfahren? Dann laden Sie sich jetzt unseren Leitfaden „Datenmanagement: Die 6 Best Practices für Ihr Unternehmen“ herunter.

Jetzt herunterladen