Daten sind in nahezu allen Unternehmen ein großes Thema. Rechtliche und sicherheitsrelevante Themen sind dabei genauso präsent wie Themen rund um die Verbesserung des Unternehmensergebnisses mithilfe von Daten. Häufig in diesem Zusammenhang erwähnte Begriffe sind Data Science und Big Data. Wie diese sich unterscheiden und wie man sie für sein Unternehmen nutzen kann, lesen Sie im folgenden Beitrag.

Definition: Was ist Data Science?

Data Science, was frei übersetzt Daten Wissenschaften bedeutet, kommt tatsächlich aus dem wissenschaftlichen Umfeld. Inzwischen hat Data Science jedoch auch den Weg in die Wirtschaft gefunden. Es handelt sich bei Data Science um eine interdisziplinäre Wissenschaft (Mathematik, Statistik, Informatik) mit dem Ziel, Wissen aus Daten zu gewinnen. Die aus den Daten gewonnenen Informationen nutzen Unternehmen z.B. als Grundlage, um Aussagen zur Optimierung des Managements zu treffen.

Um ein Gefühl dafür zu bekommen, wie Data Science dieses Ziel erreicht, skizzieren wir im Folgenden einen beispielhaften Data-Science-Prozess:

  1. Verstehen des Geschäfts-Problems: Welche Fragestellung soll mit Data Science gelöst werden?
  2. Erwerb der Daten: Wo kann ich die zur Problemlösung benötigten Daten finden?
  3. Vorbereiten der Daten: Wie kann ich die Daten in die Form umwandeln, in der ich sie benötige?
  4. Erforschende Datenanalyse: Sind meine bisherigen Annahmen korrekt? Kann ich die geplanten Parameter wirklich so verwenden?
  5. Daten-Modellierung: Welche Machine-Learning-Techniken muss ich anwenden, um das beste Ergebnis für meine Fragestellung zu erhalten?
  6. Visualisierung und Kommunikation: Wie stelle ich die Daten verständlich da und wie präsentiere ich die Ergebnisse?
  7. Einsetzen und Pflegen des Modells: Wie nutze ich das Modell im Alltag und sorge dafür, dass die Ergebnisse auch weiterhin akkurat bleiben?
Die 7 Schritte des Data Science Prozesses

Was ist der Unterschied zwischen Data Science und Big Data?

Big Data und Data Science werden oft synonym verwendet. Tatsächlich steckt hinter den Begriffen aber nicht das Gleiche. Unter Big Data werden große Mengen an strukturierten oder unstrukturierten Daten verstanden, die nicht mehr effizient mit traditionellen Methoden verarbeitet werden können.

Die etwas ausführlichere Definition von Gartner lautet wie folgt: “Big Data sind großvolumige und schnelllebige oder hochvariable Informationsressourcen, die eine kosteneffiziente und innovative Form der Informationsverarbeitung benötigen […].”

Dies macht deutlich: Bei Big Data steht ganz klar die Ausgangssituation, also die Menge und Art der Daten, im Vordergrund. Bei Data Science wiederum liegt der Fokus auf der Problemstellung, dem kompletten Prozess und letztlich der Präsentation der Ergebnisse.

Während Big-Data-Projekte sich nur mit Hilfe von Data Science auswerten lassen, können Data-Science-Projekte auch ohne Big Data, also mit geringen Mengen an Daten, auskommen.

Anwendungsbeispiele von Data Science in der Praxis

Fragestellungen für Data Science können aus ganz verschiedenen Branchen kommen. Hier einige Beispiele:

  • Medizin: Können wir anhand von Faktoren wie Alter, BMI, Geschlecht und Blutdruck voraussagen, wie hoch das Risiko eines Herzversagens ist?
  • Automobilbranche: Können wir auf Basis der PS-Zahl und der Zylinder eines Automobils den CO2-Ausstoß eines neuen Automobils vorhersagen?
  • Banken: Können wir aufgrund von Einkommen, Schufa-Auskunft und Höhe des gewünschten Kredites, die Wahrscheinlichkeit einer Rückzahlung des Kredites vorhersagen?
Anwendungsbeispiele Data Science in der Praxis

Checkliste: Mit Big Data und Data Science zu besseren Ergebnissen

Den meisten Unternehmen sind die Trendbegriffe Big Data und Data Science und deren Potential zur Steigerung ihrer Wettbewerbsfähigkeit bekannt. Spannend wird es aber, wenn es um die konkrete Planung und Durchführung eines entsprechenden Projektes geht. Die Frage ist also: Wie müssen wir vorgehen, um ein Big-Data- und Data-Science-Projekt zum Erfolg zu führen?

Im Folgenden finden Sie eine Checkliste mit grundlegenden Punkten, die Sie in diesem Kontext beachten sollten:

Definition von Zielen und Parametern:

  • Ziele definieren: Es ist essenziell vor Beginn des Projektes zu definieren, was Ihr Unternehmen konkret mit dem Projekt erreichen möchte. Bei der Zieldefinition müssen Sie auch berücksichtigen, wie groß die Big-Data-Plattform sein soll. Zudem ist es wichtig den Speicherplatz zu kalkulieren, damit am Ende auch die Mittel zur Verfügung stehen, um das gewünschte Ziel zu erreichen.
  • Performanz und Verfügbarkeit definieren: Ihr Unternehmen sollte frühzeitig entscheiden, welche Erwartungen an die Performanz und Verfügbarkeit gestellt werden. Wichtige Themen in diesem Zusammenhand sind Analyse-Latenzzeiten und In-Memory-Techniken ebenso wie Echtzeit-Auswertungen.

Für Kompetenzen sorgen:

  • Richtige Mitarbeitende: Es sollte zu Beginn des Projekts geprüft werden, ob Ihr Unternehmen bereits die benötigten Kompetenzen besitzt. Sollte dies nicht der Fall sein, muss zeitnah entschieden werden, ob neues Personal rekrutiert oder ein externer Partner hinzugezogen werden soll. In vielen Fällen kann auch eine Kombination dieser Möglichkeiten sinnvoll sein.
  • Optional: Partner mit Erfahrung involvieren: Sollte Ihr eigenes Personal nicht ausreichen oder die benötigte Erfahrung fehlen, kann es Sinn machen, einen Partner zu involvieren, der entsprechend beraten und mit Best Practices unterstützen kann.

Vorbereitung:

  • Ist-Situation analysieren: Eine wichtige Frage, die Sie sich stellen sollten, ist: Sammeln wir bisher alle Daten, die wir benötigen, um unser Ziel zu erreichen und werden sie in einem gut weiterzuverarbeitenden Format gespeichert?
  • Datenschutz sicherstellen: Ihr Unternehmen sollte prüfen, ob die Daten überhaupt gespeichert werden dürfen und wenn ja, unter welchen Umständen.
  • Optional: Externe Quellen: Sollten nicht alle benötigten Daten aus internen Quellen bezogen werden können oder Sie Ihre Analyse noch ausweiten wollen, ist zu prüfen, ob Daten externer Quellen eine Lösung darstellen könnten.

Ein Beispiel für eine solche externe Quelle ist GOVDATA: Das Datenportal für Deutschland.

Durchführung:

  • Nicht nur die IT involvieren: Neben der IT sollten Sie auch die entsprechenden Fachbereiche, aus der die Problemstellung stammt, sowie das Management frühzeitig involvieren, um das maximale Ergebnis zu erzielen.
  • Lernen und besser werden: Starten Sie nicht direkt mit einem sehr komplexen Case (z.B. mit einem Deep-Learning-Modell). Stattdessen sollten Sie mit einem relativ einfachen Case, aus dem Ihr Unternehmen lernen kann, beginnen. Dieser kann dann schrittweise weiter optimiert werden und es können Projekte mit höherer Komplexität angegangen werden.

Umgang mit den Ergebnissen:

  • Ergebnisse in Prozessen nutzen: Binden Sie die Ergebnisse Ihrer Projektes aktiv in Ihre Geschäftsprozesse ein, damit die gewonnenen Erkenntnisse zu Verbesserungen führen.
  • Aktuelle Analysen erweitern: Die neuen Analysen ersetzen nicht unbedingt die schon vorhandenen Lösungen. Stattdessen stellen sie häufig eine Ergänzung dar. Integrieren Sie daher die neuen Analysen in bereits vorhandene BI-Lösungen.

Letztlich ist es für Sie wichtig zu wissen, dass keiner dieser Schritte in Stein gemeißelt ist. Denn zum Projekterfolg gehört auch immer eine Reevaluierung des zugrundeliegenden Planes, um bei Bedarf rechtzeitig Anpassungen vornehmen zu können.

Blogartikel "Schon gelesen?"-Grafik

Kann menschliche Intelligenz von Maschinen simuliert werden? Mit dieser Frage beschäftigt sich die Künstliche Intelligenz (KI). Wie künstliche Intelligenz heute aussieht und welche drei Begriffe Sie zu dem Thema sonst noch kennen sollten, finden Sie in unserem Beitrag „Die 3 wichtigsten Begriffe rund um Künstliche Intelligenz“.

New call-to-action