Big Data: Das Wichtigste auf einen Blick

25. Jan.

Big Data, Datenbestände, Data Science, Informatik, Mathematik, Tastatur, Algorithmen, Data Mining, Analytics, Volume, Velocity, Variety

Was ist Big Data? – Definition, Anwendungsbereiche und Potenzial

Big Data ist ein Begriff, der seit Jahren in aller Munde ist. Doch was genau steckt dahinter? Dieser Beitrag bietet einen ersten Einblick.

Unter Big Data versteht man grundsätzlich Datenbestände, die so umfangreich, komplex oder schnelllebig sind, dass sie mit herkömmlichen Methoden nicht oder nur sehr schwer zu verarbeiten sind. Der Begriff wird aber auch als Sammelbegriff für die Technologien zur Speicherung, Verarbeitung und Auswertung umfangreicher Datenvolumen eingesetzt.

Big Data fällt unter den Bereich der Data Science. Darunter versteht man die Wissenschaft, die sich damit beschäftigt, Wissen aus Daten zu extrahieren. Dabei werden Methoden aus Mathematik, Statistik und Informatik kombiniert. Es kommen sowohl Methoden, Prozesse, Algorithmen als auch Systeme zum Einsatz. Arbeitsfelder sind strukturierte und unstrukturierte Daten. Data Science kann man heute an vielen Universitäten studieren. Absolventen beschäftigen sich dann später beruflich mit großen Datenmengen, Data Mining, Analytics & Co.

Begründet wurde der Begriff Big Data vom amerikanischen Professor Douglas Laney. Dieser definierte den Terminus durch sein „3 V“-Konzept. Diese stehen für:

– Volume

– Velocity

– Variety

Volume: Die Menge an Daten

Volume steht dabei für die schiere Masse an Daten, die Unternehmen aus den verschiedensten Quellen sammeln. Bei den Quellen kann es sich um geschäftliche Transaktionen, soziale Medien, aber auch vernetzte Geräte sammeln. Während die Speicherung von Daten früher mit hohen Kosten und Aufwand verbunden war, ist Speicherplatz heute das geringste Problem. Mittlerweile ist es möglich, Millionen von Gigabytes günstig und effizient zu speichern. Für die Speicherung großer Datenmengen werden heute immer häufiger Data Lakes oder Apache Hadoop verwendet.

Velocitiy: Die Geschwindigkeit, mit der neue Daten entstehen

Velocity steht für die Geschwindigkeit, mit der Daten heute entstehen. Dabei sorgen vernetzte Geräte mit ihren immerwährenden Datenströmen in kürzester Zeit für enorme Datenmengen. Hier spielt das Internet of Things (Iot) eine entscheidende Rolle. Denn dadurch entstehen laufend neue Daten, die verarbeitet und analysiert werden müssen, um den Unternehmen einen Mehrwert zu liefern. Es ist eine Herausforderung, diese Datenströme in Echtzeit zu verarbeiten. Doch wenn das gelingt, können große Wettbewerbsvorteile gesichert werden.

Variety: Daten in nie da gewesener Vielfalt

Variety steht für die Vielfalt der Daten, die Unternehmen heute sammeln und erheben. Wenn man von Daten spricht, meint man heute ganz heterogene Daten. Es kann es sich um strukturierte Daten in einer Datenbank genauso handeln, wie um unstrukturierte Daten. Zu letzteren zählen zum Beispiel Fotos, Videos oder Audioquellen. E-Mails gehören genauso zu Big Data, wie Textdokumente oder Daten aus Finanztransaktionen oder Rückmeldungen von Sensoren.

In Daten steckt enormes Potenzial

Es ist egal, ob Daten strukturiert oder unstrukturiert vorhanden sind. Entscheidend ist, dass in diesen Daten oft ein enormes Potenzial steckt. Gerade wenn Daten verschiedener Typen und aus unterschiedlichen Quellen zusammengefasst und integriert werden, können Unternehmen daraus enorme Schlüsse ziehen. Wer seine Daten zusammenführt, aufbereitet und analysiert, kann aus ihnen neue Erkenntnisse gewinnen. Basierend auf diesen Erkenntnissen lassen sich bessere Entscheidungen treffen, Fehler schneller finden oder exaktere Prognosen abgeben.

Dieses Wissen hilft bei operativen, strategischen und kurz- sowie langfristigen Entscheidungen, und zwar in allen Sektoren. Von der Produktion über den Gesundheitssektor, von Fragestellungen zur Schonung von Ressourcen bis hin zur Steigerung von Effizienz.

Warum Big Data so wichtig ist – einige Anwendungsfälle aus der Praxis

Bei Big Data geht es heute nicht nur um das Datenvolumen. Es geht vorrrangig darum, was Unternehmen mit den Daten machen können. Anwendungsfälle gibt es unzählige:

Die Optimierung von Produktionsprozessen
Das Finden von Fehlerquellen in Echtzeit
Die Senkung von Kosten durch die Steigerung von Effizienz
Das Einsparen von Zeit
Die Entwicklung von neuen Produkten für spezielle Kundengruppen
Die Verbesserung der Qualität von Entscheidungen
Die Erkennung vonFraudim Bereich von E-Mails
Komplexe Simulationen durch die Verknüpfung mit Echtzeitdaten

Eine umfassende Big-Data-Strategie ist wichtig

Wenn Unternehmen heute in Big Data einsteigen wollen, geht das nicht ohne eine umfassende Strategie. Daten fallen heute an vielen Stellen und in den unterschiedlichsten Formen an. Daher gilt es in erster Linie, die strukturierten und unstrukturierten Daten aus den verschiedensten Systemen, Quellen und Orten zusammenzuführen. Dazu müssen die Quellen erst einmal identifiziert werden. Daneben muss sichergestellt werden, dass der Zugriff auf die benötigten Daten auch gewährleistet ist. Dabei gilt es oft technische oder organisatorische Hürden zu überwinden. Alle Daten müssen kontinuierlich gemanaged und gespeichert werden und auch ihre Qualität muss laufend kontrolliert werden. Erst wenn diese Punkte geklärt sind, lohnen sich die aufwändigen Big-Data-Analysen. Basierend darauf, können wichtige Entscheidungen schneller und besser getroffen werden. Eine durchdachte Big-Data-Strategie kann heute entscheidend zum Erfolg eines Unternehmens beitragen. Dazu gehört es auch, Methoden wie künstliche Intelligenz oder Machine Learning einzusetzen. Einer Studie von Deloitte zufolge sind datengestützte Unternehmen erfolgreicher als Unternehmen, in denen sich das Management auf das eigene Bauchgefühl oder veraltete Daten verlässt.

Data Mining als Technik, um die Möglichkeiten großer Datenmengen zu nutzen

Eine Technik, um große Datenmengen nutzbar zu machen, ist das Data Mining. Beim Data Mining geht es darum mithilfe von Algorithmen Datenmuster in großen Datensätzen zu erkennen. Dabei werden Techniken aus der Statistik und Informatik verwendet, sowie Technologien aus dem Bereich künstliche Intelligenz und Machine Learning eingesetzt. Data Mining ist ein Prozess, der dabei hilft, enorme Mengen an Daten zu analysieren, und zwar mit folgenden Methoden:

Klassifikation von Daten: Zuordnung von Elementen zu Klassen
Prognose: Zum Beispiel, um Umsätze in der Zukunft vorherzusagen
Segmentierung von Daten: Finden von Gruppen und Segmenten innerhalb von Daten, um Cluster zu erkennen
Entdeckung von Abhängigkeiten: Erkennen, welche Elemente untereinander in Beziehung stehen.

Was ist Machine Learning?

Machine Learning (ML) ist in vielen Fällen unabdingbar, um große Datenmengen zu analysieren. Denn traditionelle Analyseverfahren kommen heute schnell an ihre Grenzen. Maschinelles Lernen wird daher gerne im Bereich von Data Analytics eingesetzt. Es gehört zu den Anwendungsfällen der künstlichen Intelligenz. Es bedeutet, dass Maschinen so trainiert werden, dass sie in Daten Mustern erkennen. Dazu wird zum Beispiel ein Trainingsdatensatz benutzt, der von einem Algorithmus nach Mustern und Zusammenhängen durchsucht wird. Ist dieser Trainingsprozess erfolgreich, wird das entstandene Modell dazu genutzt, neue, unbekannte Daten zu bewerten. Auf Basis der Ergebnisse sollen bessere Entscheidungen und Vorhersagen getroffen werden. Im besten Fall ist immer weniger menschliches Eingreifen nötig.

Dabei ist der Trainingsprozess ein interaktiver Prozess, in dem es immer wieder Feedbackschleifen gibt. Der Lernprozess des Algorithmus kann aktuell nur dann erfolgreich sein, wenn Menschen immer wieder die Ergebnisse des Prozesses bewerten

Maschinelles Lernen ist insbesondere bei großen Datenmengen sinnvoll. Je mehr Daten vorhanden sind, desto besser sind die Ergebnisse und desto einfacher lassen sich versteckte Muster erkennen.

Die verschiedenen Formen des Machine Learning

Inzwischen haben sich vier verschiedene Formen des Machine Learning etabliert:

– Überwachtes Lernen

– Unüberwachtes Lernen

– Teilüberwachtes Lernen

– Verstärkendes Lernen

Beim überwachten Lernen (Supervised Machine Learning) geht es darum, bekannte Daten zu nutzen, um daraus Muster und Zusammenhänge zu erkennen. So lernt der Algorithmus anhand von Beispieldaten und kann dieses „Wissen“ dann auf weitere Datensätze anwenden. Beispiele für Verfahren, in denen überwachtes Lernen eingesetzt werden kann, sind:

– Berechnungen darüber, wie wahrscheinlich der Ausfall eines Geräts ist

– Prognose über den Umsatz eines Kunden

– Vorhersage des künftigen Stromverbrauchs

Beim unüberwachten Lernen (Unsupervised ML) gibt man dem Algorithmus keine Daten vor, sondern das Ziel ist es, dass der Algorithmus eigenständig Muster und Zusammenhänge in den Daten erkennt. Anschließend ist ein Data Scientist gefordert, um die Ergebnisse einzuschätzen und zu bewerten. Dieses Verfahren setzt man zum Beispiel zur Visualisierung ein, zur Analyse von einzelnen Clustern oder um Regeln zu erkennen.

Das teilüberwachte Lernen (Semi-supervised ML) ist eine Mischung aus überwachtem und unüberwachtem Lernen. Bei der Analyse werden sowohl konkrete Zielvariablen genutzt, als auch unbekannte Daten nach Mustern durchsucht. Das teilüberwachte Lernen findet vor allem in der Erkennung von Bildern oder Objekten Anwendung. Im ersten Schritt werden meist Beispieldaten erstellt, mit denen im nächsten Schritt die unbekannten Daten besser analysiert werden können.

Verstärkendes Lernen (Reinforcement Learning) arbeitet mit einem Belohnungssystem. Algorithmen werden dabei mit einer Kostenfunktion oder einem Belohnungssystem bewertet. Wenn der Algorithmus dann ein Problem löst, wird seine Belohnung maximiert. Bei dieser Art wird vorab nicht mit Beispieldaten trainiert, sondern der Algorithmus kann in vielen Wiederholungen seine eigene Strategie entwickeln. Beim Reinforcement Learning kann eine Künstliche Intelligenz, selbstständig lernen. Forscher glauben, dass diese Art des Machine Learning die mögliche Lösung für komplexe Probleme, wie autonomes Fahren oder im Bereich der Robotik ist.

Einsatzbereiche von maschinellem Lernen finden sich beispielsweise im Marketing, bei der Segmentierung von Kunden oder bei Empfehlungen für Kunden in Webshops. Auch im Bereich des Kundenservice oder bei der Erkennung von Betrug bei Finanztransaktionen lässt sich das maschinelle Lernen zielführend einsetzen.

AnalyticsBig DataData ScienceMachine LearningData Mining

Anja Prünster