IT-Trends-Blog

IT-Trends-Blog

Opinions expressed on this blog reflect the writer’s views and not the position of the Capgemini Group

Die Zukunft von Big Data

Kategorie: Trends am Horizont
Eine kürzlich erschienene Studie von Gartner zum Zustand von Big Data stellt fest, dass Hadoop in zwei Jahren selbst bei forschungsnahen Großunternehmen lediglich in jedem zweiten vertreten sein wird. Konkret gab die Hälfte der Unternehmen an, weder bestehende Hadoop-Systeme zu haben noch derartige Pläne für die kommenden zwei Jahre zu verfolgen. Diese Umfrage steht im starken Kontrast zum öffentlichen Hype um Big Data. Hier drängt sich die Frage nach der Zukunft und dem Nutzen von Datenanalyse im großen Stil auf.

Persönlich denke ich nicht, dass dieser Hype lediglich viel Lärm um nichts war, obgleich sicherlich an dieser Studie durchaus Wahres dran ist. Allerdings erzielen Unternehmen wie Google, Yahoo, Facebook und Twitter nach wie vor große Vorteile aus Big Data und haben viel Geld sowie Arbeit in ein offenes Hadoop investiert.
 
Nicht nur Talsohle der Ernüchterung
Ob Big Data mehr als ein Hype ist, entscheidet sich erst in den kommenden Jahren. Bei Betrachtung des Gartner-eigenen Hype Cycle wird deutlich, dass sich Big Data in Phase 3 befindet. Wir haben technologische Durchstiche und -brüche gesehen (Phase 1), viele Success Stories und Bekenntnisse zu Hadoop und Big Data gehört (Phase 2) und befinden uns derzeit in der mittleren dritten Phase.

Hier betritt traditionell die Mehrheit der Anwender Neuland und erlebt die gesamte Klaviatur der Gefühle von sehr positiv bis sehr negativ. Diese Mehrheit ist naturgemäß nur erprobte robuste Produkte gewohnt und arbeitet jetzt mit disruptiven Techniken wie Hadoop, Cassandra oder Spark. Diese sind auf der grünen Wiese gestartet und noch nicht sehr anwenderfreundlich,  dafür allerdings ordnen sie den Markt neu und eröffnen neue Möglichkeiten.

Die jetzt zutage tretenden technischen Herausforderungen haben die Innovatoren und Early Adopter aus den vorherigen beiden Phasen noch toleriert. Die Mehrheit der Anwender hat aber mit Produkten tendenziell Bauchschmerzen, die nicht out-of-the-box funktionieren. Da diese Anwender gleichzeitig deutlich in der Überzahl sind, treten nun den Success Stories erstmals Anwender entgegen, die eine andere Meinung vertreten. Daher ist die dritte Phase auch die "Talsohle der Ernüchterung". Aus dem Einklang der Lobgesänge wird eine Dissonanz gegensätzlicher Meinungen.
 
Nicht einfach Mitschwimmen 
Kleine Unternehmen und Organisationen, die ohnehin wenig Datenanalyse betreiben, werden von Big Data daher naturgemäß enttäuscht werden. So hat auch vor fünfzehn, zwanzig Jahren das Internet kleine und mittelständische Unternehmen ernüchtert, die sich Homepages bauen ließen. Ein sinnvolles Mittel zur Stärkung der Geschäftsentwicklung war es damals eher selten; zur Information an bestehende Kunden eignete es sich allerdings sehr wohl. Am Ende werden von Big Data Unternehmen in gleicher Weise profitieren, wie andere vom Internet profitiert haben: mit einer sinnvollen Strategie und einem Mehrwert für den Kunden kann es sich rentieren. Einfach auf einer Welle mitzuschwimmen wird weniger helfen.

Zwei prädestinierte Anwendungskreise für Hadoop sind derzeit Machine Learning im weiteren Sinne und der Bereich Computer-Simulation. Am Ende entscheidet wie immer der Markt, wie es mit disruptiven Techniken à la Hadoop und Spark weitergeht. Einige Kunden haben sich bereits daran gewöhnt, sehr große und komplexe Daten auswerten zu können. Da die Büchse der Pandora jetzt geöffnet ist, müssen sich andere Wettbewerber daran messen lassen oder sie werden vom Markt verschwinden.

Vor allem große Unternehmen mit Daten vieler Instanzen bzw. Entitäten ziehen hieraus große Vorteile. Unsere Automobilindustrie erhält durch gezielte Vorhersagen von Marktnachfragen, Bedarfen und den Abgleich mit diversen Kapazitäten ihre Wettbewerbsfähigkeit trotz unseres hohen Lohnniveaus. In der Finanzindustrie hilft Big Data zur Erkennung von Betrug und im Hochfrequenzhandel. Internetfirmen, wie Netflix, Amazon, Spotify und Apple, profitieren vor allem von der Auswertung der Userpräferenzen in Musik und Filmen, wodurch dem Nutzer neuer  attraktiver Content vorgeschlagen wird bei gleichzeitiger Optimierung der Webpräsenz durch Analyse der Seitenbesuche (sog. Sessionization).

In einem Projekt während meines Studiums hätten wir rückblickend ein Hadoop als Simulationsumgebung gut gebrauchen können. Wir haben damals eigenständige Anwendungen geschrieben, welche dem Shared-Nothing-Gedanken folgten, so wie es Hadoop ähnlich ist. Das manuelle Starten der Analysen, manuelle Überwachung der Knoten sowie das manuelle Einsammeln der Ergebnisse war zeitaufwändig und hat uns eine Woche lang Tag und Nacht beschäftigt. Hadoop hätte uns hierbei sehr geholfen uns auf die Auswertung der Daten zu konzentrieren anstatt auf das technische Monitoring. Heutzutage bin ich froh Berechnungen im großen Stil in Technologien wie Hadoop oder Spark zu realisieren.
 
Hadoop vor neuen Aufgaben
Hadoop hat seine Nische gefunden. Diese hat es so erfolgreich besetzt, dass die Datenplattform jetzt auch andere Herausforderungen lösen können soll: beispielsweise als Ersatz des DataWarehouse, für die Verarbeitung von Streams, als Archiv für Backups sowie als konsolidierter transaktionaler und dispositiver Originaldatenspeicher (Active Archive).

Hadoop befindet sich derzeit nach Gartners Hype Cycle in der kritischen, dritten Phase: Ab hier entscheidet sich, ob es wieder bergauf oder weiter bergab geht. Ich persönlich gehe davon aus, dass es ein Trend ist, der ähnlich der Künstlichen Intelligenz im Hintergrund in einer Nische weiterhin existieren wird.

Über den Autor

Daniel Schulz
Daniel Schulz
Daniel Schulz ist Senior Solution Architect bei Capgemini. Er arbeitet seit vier Jahren im Big-Data-Bereich mit besonderem Fokus auf der Automotive-Branche. Er interessiert sich seit seiner Schulzeit für Statistik, seit dem Studium auch für Machine Learning und deren Einsatz in der Datenanalyse. Sein besonderes Interesse gilt Markovmodellen und der Performance-Optimierung von Software und Datenbanken.

Kommentar hinterlassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind mit einem * gekennzeichnet.