IT-Trends-Blog

IT-Trends-Blog

Opinions expressed on this blog reflect the writer’s views and not the position of the Capgemini Group

Unscharfe Daten für eine genaue Information - geht das?

Kategorie: Trends am Horizont
iStock | © ThinkstockWas haben Zahlen über Verbreitung von Nagetieren mit der Entwicklung von Verkehrsstaus zu tun? Auf den ersten Blick gar nichts, wenn wir aber genauer hinschauen, dann wird klar, dass beide eine wesentliche Gemeinsamkeit haben: es ist relativ gleichgültig, ob jedes einzelne Datum stimmt, wichtig ist der Anteil der korrekten Daten und die statistische Aussagekraft. Das stimmt zumindest dann, wenn es darum geht, Maßnahmen gegen eines von beiden zu finden. Es stimmt natürlich nicht für die individuelle Betrachtung.
 
Wie Studien belegen steigt die Menge der elektronisch verfügbaren Daten weiter rasant an, viele davon sind auch öffentlich verfüg- und nutzbar. Und diese steigenden Datenmengen werden von immer mehr Beteiligten „hergestellt“. Das Internet der Dinge wird hier seinen Beitrag leisten, genauso wie die Menschen, die ihre Meinung, ihr Wohlbefinden, ihre Tätigkeiten usw. elektronisch erfassen und bereitstellen (egal ob bewusst oder unbewusst und über wen). Damit ergeben sich neben der schieren Datenmenge auch drastische Konsequenzen für deren Qualität und Verlässlichkeit. Woher soll ein auswertendes System wissen, ob mein Smartphone ohne mich bei jemand anderem im Auto mitfährt? Was geschieht, wenn ich das Smartphone ausschalte oder der Akku so richtig leer ist und ich mich damit aus der Datensenderei auskopple? Dazu kommen altbekannte Probleme, die mit der Interpretation von Dateninhalten zu tun haben. Vermutlich hat jeder schon von den Gemeinden gehört, die im Rahmen der Volkszählung feststellen mussten, dass sie viel mehr (oder auch weniger) Einwohner haben, als sie dachten. Und dass in Anbetracht dessen, dass wir ein Meldegesetz haben.
 
Wenn wir in Anbetracht dieser Unschärfen in den Daten uns jetzt noch vor Augen führen, dass diese Daten für immer mehr Geschäftsfelder interessant werden, dann stellt sich doch sofort die Frage, wie das zusammen passt, eine immer größere Bedeutung der Daten bei gleichzeitig immer weniger Präzision in ihrer Erstellung.
 
Die einfache Lösung gibt es hier nicht, es ist aber klar, dass es Anwendungen gibt, bei denen die Korrektheit des einzelnen Datums gar nicht wirklich relevant ist. Wichtig ist vielmehr, dass eine hinreichend große Anzahl von individuellen Datensätzen korrekt ist. Ein schönes Beispiel dafür findet sich bei Forbes. Die Bewegungen des Einzelnen sind relativ irrelevant, wichtig ist die statische Verteilung von Bewegungen über die Zeit. Das gleiche Prinzip lässt sich an vielen Stellen beobachten und wir müssen lernen zu verstehen, dass ein Algorithmus auch dann korrekt sein kann, wenn er nicht für alle Eingabedaten die hundertprozentige Antwort liefert oder wenn Eingabedaten fehlen (weil das Smartphone ausgeschaltet war).

iStock | © Thinkstock
 
Neben dieser schwarz-weißen Welt der Korrektheit gibt es zunehmend auch Situationen, in denen zu einem Sachverhalt zwei widersprüchliche Informationen geliefert werden. Mein Smartphone, das in einem anderen Auto mitfährt, verrät dem Auswertenden, dass ich in A bin, während das Tablet in meiner Handtasche behauptet, ich sei in B.
 
Als Konsequenz müssen wir heute sehr viel genauer prüfen, welchen Typ Information wir eigentlich verarbeiten bzw. liefern sollen. Geht es um Anwendungen, bei denen jedes einzelne Datum einen erheblichen Einfluss auf das Gesamtergebnis hat (z.B. Zahlungseingänge in der Buchhaltung) oder geht es um Anwendungen, bei denen die statische Verteilung (über die Zeit) der Daten das eigentlich Ausschlaggebende ist? Entsprechend müssen die Datenlieferanten etwas zur Qualität ihrer Daten sagen können (eigentlich brauchen wir non-funktionale Aussagen über diese Daten) und die Verbraucher müssen wissen, welche non-funktionalen Anforderungen sie auf Grund ihrer Anwendung stellen wollen.
 
Im Kontext Big Data wird das heute schon in einigen Analysewerkzeugen umgesetzt, die auf Grund der Datenanalyse dem Nutzer Wahrscheinlichkeiten für die Korrektheit einer Antwort liefern können.
 
Wie gut kennen Sie ihre Daten? Und wie gut kennen Sie die non-funktionalen Anforderungen an die Daten, die Ihre Anwendungen stellen?



 
Bildnachweis: iStock | © Thinkstock

Über den Autor

Marion Kremer
Marion Kremer
Dr. Marion Kremer interessiert sich vor allem für Trends in den Bereichen Software-Engineering und Architektur, die immer mehr von der Interaktion zwischen Individuen geprägt werden. Sie ist stets auf der Suche nach neuen Methoden und Werkzeugen, die zum einen einen hohen geschäftlichen Nutzen bringen und zum anderen die Zusammenarbeit zwischen IT- und Fachseite fördern. Bei Capgemini leitet Marion Kremer die interne Forschungs- und Entwicklungsabteilung für die Bereiche Software-Engineering und Architektur in Deutschland. Ihre Arbeit basiert auf langjähriger Erfahrung in verschiedenen Branchen.

Kommentar hinterlassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind mit einem * gekennzeichnet.