So wird aus Big Data Smart Data

Am 07. Juni 2017 sprach Tobias Meffert auf BigData Insider über die Transformation von Big Data zu Smart Data. Anbei können Sie den vollständigen Artikel lesen.

Tobias Meffert

Die Verarbeitung großer Datenmengen sowie die daraus abgeleiteten Prognosen und Handlungsempfehlungen bilden gemeinhin das Herzstück von Data Intelligence. Ohne innovationsorientierte Hypothesenkultur und Strategie bleibt das jedoch technologisches Stückwerk. Umdenken ist gefragt.

Der international tätige Messeveranstalter weiß genau, dass es bei der großen Menge weltweit organisierter Veranstaltungen Kreuzeffekte geben muss. Aussteller in Singapur wollen möglicherweise auch in London Flagge zeigen. Der Kundenwert kann aus Sicht der Messe mitunter vervielfacht werden.

Doch wie findet man diese Potenziale? Bislang ging man hier vom klassischen Keyaccount-Geschäft aus. Vertriebsmitarbeiter pflegen die Kundenkontakte und versuchen im Gespräch Potenziale zu ermitteln. Ein teures Unterfangen, zumal jede Veranstaltung ihr eigenes Vertriebsteam hat. Eine vollständige Zentralisierung scheidet aus, weil die einzelnen Märkte und deren Teilnehmer unterschiedliche Kontextbedingungen mit sich bringen.

Also entschied man sich für Data Mining. Dadurch entstand ein hybrides System, das in der Lage ist, in den Daten Potenziale zu erkennen und sie dann an den Vertrieb weiter zu reichen. Inzwischen ist die der Veranstalter in der Lage, auch scheinbar wenig einträgliche Szenarien virtuell zu simulieren und deren Ertragsprognosen per Software zu bewerten. Aus dem teuren, vorsichtigen Direktvertrieb wird ein schnelles, experimentierfreudiges System, das somit in der Lage ist, versteckte Potenziale zu heben.

Das Ende des Bauchgefühls

Gerade im Marketing, der Disziplin, die selbst versucht Nachfrage zu kreieren, werden neue Dinge gerne und schnell ausprobiert. Kunden, die eine halbe Ewigkeit aus einem Bauchgefühl heraus definiert wurden, sollen heute über Daten definiert oder überhaupt gefunden werden. Ihr Verhalten aufgrund von Daten gibt Aufschluss darüber, was sie wirklich wollen und sogar – wie glücklich oder unglücklich sie sind.

Smart Data statt Big Data ist das, was angestrebt wird. Die Daten sollen heute immer schlauer werden und alle möglichen Rückschlüsse und Erkenntnisse liefern. Das Konzept von Smart Data weist den Weg von einmalig ausgewerteten Daten, hin zu ständig verfügbaren Zusatzinformationen, die einen Mehrwert bieten.

Doch gerade mittelständische Unternehmen tun sich schwer damit, den Schritt von Big zu Smart Data zu gehen. Sämtliche Systeme in Unternehmen, egal ob CRM oder ERP, bestehen größtenteils aus vorgefertigten Versionen, die einem „One-fits-most“-Ansatz folgen. Individuelle Anpassungen müssen teuer bezahlt werden. Hinzu kommt, dass die Systeme auch darauf ausgelegt sind, Prozesse und Abläufe konstant zu halten – das Gegenteil von Agilität und Experimentierkultur.

Smart-Data-Projekte mit unsicherem Ausgang

Zu Beginn eines Smart-Data-Projektes sind viele Fragen bekannt, die beantwortet werden sollen. Welche davon tatsächlich beantwortet werden können, zeigt sich jedoch erst mit der Zeit. Genauso schwer vorhersehbar ist der Detailgrad in dem Antworten, Indikatoren oder zusätzliche Datenelemente aus dem Projekt hervorgehen werden. Diese Unsicherheiten erlauben es zumeist nur, eine Idee davon zu entwickeln, wie die endgültige Version der cleveren Daten aussehen könnte. Wie die Informationen jedoch systemweit dargestellt und bereitgestellt werden, zeigt sich erst im Verlauf des Projektes.

Es ist daher anzuraten, Schritt für Schritt vorzugehen und auch das bereits Ermittelte rückwirkend ständig zu überprüfen. Smart-Data-Projekte profitieren ungemein von einem KVP (kontinuierlichen Verbesserungsprozess), um von neuen Fragestellungen, neuen Daten oder neuen Software Lösungen profitieren zu können.

Zusammenfassend lässt sich die Startphase eines Smart-Data-Projektes wie folgt:

  • Aufstellung von Fragen, Hypothesen und Wünschen, die durch Daten beantwortet werden sollen.
  • Sammeln von internen bereits vorhanden Daten und Extraktion aus bestehenden Systemen.
  • Aufbau einer neuen Datenbank, um die vorhanden Daten abzulegen.

Nachdem diese drei Schritte durchgeführt wurden, zeigt sich, dass die Daten in der Form wie sie ursprünglich vorliegen eventuell nicht dabei helfen, neue Fragen und Hypothesen zu beantworten. Eine zeitaufwendige Angelegenheit ist es daher bereits am Anfang, die eigenen Daten zu hinterfragen und ihre Strukturen anzupassen, um das „Smarte“ in den Daten hervorbringen zu können.

Möglichkeiten der Datenbeschaffung

Außerdem stellt sich die Frage, wie Unternehmen an externe Daten herankommen, mit denen sich die internen Daten anreichern lassen. Nicht nur was die Vielfalt und den Detailgrad der verfügbaren Zusatzinformationen angeht, sondern gerade auch im Hinblick auf die Auswahl externer Bezugsquellen hat die Entwicklung der letzten Jahre ein echtes „Big“ an Möglichkeiten geschaffen. Prinzipiell stehen fast grenzenlos viele Alternativen zur Verfügung, die eigenen Daten mit externen zu ergänzen.

Früher gab es nur wenige Informationsanbieter wie Auskunfteien von denen zusätzliche Daten bezogen werden konnten. Heute ist die Anzahl kommerzieller Anbieter wesentlich umfangreicher, denn es ist quasi zu einem separaten Geschäftsmodell für jedes Unternehmen geworden ist, Daten selbst am Markt anzubieten.

Des Weiteren stellt gerade das Netz viele unterschiedliche, leicht zugängliche Wege der Datenbeschaffung bereit. So gibt es sogenannte „Open-Data“-Portale, die Daten zur Verfügung stellen, welche von jedermann ohne Einschränkungen genutzt, weiterverbreitet und weiterverwendet werden dürfen. Daneben gibt es das Webcrawling. Hierfür gibt es Werkzeuge, die mit wenig Aufwand eingerichtet werden können, um Daten aus dem Internet zu sammeln. Die größte Herausforderung ist dabei, das notwendige Know-how zum Bedienen der Werkzeuge aufzubauen. Schnelle Erfolge sind zwar möglich, treffen aber auf die technischen Eigenheiten des Internets, wo Informationen von Webseiten nicht auf Dauer immer in derselben Form vorliegen. Der Relaunch einer Webseite kann schon zur Folge haben, dass das eigene Wissen um die Art des Crawlings den neuen Webseiten angepasst und erweitert werden muss. Die Beschaffung von Daten aus dem Netz unterliegt somit auch zwangsläufig einem KVP, der sich nicht vorhersagen lässt, sondern durch die Entwicklungen im Netz selbst bestimmt wird.

Bei der Fülle an Möglichkeiten der Datenbeschaffung wird es nie die einzig richtige Bezugsquelle geben, welche dauerhaft geeignet ist, die internen Informationen wertvoll zu ergänzen. Vielmehr entwickelt sich das gesamte Smart-Data-Projekt durch das Hinzuziehen von Informationen kontinuierlich weiter. Einem Wandel unterliegen auch die Datenbank-Strukturen selbst, wodurch sich immer wieder neue Anforderungen ergeben.

Visual Data

Wer also ein Datenprojekt anschieben möchte, sieht sich von Beginn an einer Reihe von großen Herausforderungen ausgesetzt. Neben der Erfassung und Verarbeitung der Daten gilt das auch für die Visualisierung und Verteilung, also das Handhabbarmachen der Ergebnisse.

Um Ergebnisse zu visualisieren, kann erneut auf ein schier endloses Arsenal an technischen Möglichkeiten zurückgegriffen werden. Der Markt für Business-Intelligence-Lösungen hat sich in den letzten Jahren ähnlich schnell entwickelt wie die Datenbank-Technologien. Bekannte Anbieter haben viel Neues auf den Markt gebracht, neue Anbieter sind hinzugekommen und Open-Source-Lösungen entstehen ununterbrochen neu. Eine eindeutige Wahl fällt daher in diesem Bereich schwer und muss nicht von Dauer sein. Vielmehr sollte unterschieden werden, ob Technologien Mittel zum Zweck sind oder später auch als produktives System dauerhaft für die Auswertung genutzt werden können.

Eine Trennung der Erstellungsebene von der Anzeigenebene kann durchaus Vorteile mit sich bringen – auch wenn Anbieter versuchen, in diesem Bereich immer generalistischer zu werden und beide Möglichkeiten in ihren Angeboten miteinschließen. Bei der Generierung von Zusatzinformationen und Gewinnung von Erkenntnissen ist es besser auch selbst die Möglichkeiten zu besitzen, neue Technologien in den Prozess aufnehmen zu können. Kein Anbieter kann garantieren, dass er immer für jede Frage gleich die entsprechenden Werkzeuge zur Verfügung stellen kann. Dabei ist nichts schmerzlicher, als die Erkenntnis, dass man nicht an das im Boden befindliche Gold herankommt, nur, weil man dafür nicht die erforderlichen oder geeigneten Werkzeuge zur Verfügung hat.

Auf der Visualisierungsebene stellt sich zu den ganzen Datenfragen ohnehin auch eine andere, zusätzliche Herausforderung: Wie sollen gewonnene Erkenntnisse eigentlich operationalisiert werden? Wie eingangs schon beschrieben, bestehen in den meisten Unternehmen starre Lösungen für fest definierte Prozesse. Eben diese gilt es jedoch mit den zusätzlichen Erkenntnissen zu optimieren oder neu auszurichten. Die Frage nach der Visualisierungsform sollte daher mit der Operationalisierung einhergehen. Hier gibt es keine „One-fits-most“-Lösung.

Datenexperimente im Labor

Wie löst man aber nun diesen Konflikt aus dem kontinuierlich hohen Anspruch an Bestandsprozesse, der letztlich die qualitativen Kernkompetenzen eines Unternehmens berührt, und der Notwendigkeit oder dem Wunsch, schneller, agiler und experimentierfreudiger zu werden? Die klassische Lösung aus der Softwareentwicklung ist das „Sandboxing“. Die Einrichtung eines geschützten Raums, der weitgehend losgelöst vom Tagesgeschäft operiert, mithin also die Tagesarbeit nicht schädigt. Gleichsam kann er auf die „echten“ Daten zugreifen und somit möglichst realitätsnah die Ausgangssituation und die daraus erwachsenden Szenarien simulieren.

Auch für Smart-Data-Projekte gibt es derartige „Sandkästen“, in denen sich die experimentierfreudigen Marketer und Vertriebler nach Lust und Laune austoben und ihre Hypothesen prüfen können. Ein solches Big-Data-Analyse-Labor betreibt Bisnode. Das „Bisnode Big Data Analytics Lab“ greift auf einen internen Datenpool von 265 Millionen Unternehmen aus 230 Ländern zu und nutzt selbstverständlich die Bandbreite externer Big-Data-Quellen. Unternehmen sind also in der Lage, weit mehr Daten experimentell zu nutzen, als sie selbst zur Verfügung haben. Jeder Teilnehmer am System profitiert von dessen Größe und trägt gleichzeitig – anonymisiert versteht sich – zum Wachstum der Community bei.

Im Big Data Analytics Lab lassen sich gezielt Hypothesen, Szenarien sowie Ergebnisse prognostizieren und evaluieren. Das gilt für die lineare Geschäftsentwicklung in Bestandsmärkten ebenso wie für die Evaluation des Expansionspotenzials in Richtung Ausland.

Ein großes soziale Netzwerk – aktuell der Liebling von Human Resources – ist sich zum Beispiel dessen bewusst, dass enorme Datenschätze in der Tiefe des Systems stecken. Vor allem der Content, den die Nutzer generieren, erlaubt in der Aggregation Vorhersagen über die Entwicklung einzelner Marktsegmente. Allerdings man tut sich schwer, die Rohdiamanten zu finden, zumal die Nutzer des Netzwerks ein extrem variables Verhalten an den Tag legen. Ein kontinuierlicher Datenstrom ist nur bedingt gegeben, es sei denn, man erzeugt Cluster – und genau das haben die Hamburger getan. Inzwischen gibt es drei Kernzielgruppen, über die das System kontinuierlich Daten sammelt und an die es auch zielgerichtet und entsprechend relevant kommunizieren kann.

Fazit

Die eingangs so einfach heruntergebrochene Interpretation zeigt bei genauerem Hinsehen, dass der Begriff „Big Data“ viel mehr versteckt als er zeigt. „Big“ müssen nicht unbedingt die Datenmengen sein. In jedem Teilbereich, den „Big-“ oder „Smart“-Data-Projekte mit sich bringen, versteckt sich aktuell aber ein „Big“ an Alternativen und Möglichkeiten.

Diese Möglichkeiten dürfen aber nicht abschrecken, sondern sollten willkommen geheißen werden. Der Mehrwert, der generiert werden kann ist genauso endlos wie die Möglichkeiten diesen zu generieren. Es gilt sich lediglich klar zu machen, was die unterschiedlichen Möglichkeiten bedeuten und mit sich bringen. Jedes Unternehmen muss sich die Frage stellen, wie viel davon es mit eigenen Ressourcen aufbauen möchte.

Ein KVP ist von Beginn an einzuplanen. Valide Ergebnisse entstehen oft erst nach einer gewissen Laufzeit. Damit dennoch die Experimentierkultur nicht auf der Strecke bleibt, sollte man dazu übergehen, immer wieder Datenhypothesen in einer Simulationsumgebung wie dem Big Data Analytics Lab zu testen.