“Data Hub” und Data Quality

In meinem Blog-Post Microsft “Data Hub” bin ich auf die Unterschiede zwischen dem Windows Azure Marketplace DataMarket und dem Microsoft “Data Hub” eingegangen und habe die zusätzlichen Vorteile des “Data Hub” erklärt. Was mir bei dem Beitrag immer wieder in den Sinn kam, ich aber nicht in dem Beitrag erwähnt habe, ist das Thema “Data Quality”.

Hat der “Data Hub” denn etwas mit dem Thema Data Quality zu tun?

Aber natürlich, eigentlich liegt das sogar auf der Hand, die 3 wesentlichen Kernfunktionen des “Data Hub” sind

Unternehmensweiter zentraler Informationspunkt (keine Informationen mehr die niemand findet)
Zugriff ausschließlich auf bestätigte/freigegebene Informationen
Zugriff auf unternehmensweite “standardisierte” Informationsanbieter.

Wer schon einmal einen Vortrag von mir zum Thema SSIS und Data Quality gehört hat, der kennt mit Sicherheit (oder auch hoffentlich) noch die 15 IQ Dimensionen (PDF) der Deutschen Gesellschaft für Informations- und Datenqualität.

Schaut man sich die 15 IQ Dimensionen und die 3 wesentlichen Punkte des “Data Hub” an, so findet man einige Dimensionen, die durch den “Data Hub” erfüllt/bedient werden. Hier sei beispielsweise die Zugänglichkeit, Vollständigkeit, Fehlerfreiheit oder auch die Glaubwürdigkeit genannt.

Und wo kann das zum Einsatz kommen?

Durch die direkte Integration des “Data Hub” in Excel oder auch PowerPivot liegt ein entsprechendes Einsatzszenario recht nahe. Das Ziel mit PowerPivot – also Self-Service BI – ist es, dem Fachanwender die Möglichkeit zu geben, losgelöst von der IT Informationen aufzubereiten und zu analysieren.

Auch wenn PowerPivot ein geniales Tool ist, gehört ein “Excel mit noch mehr Power” mit Sicherheit zu den Horrorszenarien einiger DQ/DW’ler . Anstatt unbestätigte sich selbstfortpflanzende Excel Dateien mit einigen Megabyte, wandern demnächst Gigabyte große Dateien mit wild verknüpften Daten unbekannter Herkunft durch das Unternehmen.

Mit Sicherheit ist so ein Szenario leicht überspitzt, aber mit Sicherheit wird irgendjemand in seinen Gedanken jetzt auch kontern: “Du glaubst gar nicht was ich nicht schon alles in Excel gesehen habe”.

Das heißt auch bei einem Thema wie Self-Service BI, sollten verschiede Punkte geklärt sein:

Wo kommen die Daten her = hohes Ansehen
Wie aktuell und vollständig sind die Daten = Vollständigkeit/Aktualität
Wie sind die Daten erfasst worden = Glaubwürdigkeit/Fehlerfreiheit
Werden die Daten im ganzen Unternehmen verwendet = Zugänglichkeit

Und um das auch mal positiv darzustellen, durch den Einsatz entsprechender Self-Service BI Lösungen steigt nicht zwangsläufig die Gefahr einer schlechten Datenqualität. Es entstehen auch neue Anforderungen der Fachanwender denen man gerecht werden muss. Je leichter Informationen verknüpft/zusammengeführt werden können, desto mehr Ideen und Anwendungsszenarien werden sich auch ergeben. Das heißt, wo heute aus rein technischer Sicht z.B. eine Zuordnung der Standortzahlen auf unterschiedliche Gebietsstrukturen wie PLZ oder Nielsen-Gebiete einem Wunschtraum nahe kommt, werden Self-Service BI Anwender demnächst vielleicht ganz selbstverständlich nachfragen wo denn bitte die Bevölkerungsstatistiken oder Beschäftigungsquoten zu finden sind.

Die großen Fragen die sich Unternehmen in Zukunft in diesem Zusammenhang also stellen müssen, ist, wie können gesicherte Informationen für Fachanwender leicht zugänglich gemacht werden und genau dabei könnte meiner Ansicht nach der “Data Hub” unterstützen und so die Datenqualität auch in einer agileren Self-Service BI Welt sichern.