Sneak Preview – datenfabrik.profiler

imageBereits mit dem SQL Server 2008 hatte Microsoft die Integration Services um einen sehr nützlichen Task erweitert- den Data Profiling Task.

Auch wenn der Task “nur ein Task” ist und kein eigenständiges Data-Profiling-Produkt, wie es z.B. die Mitbewerber Informatica, Oracle oder IBM anbieten, hat Microsoft damit die Integration Services um ein wesentliches Element für die Bereiche Datenintegration und Datenqualität erweitert. Einigen Studien zufolge schlagen 75% der Datenintegrationsprojekte fehl oder liegen außerhalb des Budgets/Zeitplans – eine der häufigsten Ursachen dabei ist die unzureichende Kenntnis über die zu integrierenden Daten.

Im Rahmen unserer datenfabrik “Data Quality Components for SQL Server Integration Services” imagehaben wir den Ansatz von Microsoft aufgegriffen, vom Funktionsumfang her stark erweitert und so ein neues Produkt unserer Produktpalette hinzugefügt.

datenfabrik.profiler ist ein vollwertiges Data Profiling Produkt, welches innerhalb der SQL Server Integration Services als Datenfluss-Task zur Verfügung steht. Dadurch bieten wir die Möglichkeit, jede Datenquelle zu analysieren, die mit den Integration Services geladen werden kann. In der aktuellen Beta Version, die wir erstmalig auf der SQLBits 7 – The  7 Wonders of SQL vom 30.09.2010 – 02.10.2010 vorstellen werden, verfügt der Profiler über 7 unterschiedliche Regeltypen:

  • Column Values
  • Key Candidate Profile
  • Length Distribution
  • Null Values
  • Doublemetaphone Frequency
  • Regular Expression
  • Dictionary


SNAGHTMLab3cfe3

 

In der endgültigen Version wird datenfabrik.profiler über weitere Regeln zur Datenanalyse verfügen und sich zusätzlich über ein spezielles Plug-In Konzept mit neuen Regeln, die von der SSIS Komponente nachgeladen werden, erweitern lassen.

 

SNAGHTMLaae56ce
SNAGHTMLaa6dc90

 

Die analysierten Daten werden in einem zentralen Repository gespeichert. Dabei kann die Speicherung der Daten über 3 verschiedene Verfahren vorgenommen werden. Zum einem können die Ergebnisse der Analyse immer wieder neu in das Repository gespeichert werden, bereits bestehende Daten werden wieder verworfen – diese Option eignet sich besonders gut innerhalb des Entwicklungsprozesses.
Ebenso können die analysierten Daten/Statistiken aber auch für ein durchgehendes Monitoring für einzelne Ausführungen historisiert oder, bei inkrementellen Ladeprozessen, aktualisiert werden. Somit kann genau nachvollzogen werden, zu welchem Zeitpunkt z.B. ein gesetzter Qualitätslevel verletzt wurde.

Über das “datenfabrik.profiler – Management” stehen die Analysen unternehmensweit zur Verfügung, so dass diese auch nach dem Entwicklungsprozess von Mitarbeitern außerhalb der Entwicklungsabteilung überwacht werden können.

Zusätzlich können über das Managementprogramm auch Verwaltungsaufgaben, wie das Anlegen von regulären Ausdrücken und Dictionaries oder der Import neuer Regeln zentral vorgenommen und somit Entwicklern in den SSIS Komponente einheitlich zur Verfügung gestellt werden.

 

SNAGHTMLaac3ce8

 

Um ein durchgehendes Monitoring zu gewährleisten, bietet datenfabrik.profiler nicht nur umfangreiche Regeln und Funktionen zur Analyse der Daten, sondern auch ein proaktives Alarmkonzept. Mit den aus dem Profiling gewonnenen Erkenntnissen können Alarm-Regeln erstellt werden, durch die beim Unter- oder Überschreiten von Schwellenwerten zu einzelnen Regel-Spalten-Kombinationen Emails versendet werden oder die Ausführung der SSIS Komponente innerhalb eines Paketes zum Abbruch führt.

Zusätzlich unterstützt wird das “datenfabrik.profiler Management” durch ein umfangreiches – und erweiterbares – Reporting-System, über das sämtliche Analysen in Formate wie Excel, PDF oder Word exportiert werden können.

datenfabrik.profiler

 

Happy Profiling 🙂