Data Quality mit den SSIS

In der Studie Data Quality Check 2007 der DGIQ (Deutsch Gesellschaft für Informations- und Datenqualität e.V.) haben 89,8 % der Befragten dem Thema Daten Qualität eine immer stärker werdende Bedeutung für den Erfolgs- und Wettbewerbsfaktor zugewiesen. Zeitgleich haben aber auch fast 50% der Befragten zugegeben, dass es in Ihrem Unternehmen keine klar geregelte Rolle zu diesem Thema gibt und in vielen Unternehmen auch die Unterstützung durch das Top-Management fehlt. Schon heute zeigen verschiedene Studien, dass durch Datenqualitätsprojekte z.B. innerhalb von Werbemaßnahmen Kostenreduzierungen von 5-10 % bei einer gleichzeitigen Steigerung der Responsequote möglich sind.

Besonders bei Datenintegrationsprojekten sollte man in das Thema genügend Zeit investieren. In kaum einem anderen Prozess innerhalb eines Unternehmens liegen die Möglichkeiten Daten zu verunreinen wie zu bereinigen so dicht beieinander. Sollen Daten aus unterschiedlichen operativen Systemen, am besten noch von verschiedenen Herstellern, wie z.B. einer Call Center Anwendung, einem Internet Shop oder einem Ladensystem in ein einheitliches (a)CRM übernommen werden, so ist dies nicht nur der bester Zeitpunkt technische sowie semantische Datenbeschreibungen umzusetzen, sondern auch der beste Weg diese einzuführen und so das Projekt erfolgreich abzuschließen.

Unsaubere Daten in Unternehmen können verschiedene Ursachen haben. Häufig anzutreffen sind Erfassungsfehler, manuelle oder auch automatisierte durch Fehler innerhalb von OCR Verfahren, bewusste Falschangaben von Kunden, unklare Definition von Feldern, uneinheitliche Abgefrage von Daten (z.B. Anrede/Titel mal mit Vornamen, mal mit Nachnamen, mal alleine) oder auch Unstimmigkeiten innerhalb der Definition der Daten, wenn z.B. Firmen fusionieren, in Filialen Systeme unterschiedlicher Hersteller verwendet werden oder einfach nur Daten des Internet Shops in die Versandhandelslösung integriert werden sollen.

Die daraus resultierenden Fehler sind in den meisten Fällen Dubletten, also mehrfach vorkommende Datensätze, oder fehlerhafte Adressen, Telefonnummern, Email-Adressen oder Anreden. Diesen Fehler ist ganz klar eine unterschiedliche Gewichtung zuzuordnen, erschweren aber alle die Kommunikation mit dem Kunden, denn entweder wird er doppelt und dreifach angesprochen, falsch angesprochen oder erst gar nicht erreicht. Welcher dieser Fehler für Unternehmen im Endeffekt schwerwiegender ist, lässt sich in den seltensten Fällen genau ermitteln.

Die SQL Server Integration Services unterstützen mit speziell auf Data Quality zugeschnittenen Komponenten wie z.B. dem Data Profiling Task oder Fuzzy Lookup/Fuzzy Grouping einige Stufen innerhalb einer Data Quality Strategie (Profiling, Cleansing, Auditing).

 

ssis_profiling

 

Auch können mit Komponenten wie Row Count, Multicast und Conditional Split Pakete erstellt werden, die beim Profiling der Daten helfen, wie in einem von Microsoft im Juli 2006 veröffentlichtem Whitepaper mit dem Titel “SSIS Data Quality Solutions” gezeigt wird.
Die von mir in einem anderen Beitrag angesprochenen SQL Server Integration Services Product Samples erhalten auch ein “DataCleaning” Beispiel bei dem Teile der Möglichkeiten mit dem SQL Server 2005 Integration Services gezeigt werden.

Zusätzlich existieren auch verschiedene Komponenten von Drittherstellern wie z.B. AMB-Dataminers Inc., datenfabrik GmbH & Co. KG (mein Arbeitgeber) oder Intelligent Search Technology Ltd. am Markt.

 amb 

datenfabrik3

its_logo2

 

Im Gegensatz zu den Standard SSIS-Komponenten bieten einige dieser Dritthersteller nicht nur Komponenten zur reinen Kontrolle und Korrektur anhand technischer oder semantischer Datenbeschreibungen an, sondern korrigieren Daten auch anhand von Referenzdaten.

So bietet z. B. die Firma IST Ltd. einen Datenfluss Task zur Korrektur von Anreden englischsprachiger Vornamen mit einem großen Referenzdatenbestand.

Mein Arbeitgeber, die datenfabrik GmbH & Co. KG, bietet eine Datenflusskomponente zur postalischen korrektur mit Referenzdaten von über 240 Ländern, sowie eine Datenflusskomponente zur Validierung von Telefonnummern anhand des Deutschen Telefonbuches an. Ein Webcast über die Komponente zur postalischen Korrektur datenfabrik.address kann hier angesehen werden.

Da das Thema Datenqualität immer mehr an Bedutung, insbesondere innerhalb von ETL-Prozessen, gewinnt, werden voraussichtlich immer mehr Komponenten für die Integration Services entstehen, die unter zur Hilfenahme von Referenzdaten die Validierung und Korrektur spezieller Daten ermöglichen.