Data Profiling – Teil 3 – Regeln im datenfabrik.profiler

Was der Sinn hinter einam Data Profiling ist und wie es helfen kann u.a. Datenintegrationsprojkete besser zu steuern, habe ich kurz im ersten Teil dieser Serie geschrieben. Regeln sind dabei ein Kernstück eines jeden Data Profilers; hierüber werden Statistiken für die zu analysierenden Spalten vorgenommen.
Mit verschiedensten Regeln soll unter anderem folgende Probleme/Fragen erkannt werden:

  • Passt der Inhalt einer Spalte zu ihrem Bezeichner?
  • Welche Datentypen werden verwendet?
  • Wie lang sind die Inhalte einer Spalte?
  • Existieren Fehler wie ungültige Datumsangaben (31.02) in der Quelldatenbank?
  • Werden Standardwerte in der Quelldatenbank verwendet?
    Z.B. ein außergewöhnlich häufiges vorkommen des Datums 01.01.1950?
  • Entsprechen Werte einem definierten Muster?
  • Kann ich Muster aus Werten ableiten?
  • Werden eindeutige Referenzierungen verwendet?
  • Sind 15 verschiedene Anreden richtig?

 

Der datenfabrik.profiler ist mit einer Vielzahl von Regeln ausgestattet um auf genau solche Fragen einzugehen. Dabei werden sowohl die standard Regeln die in einem Profiling benötigt werden verwendet, wie auch einige erweiterte Regeln. Im Folgenden ist eine kleiner Teil der enthaltenen Regeln näher erklärt.

 

Dictionary_24 Dictionary

Die Regel Dictionary prüft Daten innerhalb des Datenflusses gegen ein zuvor definiertes Wörterbuch, ähnlich dem Lookup Task innerhalb der Integration Services. Die Regel prüft die zu analysierenden Daten gegen ein frei definierbares Dictionary und erstellt Statistiken zu den entsprechenden Treffern und den nicht getroffenen Datensätzen.

 

Key candidate_24

 Key Candidate Profile

Nicht immer ist es ersichtlich, welche Spalten innerhalb der analysierten Daten Schlüsselwerte aufweisen oder ob sichergestellt werden kann, ob eine Spalte wirklich eindeutige Werte enthält. Mit der Regeln Key Candidate Profile können detaillierte Informationen darüber gewonnen werden, welche Spalten wirklich eindeutige Werte enthalten und sich entweder für entsprechende Key eignen oder ggf. Fehler – also doppelte Werte – enthalten.

 

Length Distribution_24  Length Distribution

Einen Überblick über die genaue Länge der enthaltenen Werte einer Spalte zu erhalten, kann ich vielen Situationen sehr relevant sein. Kundennummern oder Artikelnummern müssen häufig über eine identische Länge verfügen aber auch zu kurze oder zu lange Werte können einen Hinweis auf fehlerhafte Daten liefern. In dem Blog Eintrag Rufnummern mit Referenzdaten sauber trennen habe ich z.B. auf die von der ITU vorgeschriebene Länge von Rufnummern hingewiesen.

 

PatternAnalysis_24

 Pattern Analysis

Muster innerhalb spezieller Spalten zu erkennen kann sehr relevant für die Bereinigung von Daten sein. Die Regel Pattern Analysis erstellt Muster für eine zu analysierende Spalte und gibt eine Verteilung der Daten zu den jeweiligen Mustern aus. Dabei repräsentieren spezielle Buchstaben die einzelnen Zeichen innerhalb der zu analysierenden Daten. So wird z.B. eine deutsche Postleitzahlen über das Muster ddddd repräsentiert (d = Decimal), die fiktive Artikelnummer A765B über das Muster UdddU (U = Upper Case).

 

Column Value_24

  Column Values

Über die Regeln Column Values kann allgemein analysiert werden, welche Werte in einer Spalte existieren. Dies kann z.B. verwendet werden, um in Spalten wie der Anrede eines Kunden oder der Größe eines Produktes einen Überblick über die verwendeten Werte zu erhalten.

 

Regular Expression_24 Regular Expressions

Während die Regel Pattern Analysis einen Überblick über die Muster innerhalb einer Spalte gibt, kann mit der Regel Regular Expression ein bereits bekanntes, sehr detailliertes Muster überprüft werden. So kann z.B. mit einem regulären Ausdruck geprüft werden, wie viele Email-Adressen innerhalb einer Spalte gültig sind und wie viele Adressen ungültig.
Die Regel kann vom Benutzer um eigene reguläre Ausdrücke erweitert werden, so dass auch eigene Muster für Kundennummer, Artikelnummern usw. analysiert werden können.

 

Doublemetaphone_24

 Doublemetaphone Frequency Table

Die Regel Doublemetaphone Frequency Table ist eine Erweiterung der Regel Column Values. Während bei der Regel Column Values nur wirklich eindeutige Werte zusammengefasst werden, wird mit der Regel Doublemetaphone Frequency Table eine Verteilung der Werte erstellt, die den gleichen Phonetischen Code nach dem Algorithmus Doublemetaphone aufweisen.

 

chart_gantt_24  Value Range

Häufig ist es relevant zu prüfen, ob sich die Werte einer Spalte innerhalb fest definierbarer Bereiche befinden. Mit der Regel Value Range wird die Verteilung von Werten auf vorher definierte Wertebereiche analysiert. Mit dieser Regeln können schnell Ausreißer innerhalb von Daten entdeckt werden.

 

SpellChecker_24  Spell Checker

Während die Regel Doublemetaphone Erkenntnisse darüber bringt welche Werte ähnlich geschrieben sind, kann mit der Regel Spell Checker genau geprüft werden, ob sich Rechtschreibfehler innerhalb einzelner Spalten befinden. Dies kann zum Beispiel dazu genutzt werden um Produktbeschreibungen zu prüfen. Die Regel verwendet die unter der LGPL stehende Software-Bibliothek NHunspell und kann damit auf eine Vielzahl von bereits bestehenden Wörterbüchern in den unterschiedlichsten Sprachen zugreifen.

 

Die von mir ausgewählten Regeln sollen lediglich einen Überblick über Regeln innerhalb des datenfabrik.profilers geben, die so nicht unbedingt in anderen auf dem markt bestehenden profilern existieren. Der gesamte Funktionsumfang der Regeln ist auf der Produktseite zu finden.