Adressvalidierung – DQS Reference Data Services mit MelissaData

vert_colorEines der besten Features innerhalb der Data Quality Services sind die Reference Data Services. Hiermit können Domains oder auch Composite Domains gegen einen auf dem Azure DataMarket gehosteten Data Quality Services validiert und/oder bereinigt werden.

MelissaData, eines der bekanntesten Unternehmen für Datenqualitätssoftware (unter anderem auch für die Integration Services), stellt seit einiger Zeit Daten als Reference Data Services im Azure DataMarket zur Verfügung. Bisher waren die entsprechenden Daten über den DataMarket nur kostenpflichtig in den DQS zu nutzen. Seit einigen Wochen bietet MelissaData den Zugriff für 1.000 Datensätze im Monat kostenlos an. Zeit um einmal genauer zu erklären, wie diese Daten in den DQS genutzt werden können.

Azure DataMarket

Um innerhalb der DQS Daten aus dem Azure DataMarket nutzen zu können, wird ein Account Key benötigt. Der Account Key wird verwendet, um von verschiedenen Applikationen aus auf abonnierte Daten zuzugreifen, ohne einen sonst üblichen Live Account innerhalb der Applikation zu definieren. Auch der Zugriff über Excel auf den DataMarket findet z.B. über Account Keys statt. Innerhalb des DataMarket können belibig viele Account Keys generiert werden. Dies lässt sich sehr gut nutzen, um unterschiedliche Applikationen mit verschiedenen Keys zu bestücken. Sollte somit ein Key z.B. aus Sicherheitsgründen einmal deaktiviert oder gelöscht werden, sind davon nicht gleich alle Applikationen betroffen, die diesen Key verwenden.

Keys werden über My Account > Account Keys generiert.

WindowsAzureMarketplace

 

 

Konfiguration innerhalb der DQS

Die Konfiguration innerhalb der Data Quality Services ist sehr einfach. Innerhalb der Konfiguration des Administrationsbereich wird der Account Key als DataMarket Account ID eingetragen.

image

Über das kleine Icon neben der Textbox kann der entsprechende Key gegen den DataMarket geprüft werden.

image

Die in der Konfiguration angegebene DataMarket URI kaann hier nicht verändert werden. Soll mittels DQS auf Daten zugegriffen werden die nicht im DataMarket zur Verfügung stehen, so besteht zwar eigentlich die Möglichkeit auch auf 3rd Party Reference Data Services zuzugreifen – diese werden im unteren Bereich definiert – eine entsprechende API steht derzeit aber nicht öffentlich zur Verfügung. Aktuell wird dieser Punkt schlicht mit

If you are not connected to the Internet and therefore cannot use Marketplace, DQS also supports direct connection to data providers that are available within your organization’s network. To use reference data from direct online third-party reference data providers, you have to create a record for the data provider in DQS.

beschrieben (Reference Data Services in DQS).

Wird ein entsprechender Key innerhalb der DQS konfiguriert, stehen den DQS automatisch alle Azure DataMarket Data Quality Services zur Verfügung die abonniert wurden.

 

Adressvalidierung mit MelissaData

Für die Prüfung von Daten, erwartet jeder RDS 1-n Domains. Innerhalb der RDS werden diese Domains Schema genannt. Wird mehr als ein Schema erwartet, so muss eine Composite Domain verwendet werden um den RDS richtig zu konfigurieren.

Der DataMarket Data Quality Service von MelissaData kann die folgenden Daten als Eingabedaten verarbeiten:

  • CompanyName
  • FullName
  • AddressLine
  • Suite
  • City
  • State
  • ZIP
  • Plus 4
  • Country

 

Dem Service ist es dabei egal, wie viele Daten übergeben werden. Je mehr Daten jedoch zur Verfügung gestellt werden, so besser ist auch das Ergebnise der psotalischen Bereinigung.

In diesem Beispiel habe ich eine Knowledge Base angelegt, die über mehrere Domains verfügt. Die Domains Address (der Name meiner verwendeten Strassen Domain), Postalcode, City, State und Country sind zusätzlich zu einer Composite Domain zusammengefasst.

image

Innerhalb der Karteikarte Reference Data wird der entsprechende DataMarket Data Quality Service für die Composite Domain konfiguriert.

image

Über den Button Browse in der oberen rechten Ecke werden alle abonnierte DataMarket Data Quality Services angezeigt und das Schema des Service und den jeweiligen Domains innerhalb der Composite Domian zugeordnet.

imageimage

Nachdem das entsprechende Schema des DataMarket Data Quality Service konfiguriert worden ist, muss die Knowledge Base publiziert werden und der Service steht in der Verarbeitung zur Verfügung.

imageimage

Werden aus den Quelldaten alle Domains der KnowledgeBase zugeordnet die in der Composite Domain vorhanden sind, so wird im unteren Bereich der Button View/Select Composite Domain aktiv, über die verwendeten Domains noch einmal angezeigt und/oder deaktiviert werden können.

Stehen die Daten aus der Quelle nicht in einzelnen Domains zur Verfügung, sondern vollständig in einer Spalte, so kann diese auch vollständig der Composite Domain zugeordnet werden. Die Daten werden dann über die Funktionen des DataMarket Data Quality Service geparst und in die unterschiedlichen Domains aufgesplittet.

imageimage

Die Ergebnisse werden wie üblich in den Kategorien Suggested, New, Invalid, Corrected und Correct ausgewiesen.

imageimageimage

Bei der Ausgabe der Daten wird für jede einzele Domain innerhalb der Composite Domain die zusätzlichen Daten

  • Output
  • Reason
  • Confidence
  • Status

 

hinzugefügt. Diese Daten können auf Wunsch auch mit in die Ausgabe übernommen werden.

Die so konfigurierte Composite Domain kann nun auch innerhalb der Integration Services über die Data Quality Services Component verwendet werden. Der Status eignet sich dann sehr gut dafür, um die Daten z.B. mit Hilfe der Conditional Split Component weiter innerhalb der SSIS zu verarbeiten.