DQS Domain Value Import

Nachdem wir vor ungefähr einem Monat mit der SSIS DQS Matching Transformation bei Codeplex die erste Open Source SSIS DQS Komponente veröffenticht haben, haben wir heute mit der Komponente SSIS DQS Domain Value Import eine weitere SSIS DQS Komponente auf Codeplex veröffentlicht.

Die DQS Domain Value Import Komponete ermöglicht es Daten aus verschiedenen Quellen in eine bestehende DQS Knowledge Base als Domain Values zu importieren. Zusätzlich zu der Datenflusskomponente enthält das Projekt auch einen Kontrollflusstask, um eine im Modus Domain Management geöffnete Knowledge Base zu veröffentlichen.

image

Konfiguration

Bei der Konfiguration der Komponten müssen verschiedene Einstellungen zu den Data Quality Services vorgenommen werden. Hierzu wird ein Data Quality Connection Manager definiert und aus den Data Quality Services die entsprechende Knowledge Base und die Domain ausgewähllt.

SNAGHTML21ee2ccc

In einem weiteren Schritt muss das Mapping der Eingangsspalten zu den DQS Werten definiert werden; es können insgesamt 3 verschiedene Eingangsspalten zugeordnet werden.
Als erstes – und an dieser Stelle auch als einziges Pflichtfeld – muss der sogenannte Leading Value definiert werden. Dieser Wert definiert den zu importieren Domain Value, also einen Wert der vom Typ Correct/Error/Invalid ist und nicht in einen anderen Wert korrigiert wird; wobei ein Leading Value natrülich einen Korrekturwert darstellen kann.

image

Über den Type wird definiert ob ein Wert Richtig, Fehlerhaft oder Ungültig ist. Hierfür muss die Eingangsspalte vom Datentyp Integer sein. Mögliche Importwerte sind 0 (Richtig), 1 (Fehler) und 2 (Ungültig). Wird ein anderer Importwert zugewiesen, so tritt ein Fehler innerhalb der Ausführung auf.

Der Type ist ein optionaler Wert, ist keine Eingangsspalte zugeordnet, werden alle Leading Values als Richtig gekennzeichnet.

Ist dem Leading Value ein Synonym zugeordnet, so wird der Type ignoriert und der Leading Value ebenfalls automatisch als Richtig gekennzeichnet, der Synonym-Wert automatisch als Ungültig. Enthält die zugeordnete Einganagsspalte für das Synonym NULL Werte oder einen leeren Text, so greift wieder der zugeordnete Type bzw. der Leading Value wird automatisch als Richtig definiert.

image

Incorrect Values

Fehler innerhalb der Komponente können auf drei verschiedenen Arten verarbeitet werden.

image

Die Standardeinstellung der Komponente ist Fail Component. Hierduch wird die Ausführung des SSIS Pakets beendet, sofern ein Fehler aufgetreten ist. Mit der Einstellung Ignore Failure werden Fehler die beim Import der Daten auftreten ignoriert. Sowohl für die Einstellung Fail Component wie auch Ignore Failure besteht die Möglichkeit Fehler als Warnungen in das Ausführungsprotokoll zu schreiben.

SNAGHTML2440e2ae

SNAGHTML24431abf

Die dritte Möglichkeit ist die Umleitung fehlerhafter Datensätze in einen ErrorOutput. Die fehlerhaften Datensätze können so weggeschrieben und noch einmal nachträglich manuell überprüft/bewertet werden. Zusätzlich zu den original Eingagsdaten wird hier noch die Spalte ExceptionMessage dem Datnfluss hinzugefügt, in der der genaue Fehler der DQS protokolliert wird.

Veröffentlichen der Knowledge Base

Nach dem die Domain Values in eine Domain geschrieben worden sind, muss die Knowledge Base (KB) veröffentlicht werden. Ohne eine Veröffentlichung kann die Knowledge Base mit den neuen Daten in keinem Projekt verwendet werden, sämtliche Projekte verwenden ohne eine Veröffentlichung weiterhin den bisherigen Datenstand.

Die Komponente DQS Domain Value Import kann die Knowledge Base in die importiert wird nach dem Import direkt veröffentlichen. Hierzu besteht die Möglichkeit die Knowledge Base immer zu veröffentlichen, oder nur wenn keine Fehler aufgetreten sind. Selbstverständlich kann die Kompoennte auch so eingestellt werden, dass die Knowledge Base nicht veröffentlicht wird.

image

Auch wenn eine Möglichkeit Always Publish existiert, so gibt veröffentlicht die Komponente die Knowledge Base nicht in jeder Situation. Ist die Komponente auf Fail Component eingestellt, so wird die Ausführung des SSIS Pakets abgebrochen bzw. der Datenfluss innerhalb des Paketes wird als fehlerhaft gekennzeichnet. In dieser Situation wird die KB nicht veröffentlicht.

Um eine Veröffetnlichung der Knowledge Base außerhalb des Datenflusses durchzuführen, gehört zu dem Projekt SSIS DQS Domain Value Import zusätzlich noch der Kontrollflustask Publish DQS Knowledge Base Task. Mit diesem Task kann eine Knowledge Base die im Modus Domain Management geöffnet ist veröffentlicht werden.

image

image