SQL Server “Denali” Data Quality Services – Teil 1

Nun hab ich endlich mal ein bisschen Zeit gefunden, um mich mit den Data Quality Services aus der aktuellen SQL Server “Denali” CTP3 zu beschäftigen und werde dazu (hoffentlich) in den nächsten Tagen weitere Beiträge veröffentlichen können. Der erste Teil enthält einen kleinen Überblick zu den DQS zusammen mit ein paar Tipps zur Installation.

DQS – von Microsoft als “knowledge-driven data cleansing solution” bezeichnet – ermöglicht die Bereinigung und Deduplizierung von Daten. Dafür kann entweder eine der mit ausgelieferten Knowledge Base verwendet oder ein eigene Knowledge Base angelegt werden. Eine entsprechende KB ist in anderen Projekten wiederverwendbar.

Mit der CTP3 wurden die DQS zum ersten mal öffentlich zur Verfügung gestellt. Ein Vorversion stand schon im Rahmen der CTP2 einem ausgewählten Benutzerkreis zur Verfügung.

Im SQL Server Team Blog findet sich der Artikel New and Exciting in SQL Server Code Name “Denali”: Knowledge Driven Data Quality Services (DQS) inkl. eines Videos von David Faibush (Senior Programm Manager des Data Quality Services Team), in dem er ein bisschen auf die Vorteile der Lösung eingeht.

 

Data Quality Services–What’s new in SQL Server Denali

 

Installation

Die Installation der DQS im Denali erfolgt über den Standard Installations-Wizard.
Nach der Installation muss derzeit jedoch noch ein zusätzliches Installation Script über die Anwendung “DQSInstaller.exe” ausgeführt werden, mit dem die entsprechende Datenbanken und Rollen angelegt werden. Die entsprechende Datei befindet sich im Verzeichnis C:Program FilesMicrosoft SQL ServerMSSQL11.MSSQLSERVERMSSQLBinn.

Eine genaue Installationsanleitung ist in der MSDN zu finden.

Aufpassen muss man jedoch ein bisschen bei der Installation des SQL Server. Aktuell lädt das Setup des SQL Server “Denali” während der Installation standardmäßig zwei Produkt-Updates herunter. Das entsprechende Update kann während der Ausführung des Installationsscriptes “DQSInstaller.exe” zu einem Fehler führen, so dass die Installation nicht erfolgreich beendet werden kann. Nach Möglichkeit sollte dieses Update/Hotfix also nicht mitinstalliert werden.

Ist das Update bereits installiert, muss über das Windows Update der HotFix 1515 für SQL Server deinstalliert werden, um eine erfolgreiche Installation zu gewährleisten. Dieses Problem und die dazugehörige Lösung ist recht gut im innerhalb des Microsoft Forums SQL Server “Denali” Data Quality Services (Pre-Release) erklärt.

Sind die DQS erfolgreich installiert worden, so kann man sich über einen der durch das SQL Server Setup installierten Clients (x86/x64) mit den DQS verbinden.

Spielt man mit den DQS Client ein bisschen herum, so kommt man bei der CTP3 unter umständen an einem Punkt folgende Fehlermeldung angezeigt, obwohl der DQS Client vorher Daten aus der Datenbank laden konnte:

image

Um dieses Fehler zu beheben, muss den beiden SQL Server Logins ##MS_dqs_db_owner_login## und ##MS_dqs_service_login## Zugriff auf die jeweiligen Schemata in der Datenbank gewährt werden, dies sind bei der AdventureWorks200R2 z.B. HumanResources, Person, Production, Purchasing und Sales.

 

image

Falls weitere Fehler beim Anmelden and die DQS auftreten, so kann dies auch mit einigen .NET Updates zusammenhängen. In diesem Fall sollte man dann noch einmal einen Blick auf die Microsoft SQL Server Code-Named “Denali” CTP3 Release Notes, speziell auf den Bereich 4.23 Some .NET Framework 4 Updates Might Cause DQS to Fail, werfen. Diese Fehler können auch später durch Updates nach einer bereits erfolgreichen Installation und einem ersten Testing auftreten

Weitere Ressourcen zum Thema DQS: