Dubletten in Datenbeständen zu finden können die SQL Server Integration Services von Haus aus mit den beiden Fuzzy Tasks. Auch einige freie .NET Implementierungen phonetischer oder Distanz- Algorithmen wie Levenshtein, DoubleMetaphone, Caverphone oder die Kölner Phonetik eignen sich für gewisse Datenmengen sehr gut um doppelte Datensätze zu identifizieren.
Auch Dritthersteller wie Melissa Data, IntelligentSearch Technology und natürlich die datenfabrik GmbH & Co. KG bieten entsprechende SSIS Komponenten an um Dubletten während des ETL Prozesses zu identifizieren. Die Komponenten der einzelnen Hersteller bieten alle unterschiedliche Funktionen und natürlich verschieden Laufzeiten, so können wir mit datenfabrik.dedupe ca. 15 Mio. Datensätze pro Stunde verarbeiten.
Nach dem Identifizieren von Dubletten stehen aus unserer Sicht zwei weitere wesentliche Prozesse für die Verarbeitung von Dubletten an, das Verschmelzen von Dubletten und das Löschen von Dubletten nach speziellen Kriterien.
Für den Prozess des Verschmelzens bieten wir schon seit einiger Zeit die Komponente datenfabrik.merge an, die in der aktuellen Beta Version nun auch eine hierarchische Sortierung einzelner Spalten ermöglicht. Für den zweiten Prozess musste man sich bisher selber mit der Komponente “Bedingtes Teilen” oder eigenen Script Tasks aushelfen.
Auf der diesjährigen SQLCON 2009 stellen wir nun erstmalig unser Produkt datenfabrik.deletix vor. Hiermit ist es möglich Daten anhand spezieller Kriterien wie Herkunft, Priorität oder Sperrung (z.B. Robinsonliste oder Sanktionslisten) zu Löschen oder auch nur zum Löschen zu markieren. Hierfür muss jeder Datensatz um die Spalten Herkunft (frei wählbarer Name), Priorität (ganze Zahle) und Sperrdatei (boolescher Wert) ergänzt werden. Die Daten müssen nach der Dublettengruppe (wird z.B. durch datenfabrik.dedupe erstellt) vorsortiert in die Komponente fließen.
Die Komponente ermöglicht verschiedenste Einstellungen über die Ausgabe der zu löschenden Daten in einem extra Datenausgang, der Ausgabe eines Protokolls als PDF/EXCEL/TIFF oder Speicherung des Protokolls in einem globalen Repository.
Das Protokoll, von uns Abgleichprotokoll genannt, wurde nach Vorgaben des Deutschen Dialogmarketing Verbandes (DDV) entwickelt.
Das Protokoll liefert insgesamt 3 verschiedene Ansichten der verarbeiteten Daten.
Eine detaillierte Dateiliste, die anhand der Spalte “Herkunft” alle Eingabedaten klassifiziert und detailliert reported wie viele Daten von welcher Herkunft in die Komponente eingeflossen sind und wie viele gelöscht werden.
Zusätzlich gibt das Protokoll noch eine Überschneidungsmatrix und eine Eliminationsmatrix aus.
Die Überschneidungsmatrix zeigt alle Dubletten der jeweiligen Herkunft zueinander an. Hierbei werden sowohl auf die Herkunft bezogene interne Dubletten angezeigt wie auch Dubletten zu Sperrungen und anderen Quellen.
Die Eliminationsmatrix zeigt im Gegensatz dazu nur die Dubletten an, die eine Herkunft aufgrund Ihrer Priorität und der Information Sperrung Ja/Nein in einer anderen Herkunft löscht.
Natürlich gibt es auch zu dieser Komponente weitere Information am Stand der datenfabrik GmbH & Co. KG auf der SQLCON 2009.