Exonym – The Art in Data Matching

In seinem neusten Blog Eintrag hat Hendrik Liliendahl unter dem Titel “The Art in Data Matching” einmal sehr gut die Problematik unterschiedlicher Schreibweisen von Ortsbezeichnern aufgegriffen.

In dem Artikel geht es um einen doppelten Kundeneintrag, der in der Datenbank einmal in flämisch und einmal in französisch vorkommt. In den beiden Sprachen sind die jeweiligen Adressbestandteile Straße und Ort unterschiedlich geschrieben, so dass eine normale phonetische Suche keine Chance hat diese Datensätze zu finden:

Flämisch:        Kunstlaan no 99, Brussel
Französisch:   Avenue des Arts no 99, Bruxelles

Dieses Problem tritt neben Belgien aber auch in anderen Ländern mit mehreren Amtssprachen wie Luxemburg oder der Schweiz auf. Auch in England begegnen einem in Wales zweisprachige Ortsbezeichner, auch wenn diese eigentlich nicht im Schriftverkehr eingesetzt werden.

Das beschriebene Problem ist in mehrsprachigen Ländern geläufig – was es für das Data Matching jedoch nicht einfacher gestaltet. Was jedoch nicht so häufig bedacht wird, ist, das es auch in der deutschen Sprache entsprechende fremdsprachige Ortsbezeichner geben kann. Eine Ortsbezeichnung die in einer anderen Sprachen als der eigenen geläufig ist, wird im Allgemeinen Exonym genannt. Hier drunter fallen im deutschen Sprachraum zum Beispiel Ortsnamen wie Cologne <-> Köln , Munich <-> München oder aber auch Aix-la-Chapelle <-> Aachen. Und nicht nur in Deutschland, eigentlich in allen anderen Ländern treten entsprechende Ortsbezeichner auf:

Vienna <-> Wien
Basle <-> Basel
Liége <-> Lüttich
Strasbourg <-> Straßburg

Einige dieser Exonyme sollten mit phonetischen Algorithmen natürlich erkannt werden, bei anderen ist dies aber unmöglich, wie man am Beispiel von Aachen sieht. Stellt nun der Straßenname auch noch ein Exonym dar, kann ein phonetischer Vergleich der Adresse auch bei kleineren Unterschieden in der Schreibweise keine guten Treffer mehr hervorbringen.

datenfabrik.addressEntgegenwirken kann man dieser Problematik zum Beispiel mit unseren SSIS Komponenten datenfabrik.address und datenfabrik.dedupe. Mit datenfabrik.address können direkt im Datenfluss Adressdaten für über 240 Länder und Regionen bereinigt werden. Hierfür stellen wir zusammen mit unserem Datenpartner stets aktuellste Daten zur Verfügung, je nach Land sogar bis auf Hausnummernebene herunter.

Zu der Bereinigung der Adressdaten gehört eine Standardisierung der Schreibweisen in die jeweilige Landessprache oder auch in die englische Sprache. Bereits in den Daten enthaltene Exonyme werden entsprechend von datenfabrik.address während des Korrekturprozesses in die Zielsprache übersetzt.

SNAGHTML26c6a964

 

datenfabrik.dedupeDie Überführung der Ortsbezeichner in eine einheitliche Sprache verbessert die Suchergebnisse mit einer phonetischen Software, wie zum Beispiel mit unserem Produkt datenfabrik.dedupe, und erhöht die “True Positive” Ergebnisse. Neben der Übersetzung der Ortsbezeichner, verbessert aber auch schon die reine Standardisierung der Ortsbezeichner (Straße, Strasse, Str.) die Treffer erheblich.

Ein zusätzlicher nicht zu verachtender Punkt aus der Datenqualitätsperspektive bei unterschiedlichen verwendeten Sprachen innerhalb der Anschrift ist die Sprache des entsprechenden Kontaktes. Zwar vereinfacht die Standardisierung der Adressdaten das Auffinden von doppelten Datensätzen, jedoch sollte gut überlegt werden, ob die vereinheitlichte Sprache auch in die Zieldatenbank übernommen werden sollte. Gerade in Ländern wie Belgien oder Schweiz werden die entsprechenden Sprachen bewusst gewählt, so dass an dieser Stelle die Ansprache des Kunden mit der “richtigen” Adresse auch ein Qualitätsmerkmal darstellt.