Um in Purview auf Datenquellen zuzugreifen, müssen diese vorab registriert werden. In der aktuellen Public Preview stehen nur Azure Datenquellen sowie der Microsoft SQL Server (Azure VM oder lokal) zur Verfügung. Azure Database for PostgreSQL/MySQL/MariaDB werden noch nicht unterstützt.
Im Menüpunkt Sources kann über die Option Register eine neue Datenquelle registiert werden. Je nach Datenquellen kann diese entweder direkt über eine Subscription ausgewähl werden oder über die manuelle Angabe der entsprechenden Connection Informationen. Neben den Connection Informationen können auch Collections zur weiteren Strukturierung der Datenquellen angegeben werden. Die Registierung einer Datenquelle erfordert erstmal keine weitere Angabe von Credentials, diese werden erst bei der Einrichtung eines Scans notwendig.
Ein Scans kann auf der Detail-Seite der Datenquelle eingerichtet werden. Für die Credentials ist standardmäßig immer die Purview MSI vordefiniert. Eine Manged Identity für solche Aufgaben zu verwenden ist grundsätzlich der beste Weg. Die entsprechende MSI benötigt für das Scannen entsprechende Berechtigungen und muss hier vorerst noch registiert werden. Der Name, die Object ID sowie die Application ID für die Konfiguration werden direkt im entsprechenden Screen bereitgestellt. Für eine detaillierte Konfiguration der einzelnen Quellen empfehle ich die Seite Create and manage credentials for scans – Azure Purview.
Möchte oder kann man keine Managed Identity verwenden, so kann der Zugriff auch über eigene Credentials erfolgen. Hierzu komme ich noch einmal detaillierte im Security Post. Wichtig an dieser Stelle, das Thema Data Governance wurde hier aus meiner Sicht von Microsoft konsequent zu Ende gedacht und Credentials bzw. die dazugehörigen Passwörter können nur über einen Azure Keyvault gespeichert werden. Dieser ist vorab anzulegen und der Purview MSI muss natürlich auch entsprechende Berechtigungen gegeben werden.
Je nach Quelle kann weiter definiert werden, welche Objekte (Datenbanken, Ordner, …) genau gesannt werden sollen. Danach kann noch ein Scan Rule set (weitere Informationen folgen) und der entsprechende Trigger für den Scan definiert werden. Ein Scan kann entweder einmalig oder regelmäßig durchgeführt werden.
Der Scan startet nach den Einstellungen automatisch, einmalig durchgeführte Scans können jederzeit über die Details der Quellen neu gestartet werden.
Besonders spannend bei den Datenquellen finde ich die Möglichkeit lokale SQL Server oder auch auf einer Azure VM gehostete SQL Server zu scannen. Hierfür muss eine Self-Hosted Integration Runtime installiert und konfiguriert werden. Wer bereits mit der Azure Data Factory arbeitet, wird diesen Service voraussichtlich schon kennen. Weitere Informationen sind ansonsten hier zu finden: Create a self-hosted integration runtime – Azure Data Factory
Auch wenn eine Azure Data Factory in Azure Purview definiert werden kann, besteht nicht die Möglichkeit eine SHIR über die ADF zu nutzen bzw. hier auf eine Shared Self Hosted Integration Runtime zuzugreifen. Dies mach die Konfiguration in einigen Umgebungen ggf. ein bisschen schwieriger, da pro VM nur eine SHIR installiert werden kann. Greift man also bereits mit einer ADF auf lokalen Quellen zu, so muss man zwei Server / VM mit konfigurierten SHIR betreiben.
Nach Abschluss des ersten Scans stehen die definierten Quellen Bereich Browse assets zur Verfügung.
Die entsprechenden Datenquellen können natürlich auch direkt über die Suche im oberen Bereich des Azure Purview Studios durchsucht werden. Auf die Ergebnisse der Suche gehe ich in einem späteren Beitrag noch einmal detaillierter ein.
Sehr interessant an dieser Stelle ist auch die Darstellung des Data Factory Assets. Dies kann jedoch nicht über die Quellen definiert werden, sondern muss im Management Center über die External Connections definiert werden. Ein eigener Scann kann hierfür nicht eingerichtet werden. Aktuell können über die ADF Lineages für Copy Activities, Data Flow Activities sowie Execute SSIS Package Activities erstellt werden. Neben der Azure Data Factory kann für die Lineage auch Azure Data Share mit Share Snapshots verwendet werden.