Azure Purview

Auf dem heutigen (03.01.2020) digitalen Event “Shape your Future with Azure Data and Analytics” hat Microsoft einen neuen Service vorgestellt, den man quasi als den lang erwarteten Azure Data Catalog Gen2 bezeichnen kann. Allerdings nur fast, denn Azure Purview ist viel mehr als nur ein Azure Data Catalog. Microsoft selber sagt, Azure Purview ist ein Cloud Service “for use by data users”.

Im Gegensatz zu dem bisherigen Azure Data Catalogist Azure Purview ein Service, der den gesamten Bereich Data Governance für alle Data Estates im Unternehmen managen soll. Azure Purview bietet dafür die Möglichkeit Daten im Unternehmen zu scannen, zu klassifizieren, mit Sensitivity labels zu kennzeichnen, sie mit speziellen Begriffen aus einem Glossar zu versehen und nicht zuletzt über eine Lineage die Datenherkunft zu visualisieren. Nach der Session von Rohan Kumar über Azure Purview ist das dabei auch nur ein kleiner Teil des bereits geplanten Funktionsumfangs.

In der aktuellen Public Preview, die man sich seit heute in seiner eigenen Azure Subscription deployen kann, werden bereits fast alle relevanten Azure Datenquellen unterstützt:

  • On-premises SQL Server
  • Azure Synapse Analytics (formerly SQL DW)
  • Azure SQL Database (DB)
  • Azure SQL Database Managed Instance
  • Azure Blob Storage
  • Azure Data Explorer
  • Azure Data Lake Storage Gen1 (ADLS Gen1)
  • Azure Data Lake Storage Gen2 (ADLS Gen2)
  • Cosmos DB
Einige Einstellungsmöglichkeiten im Purview Studio sowie auch die Präsentation auf dem Event deuten aber bereits daraufhin, das hier weitere Datenquellen folgen werden.
 
Was ich beim Registrieren von Datenquellen auffällig fand, für ein Data Governance Tool aber auch nur befürworten kann, ist dass sämtliche Quellen über Service Principals / MSI angesprochen werden oder bei der Verwendung von z.B. SQL Auth einen Azure Key Vault vorausgesetzt wird. So ist eine Steuerung von sensiblen Daten direkt in der Applikation durch das AAD gewährleistet.

 

Von der Architektur her basiert Azure Purview auf Apache Atlas. Microsoft schreibt in der Doku entsprechend auch davon, dass Azure Purview über die Apache Atlas API angesprochen werden kann. Leider stehen für die aktuelle Version hierfür aber noch keine Informationen zur Verfügung. Azure Purview selber lässt sich derzeit bereits via PowerShell deployen, sämtliche Konfigurationen innerhalb von Purview lassen sich aktuell aber noch nur über die UI durchführen.

 

Auffällig bei Azure Purview ist, das Microsoft den gleichen Ansatz für die UI verwendet, der mit der Azure Data Factory Gen2 eingeführt wurde und auch in Azure Synapse verwendet wird. Da bereits ein paar Elemente der UI auch von Synapse zurück in die ADF geflossen sind, kann man hier abwarten wie sich die drei Service in der Weiterentwicklung der UI hier auch in Zukunft weiter ergänzen werden.

Bei einigen ersten paar kleineren Test “fühlt” sich Azure Purview schon ganz gut an. Leider findet man auch direkt ein paar kleine Bugs, aber wie gesagt ist die Version auch erst seit heute in Public Preview und es wird noch weiter fleißig daran gearbeitet.

Das für mich spannendste in den nächsten Wochen wird hier mit Sicherheit auch die Preisgestaltung des Service sein. Auch wenn Azure Purview nicht der ADC Gen2 ist, muss sich Microsoft wahrscheinlich darauf einstellen, das Purview immer wieder mit dem ADC verglichen wird. Und so viel es auch am Azure Data Catalog Gen1 zu kritisieren gab, vom Pricing her war Microsoft gegenüber anderen Anbietern unschlagbar günstig. In Teilbereich scheint Microsoft dieses Konzept bei zuhalten und bietet auch für den reinen Data Catalog eine kostenlose limitierte Variante des Azure Purview Data Catalog an. Inwiefern sich dies aber von der beim Deployment zu definierenden Plattformgröße unterscheidet (Capacity Unit), wie der Metadata Speicher da einfließt oder die Integration Runtimes berechnet werden, muss sich noch im Detail zeigen. Aktuell kommuniziert Microsoft nur wehr wenige Preise (Pricing – Azure Purview | Microsoft Azure), die meisten Funktionalitäten sind “Free in preview”. Beim 

In den nächsten Wochen werde ich aber definitiv weiter über Azure Purview und die verschiedenen Möglichkeiten berichten.