Vor ein paar Wochen hat Microsoft einem ersten Benutzerkreis Zugang zu ihrem neuen “Data Explorer” Cloud Service gewährt. Am 13.12. wurde der SQL Azure Labs Codename “Data Explorer” Client in einer öffentlichen Variante nachgelegt.
Der “Data Explorer” ist eine Anwendung, mit der Daten aus verschiedenen Daten geladen, konvertiert, angereichert und wieder ausgegeben werden können. Wer jetzt an ein ETL Tool denkt, der liegt meiner Ansicht nach eigentlich gar nicht so verkehrt. Jedoch handelt es sich bei dem “Data Explorer” nicht um eine komplexe “Workflow-Engine” mit der vollständig automatisierte Prozesse inkl. Fehlerbehandlung usw. aufgesetzt werden können, sondern eher um ein Programm, das zum bearbeiten und verarbeiten einzelner, gezielter Datenquellen dient.
Mit dem Data Explorer werden sogenannte Mashups erstellt, die Daten aus den verschiedensten Quellen konsumieren können. Hierzu gehören SQL Datenquellen, Web-Seiten, Data Feeds, Sharepoint Listen, der Windows Azure Marketplace, verschiedene Dateien wie Excel oder CSV, Data Explorer Mashups, die direkte Texteingabe oder Daten die über Formeln generiert und geladen werden. Dateien können nicht nur vollständig importiert werden, sondern es kann auf diese auch verlinkt werden, wodurch dann auch Änderungen aus den Quellen übernommen werden.
Der “Data Explorer” besitzt eine Vielzahl von Funktionen, mit denen die Daten verarbeitet werden können, derzeit sind diese in die Kategorien “Filter”, “Order”, “Column Names” und “Transform” gruppiert. Hierunter befinden sich z.B. Funktionen wie Umbenennen, Löschen von Zeilen oder Spalten, Zusammenführen oder Trennen von Spalten oder auch z.B. eine Funktion namens “Fill Down”, mit der NULL Werte in einer Spalte mit einem speziellen Wert aufgefüllt werden können.
Sehr nett finde ich die Verwendung der aus dem Web bekannten “Breadcrumbs” als Navigation für die Verarbeitungshistorie der Daten.
Der Anwender kann über diese Breadcrumbs an jede beliebige Stelle innerhalb der einzelnen Schritte zurückspringen oder einzelne Verarbeitungsschritte löschen.
Die mit dem Client erstellten Daten können derzeit nur als “.import”-Datei gespeichert werden, einem Austauschformat zwischen den Clients oder der Azure Version. Mit der Installation des Clients wird aber auch ein Excel Plugin installiert, mit dem Daten direkt aus den Workspaces des lokalen Data Explorers in Excel importiert werden können. Über die Azure-Version können Mashups auch online publiziert werden. Die so publizierten Mashups stehen als OData Feed zur Verfügung oder können direkt als Excel und CSV Datei heruntergeladen werden.
Allgemein finde ich den Data Explorer einen sehr guten Ansatz um Daten aufzubereiten. Speziell die Möglichkeit Daten über die integrierte Formula Language zu laden bietet einem umfangreiche Möglichkeiten. Derzeit reagiert die Client Version leider noch ein bisschen träge.
Auf der Seite Learn More about Microsoft Codename “Data Explorer” hat Microsoft umfangreiche Videos zur Verfügung gestellt, die einen sehr guten Einblick in das Programm liefern. Jamie Thomson hat in seinem Blog mit Data Explorer walkthrough – Parsing a Twitter list und Querying RSS feed subscriber count on Google Reader using Data Explorer auch zwei sehr gute Artikel veröffentlicht, die intensiver auf die integrierte Formula Language eingehen.