Star-Schema via Power Query

    Power Query ist ein weiteres, sehr wertvolles Werkzeug, welches seit Excel 2013 Teil der Excel-Familie ist. Im letzten Artikel haben wir gezeigt, wie man via DAX aus einer flachen Textdatei ein Star-Schema bastelt. Das ganze geht auch mit Power Query.

    Power Query

    Power Query findet sich, sofern aktiviert, im Menü von Excel 2013 in einem eigenen Reiter:

    Power Query im Menü

    Ähnlich wie im Power Pivot Fenster kann man hier Datenquellen verbinden – sogar mehr, als Power Pivot momentan unterstützt. Via Aus Datei können wir eine Textdatei importieren. Die Dialoge sind selbsterklärend. Das Ergebnis ist allerdings neu – es öffnet sich ein neuer Dialog: der Power Query Editor.

    Power Query Editor

    Die importierten Daten werden angezeigt und können bearbeitet werden. Auf der rechten Seite unter Angewendete Schritte ist eine Liste mit allen Transformationen, die man selbst oder in diesem Fall Power Query bereits automatisch durchgeführt hat.

    Die Produktdimension extrahieren

    Wie im vergangenen Artikel extrahieren wir zuerst die Produktdimension. Dazu löschen wir alle Spalten, die wir für die Produktdimension nicht benötigen. Das ist intuitiv: Einfach Spalte/n markieren und auf Entfernen drücken – damit bleiben:

    Löschen von Spalten

    In der Liste der angewendeten Schritte findet sich jetzt RemovedColumns.

    Dubletten

    Die Liste enthält jetzt natürlich Dubletten und ist so nicht als Dimension verwendbar. Dubletten eliminieren ist allerdings für Power Query eine leichte Übung – dafür gibt es eine eigene Funktion:

    Duplikate entfernen

    Ab ins Datenmodell

    Auf der rechten Seite finden sich Eigenschaften der Abfrage – beispielsweise der Name. Den Namen ändern wir in DimProduct. Ganz unten entscheiden wir, ob die Ergebnisse in eine Arbeitsmappe importiert werden oder nur ins Datenmodell. Wir wählen In Datenmodell laden und schließen Power Query via Anwenden und Schließen. In der Excel-Arbeitsmappe hat sich nichts getan.

    Aber im Power Pivot Modell:

    Power Pivot Datenmodell

    Hier finden wir unsere Dimensions-Tabelle und können mit ihr weiter arbeiten. Das gleiche wird jetzt wiederholt für andere Dimensions- und Faktendaten – und dann können wir auf diese Weise ein Star-Schema aufbauen.

    Immer Power Query?

    Via Power Query haben wir eine weitere Methode, Daten in unser Excel-Datenmodell zu laden (oder direkt in eine Arbeitsmappe). Der Vorteil von Power Query ist, dass die Daten unterwegs transformiert werden können – ohne, dass man sich mit SQL-Befehlen etc. herumschlagen muss. Das bedeutet nicht, dass wir jetzt alle Importe via Power Query machen. Der zusätzliche Weg bedeutet natürlich auch Performance-Einbußen.

    Neben der Möglichkeit Daten zu transformieren bietet Power Query momentan aber auch mehr Datenverbindungen – beispielsweise zu Facebook-Daten, die man auch auswerten kann. Das ist aber Inhalt eines späteren Artikels.

    Kategorien: Datenverbindungen, Grundlagen, Modellierung, Power Query
    Holger Gubbels

    Holger Gubbels ist Spezialist für alles, was mit Business Intelligence zu tun hat. Der Diplom-Informatiker strukturiert und löst als Data Scientist und Berater der mogular GmbH tagtäglich komplexe Problemstellungen rund um die Datenanalyse. Als Dozent der Hochschule für Technik Stuttgart ist er ein ausgewiesener Experte seines Fachs und gewohnt, Inhalte einfach zu erläutern. Genau das macht er auch hier in seinen Beiträgen für das PowerPivotInsights Blog. Zusätzlich ist er Autor für die Computerwoche und den Springer-Verlag. Sie erreichen ihn unter hg@mogular.com

    Antwort schreiben

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.