Lösche nie Spalten in Power Query

    Ein Power-Query-Quicky über die Funktion Spalten wählen und warum es besser ist, Spalten zu wählen als sie zu löschen.

    Du machst eine neue Auswertung…

    …und lädst via Power Query mit einer Abfrage Daten aus einer Datei oder einer Datenbank. Wir alle kennen die Tabellen mit 300, 400 oder 500 Spalten. Die meisten Spalten sind für die Datenanalyse irrelevant.

    Nehmen wir die Tabelle SalesOrderHeader aus der AdventureWorks-Datenbank. Sehr viele Spalten hat die Tabelle zwar nicht. Aber auch hier finden wir beispielsweise folgende Felder, die du für die Datenanalyse nicht benötigst:

    • rowguid: Ein eindeutiger Bezeichner für die Zeile.
    • modifiedDate: Zeitstempel, an dem der Datensatz zuletzt geändert wurde
    • Comment: Eine Bemerkung – solange wir den Inhalt nicht auswerten wollen, brauchen wir die Spalte nicht.

    Spalte markieren + ENTF

    Du weißt, dass unnötige Spalten im Datenmodell die Dateien sehr groß machen und die Performance beeinflussen. Also markierst du unnötige Spalten und löschst diese raus. Genau das musst du dir abgewöhnen!

    Und die Spalten behalten? Nein 🙂

    Änderungen in der Datenquelle

    Ein Datenbank-Administrator beschließt, die oben genannten Felder aus der Tabelle zu löschen. Für die Auswertung benötigen wir die nicht.

    Oder um näher an der Praxis zu bleiben: Du erhälst jeden Monat eine Auswertung von einem Lieferanten oder Dienstleister. Ganz oft als CSV-Datei. Die Datei enthielt schon immer viel Ballast, den niemand benötigt hat. Im nächsten Monat werden in der neuen Datei viele dieser unnötigen Spalten auch nicht mehr geliefert, oder sind umbenannt worden.

    Fehler beim Aktualisieren

    Du kopierst die Datei in den vorgesehen Ordner und aktualisierst dein Datenmodell. Weil so war das Ziel: Jeden Monat auf Aktualisieren drücken und alles passt.

    Die Aktualisierung schlägt aber fehl. Weil Power Query versucht Spalten zu löschen, die nicht mehr da sind. Weil das hattest du gesagt.

    Mit anderen Worten: Das Datenmodell ist fehlerhaft, weil Spalten nicht mehr geliefert werden, die du ohnehin gelöscht hast, weil du diese nicht benötigst…

    Wie man Spalten löscht

    Denke Positiv: Welche Spalten will ich? Und dann verwende immer die Funktion Spalten auswählen:

    Funktion Spalten wählen in Power Query

    Mit dieser Funktion wählst du Spalten aus, die du weiterverwenden möchtest. Alle anderen Spalten sind nach dieser Transformation nicht mehr enthalten. Eine Änderung hat dann folgende Auswirkungen:

    • unnötige Spalte umbenannt: Macht nichts. Da die Spalte nicht explizit gelöscht wird ist der Name nicht relevant
    • unnötige Spalte nicht vorhanden: Macht auch nichts. Wir greifen auf die Spalte nicht zu
    • neue nicht benötigte Spalte: Die Daten werden automatisch nicht importiert. Der Lieferant kann immer mehr Spalten liefern. Dein Datenmodell wird nicht größer dadurch

    Wenn natürlich relevante Spalten umbenannt oder geändert werden, dann musst du natürlich was ändern.

    Kategorien: Artikel, Funktionen, Power Query
    Holger Gubbels

    Holger Gubbels ist Spezialist für alles, was mit Business Intelligence zu tun hat. Der Diplom-Informatiker strukturiert und löst als Data Scientist und Berater der mogular GmbH tagtäglich komplexe Problemstellungen rund um die Datenanalyse. Als Dozent der Hochschule für Technik Stuttgart ist er ein ausgewiesener Experte seines Fachs und gewohnt, Inhalte einfach zu erläutern. Genau das macht er auch hier in seinen Beiträgen für das PowerPivotInsights Blog. Zusätzlich ist er Autor für die Computerwoche und den Springer-Verlag. Sie erreichen ihn unter hg@mogular.com

    Antwort schreiben

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.