Große Datenmengen in Power Pivot

    Big Data als Schlagwort gerät hoffentlich bald aus der Mode. Können wir aber große Datenmengen in Power Pivot verarbeiten? Und: Was ist groß?

    Fluginformationen aus den USA

    Das Bureau of Transportation Statistics in den Vereinigten Staaten veröffentlicht statistische Daten, beispielsweise eine Verspätungsstatistik aller amerikanischen Flüge. Diese Datenbank haben wir in Power Pivot geladen und ein Dashboard daraus entwickelt:

    Flug-Dashboard

    Aktuell sieht man die Jahre 2000-2008 und hier insbesondere die Zunahme der Verspätungen und die Zunahme der Flüge. Zu den Top 10 Flughäfen gehört natürlich Atlanta, direkt gefolgt von Chicago. Auch sieht man deutlich, dass man am besten mittwochs oder samstags fliegt – wenig verwunderlich, wie ich finde.

    Datenmengen

    Die Datenbank umfasst alle Flüge, die in den USA gestartet oder gelandet sind, deren Quell- und Zielflughafen sowie die jeweiligen Verspätungen und Verspätungsgründe. Darüber hinaus sind Auswertungen möglich, ob Flüge storniert oder umgeleitet wurden. Insgesamt umfasst die oben gezeigte Datenbank ca. 125 000 000 Datensätze:

    Datenmengen

    Die Datei ist nicht besonders optimiert – viele Daten liegen zur Zeit noch als Zeichenketten vor, da teilweise Angaben mit „N/A“ angegeben wurden – was sich natürlich nicht als Zahl umwandeln lässt. Die Datei ist damit größer, als sie optimiert sein müsste. Die Datei hat zu diesem Zeitpunkt auf der Festplatte eine Größe von 2,3 Gigabyte. Das ist natürlich nicht gerade wenig. Dennoch sind die Daten weiterhin auswertbar.

    Ein 64bit-System ist hier natürlich unumgänglich – diese Zusatzinformation wird in den nächsten 3-5 Jahren aber immer unwichtiger, da 32bit Systeme aussterben.

    Ist das ausreichend?

    Das können wir natürlich nicht mit Ja oder Nein beantworten. Stellen wir die Daten anders dar:

    Eine Auswertung mit einem Horizont länger als 10 Jahre macht für Unternehmen selten Sinn, da sich die Realität zu sehr verändert – 10 Jahre sind schon ein langer Horizont. Wären wir ein produzierendes oder handelndes Unternehmen, müssten wir am Tag knapp 50 000 Packstücke versenden, um auf 125 000 000 Packstücke in einer Auswertung zu kommen (bei 260 Arbeitstagen pro Jahr):

    125 000 000 Packstücke / 10 Jahre / 260 Arbeitstage = 48 076 Packstücke pro Tag

    Das gleiche gilt für Kundenaufträge, Buchungen im Buchhaltungssystem, Arbeitsstunden von Mitarbeitern, Supportanfragen, hergestellte Artikel – und viele andere Daten, die man im Unternehmensalltag auswertet.

    Fazit

    Sie werden damit nicht die Nutzungsstatistik von Google weltweit auswerten können. Auch nicht Telefonate, die die NSA täglich abhört – auch wenn es nur die Metadaten sind…  Die 90% der Datenanalysen, die man in Unternehmen täglich durchführen möchte, sind aber sicherlich gedeckt. Außerdem sind die 125 000 000 Daten aus dem Beispiel nicht die obere Grenze.

    Kategorien: Grundlagen, Power Pivot
    Holger Gubbels

    Holger Gubbels ist Spezialist für alles, was mit Business Intelligence zu tun hat. Der Diplom-Informatiker strukturiert und löst als Data Scientist und Berater der mogular GmbH tagtäglich komplexe Problemstellungen rund um die Datenanalyse. Als Dozent der Hochschule für Technik Stuttgart ist er ein ausgewiesener Experte seines Fachs und gewohnt, Inhalte einfach zu erläutern. Genau das macht er auch hier in seinen Beiträgen für das PowerPivotInsights Blog. Zusätzlich ist er Autor für die Computerwoche und den Springer-Verlag. Sie erreichen ihn unter hg@mogular.com

    Antwort schreiben

    Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.