Skip to content

Datenaufbereitung, Datenbearbeitung, Datenvisualisierung und Datenanalyse mit Python

Notifications You must be signed in to change notification settings

manfred2020/DA_mit_Python

Repository files navigation

Generic badge Maintenance Generic badge License: CC BY-NC 4.0 Generic badge Generic badge

Datenanalyse mit Python

Datenaufbereitung, Datenbearbeitung, Datenvisualisierung und statistische Datenanalyse mit Python

/ Inhaltsübersicht / Infos zu den Inhalten /


Inhaltsübersicht

Kapitel 1: Grundlagen... (kommt noch)

Schwerpunkt: Pandas

Kapitel 2: Dataframe erstellen und speichern

Kapitel 3: Fehlende Werte, Werte außerhalb des Skalenbereichs, Zeilenduplikate

Kapitel 4: Daten laden und Dataframe Basisinfos

Kapitel 5: Deskriptive Analyse

Kapitel 6: Daten gruppieren, sortieren, filtern

Kapitel 7: Kreuztabellierung

Kapitel 8: Variablen umkodieren

Kapitel 9: Variablen berechnen

Kapitel 10: Variablen bzw. Dataframes transformieren

Kapitel 11: Einfache grafische Datenanalyse

Kapitel 12: Mehrfachantworten auswerten

Schwerpunkt: Spezifische Module zur statistischen Datenanalyse und Visualisierung

Kapitel 13: ...

/ zum Anfang /


Infos zu den Inhalten

Weitere Kapitel (in Summe wohl 21) werden folgen. Ev. ein Kapitel pro Woche oder so... Die meisten Kapitel sind fertig, bedürfen jedoch noch einer Durchsicht und Überprüfung, bevor sie hochgeladen werden.

Die einzelnen Kapitel liegen als Jupyter Notebooks vor und werden mit nbviewer im Browser angezeigt (die Links am besten in neuem Tab öffnen). Bis eine hier auf GitHub aktualisierte Version eines Notebooks im nbviewer korrekt angezeigt wird, können einige Stunden vergehen (manchmal auch mehr als ein Tag).

Neben dieser Ansicht der Notebooks wird es künftig auch möglich sein, die Notebooks interaktiv über den Browser durchzuarbeiten. Dazu dann einfach in der nbviewer Ansicht rechts oben auf das Execute on Binder Symbol (die drei roten Ringe) klicken (vgl. folgenden Screenshot aus Firefox).

Screenshot nbviewer

/ zum Anfang /



Hintergrundinfo

Im Jahr 2019 habe ich wiedermal damit begonnen, mich mit Python zu befassen. Diesmal aber nicht - wie 10 Jahre zuvor schon mal - zum Zweck der Programmierung, sondern zum Zweck der Datenvisualisierung, in weiterer Folge dann auch der Datenbearbeitung und statistischen Datenanalyse.

So entstanden im Lauf der Zeit zahlreiche Codezeilen, Scripts, Vorlagen für div. Grafiken bzw. Analysen - irgendwann dachte ich, daraus ließe sich wohl eine Art Skriptum machen. Vor allem natürlich als Nachschlagewerk für mich selbst - im Gegensatz zu gebräuchlicher Statistiksoftware wie SPSS (da gibt's Literatur zu Hauf) oder R (auch da gibt's mittlerweile so einiges) findet sich zur (sozialwissenschaftlichen) Datenanalyse mit Python nämlich noch nicht viel.

Das Skriptum nimmt langsam aber sicher Form an. Hier auf Github finden sich Jupyter Notebooks zu den einzelnen Kapiteln des Skriptums (inkl. fallweise nötiger Datenfiles oder sonstiger Dateien). Das Skriptum selbst wird daneben als PDF zusammengestellt und zu gegebener Zeit online gestellt.

WICHTIG: All das hier ist kein Programmierkurs bzw. keine umfangreiche Einführung in Python. Ziel ist, div. Module von Python (bspw. Pandas, Statsmodels, Matplotlib, Seaborn und viele weitere) vorzustellen, die sich mit Datenbearbeitung, statistischer Datenanalyse und Visualisierung befassen. Auch wird - vorerst - nicht auf Aspekte es Machine Learnings oder Deep Learnings (hier bietet Python einiges) eingegangen; behandelt werden vielmehr typische sozialwissenschaftliche Verfahren, wie man sie aus den üblichen Statistikprogrammen kennt (Korrelation, T-Tests, Regression, Varianzanalysen, usw.). Auch die grafische Datenanalyse bzw. die Visualisierung von Daten wird eine zentrale Rolle spielen. Hier bietet Python Vorteile bspw. gegenüber SPSS und steht R in nichts nach. Begonnen wird aber natürlich mit dem Import von Daten, der Datenbearbeitung, deskriptiven Auswertungen usw. Sämliche Jupyter Notebooks hier werden von Zeit zu Zeit überarbeitet, d.h. ev. an aktuelle Versionen der Python Module angepasst, mit neuen Beispielen und/oder besseren Erklärungstexten versehen, um neue Funktionen erweitert, usw.


Feedback jederzeit möglich!



Question: Why is all this in german?

Answer: Because there's enough literature, enough code, enough manuals, etc. in english about data analysis and data visualisation with python available. Not so in german.

/ zum Anfang /



Datenanalyse mit Python by Manfred Hammerl is licensed under CC BY-NC 4.0