Deskriptive Statistik

Deskriptive Statistik oder auch beschreibende Statistik ist per Definition die Darstellung und Aufbereitung empirischer Daten durch Tabellen, Grafiken und verschiedene statistische Kennzahlen, auch Lageparameter genannt. Dazu zählen u.a. Maße der zentralen Tendenz sowie Streuungsmaße. Eine deskriptive Analyse der Daten sollte immer zu Beginn einer statistischen Auswertung stattfinden. Dies kann mit einer Statistik Software wie z.B. SPSS, Stata, R und JASP, aber auch mit Excel geschehen.

Deskriptive Statistik einfach erklärt? Du benötigst Unterstützung bei einer statistischen Auswertung oder eine Beratung? ProStat unterstützt dich professionell, schnell und freundlich. Du erreichst uns direkt per Telefon 0175 – 810 35 20 oder über das Kontaktformular.

Die Möglichkeiten der deskriptiven Analyse reicht von einer Häufigkeitsverteilung (absolute und relative Häufigkeit), Maßzahlen der zentralen Tendenz bzw. Lagemaße (Modus, Median und Mittelwert) sowie Streuungsmaße wie die Standardabweichung oder der Varianz. Zusätzlich lassen sich statistische Daten über Diagramme, wie z.B. ein Kreisdiagramm oder Balkendiagramm, darstellen.

Warum deskriptive Statistik durchführen?

Nichts ist wichtiger als das Verständnis der eigenen Daten. Ganz gleich über welche Daten wir sprechen, diese sind niemals perfekt. Einfach so mit einer Statistik Software (wie z.B. SPSS, Stata, R, JASP) “drauf losrechnen” würde bedeuten, sich nicht um mögliche Ausreißer oder sogar falsche Angaben zu kümmern. Vor der Berechnung statistischer Verfahren – angefangen von Korrelationsanalysen bis hin zu komplexen multivariaten Modellen – ist deshalb die Betrachtung der Daten mit Hilfe deskriptiver Statistik praktisch Pflicht.

Häufigkeiten

Häufigkeitstabellen zeigen immer die absolute und die relative Häufigkeit eines Merkmals. Nehmen wir dafür die Variable Geschlecht als Beispiel. Das Geschlecht hat klassischerweise zwei Merkmalsausprägungen: weiblich und männlich. Wir können die absolute Häufigkeit der Frauen z.B. mit $N=60$ angeben und die der Männer mit $N=40$. Dadurch kennen wir auch die Fallzahl in den Daten, nämlich $N=100$.

Die relative Häufigkeit – z.B. der weiblichen Probanden – berechnet sich nun einfach durch $\frac{60}{100}=0.6$, was 60% entspricht.

Maße der zentralen Tendenz

Mithilfe der Maßzahlen der zentralen Tendenz, auch Lageparameter genannt, lassen sich schnell wichtige Erkenntnisse einer Verteilung erlangen. Die Voraussetzung für die Anwendung von Modalwert (Modus), Median und Mittelwert sind dabei unterschiedlich.

  • Modalwert (D oder $\overline{x}_m$): gibt den häufigsten Wert einer Verteilung an. Er kann bereits ab nominalen Skalenniveau angewandt werden und ist resistent gegen Ausreißer.
  • Median ($\tilde{x}$): Sortiert man eine Liste von Werten vom kleinsten zum größten Wert, so zeigt der Median an, dass unter bzw. über diesem Wert exakt gleichviele Werte liegen. Voraussetzung hierfür sind mindestens ordinal skalierte Daten.
  • Mittelwert ($\overline{x}$): Zeigt für metrische (intervallskalierte) Daten den durchschnittlichen Wert an. Allerdings können Ausreißer den Mittelwert verzerren, sodass weitere Maßzahlen (wie z.B. die Standardabweichung) mit zur Interpretation herangezogen werden sollen.

Streuungsmaße

Mit den Streuungsmaßen werden die zuvor besprochenen Maße der zentralen Tendenz noch besser interpretierbar. Es gib eine ganze Reihe von einfachen, aber sehr hilfreichen Kennwerten.

  • Spannbreite oder Range: Bezeichnet den Abstand zwischen größtem und kleinsten Wert einer Verteilung. Die Berechnung ist extrem einfach: $R=x_{max}-x_{min}$. Ist der älteste Proband in einem Datensatz 96 und der jüngste Proband 18, so beträgt die Spannbreite 78 Jahre.
  • Quartil: Mit insgesamt 3 Quartilen ($Q_1$ bis $Q_3$) lassen sich jeweils 25% einer Verteilung beschreiben. Das 1. Quartil beschreibt die ersten 25% einer geordneten Verteilung, das 2. Quartil entspricht dem Median und somit 50% einer Verteilung und das 3. Quartil entspricht 75% einer Verteilung. Am Beispiel einer Altersverteilung mit N=100 Probanden und einem Alter von 18 bis 82 Jahren würde $Q_1=26$ bedeuten, dass 25% der Probanden jünger als 26 Jahre sind.
  • Perzentil: Werden Quartile nicht im Abstand von 25% angegeben, sondern in Schritten von 1%, also z.B. 33%, so spricht man von einem Perzentil.
  • Standardabweichung (s): Neben der Varianz, welche das Quadrat der Standardabweichung darstellt (s²), eine der wichtigsten Kennwerte der Statistik. Sie beschreibt die durchschnittliche Streuung um den Mittelwert. Haben wir z.B. einen Mittelwert von $\overline{x}=41.5$ Jahren mit einer Standardabweichung von $s=6.451$ Jahren, so kann dies – mit etwas Erfahrung – als recht gering betrachtet werden. In unseren Daten streut Alter also nicht sehr stark. Eine Standardabweichung von $s=27.145$ ist allerdings recht groß. Daher ist anzunehmen, dass der Mittelwert keine aussagekräftige Größe darstellt.
  • Variationskoeffizient (V): Zur Beurteilung der Standabweichung ist der Variationskoeffizient eine sehr hilfreiche Maßzahl. Er wird berechnet aus dem Quotienten von Standardabweichung und Mittelwert:
    $$V=\frac{s}{\bar{x}}$$
    und gibt an, welchen Anteil die Streuung am Mittelwert hat. Der Wert kann dafür der Einfachheit mit 100 multipliziert und in Prozent ausgedrückt werden. Nehmen wir dazu das Jahres-Beispiel von eben: $V=\frac{6.451}{41.5}=0.155$ ergibt einen Variationskoeffizienten von $V=15.5\%$ und $V=\frac{27.145}{41.5}=0.654$ ergibt $V=65.4\%$. Unsere zweite Standardabweichung im Beispiel hat einen Anteil von $65.4\%$ am Mittelwert, was als sehr groß bezeichnet werden kann. Der Mittelwert ist in Folge also als wenig aussagekräftig anzusehen.

Grafiken

Die Vielzahl grafischer Möglichkeiten soll an dieser Stelle nicht allumfassend wiedergegeben werden. Als eine der wichtigsten Grafiken lassen sich an dieser Stelle das Kreisdiagramm, Balkendiagramm und vor allem der Boxplot nennen. Während Kreis- und Balkendiagramme für nominale und ordinale Daten geeignet sind, empfiehlt sich ein Boxplot ausschließlich für metrische Daten, auch wenn man leider oftmals auch Anwendungen mit ordinalen (kategorialen) Daten sieht.

Downloads

Du kannst diesen Artikel als PDF sowie die Tabelle der z-Werte in Excel herunterladen.

Consent Management Platform von Real Cookie Banner