Statistische Signifikanz

Die statistische Signifikanz (oft einfach nur “p-Wert” genannt) ist einer der zentralen Begriffe in der Statistik. Leider verstehen nicht alle Anwender statistischer Auswertungen das Gleiche unter der Frage, was statistische Signifikanz bzw. signifikant konkret bedeutet. Hier kommt es durchweg zu vielen Missverständnissen und falschem Wissen. Mit diesem Wissens-Eintrag versuchen wir, dir dieses Konzept einfach zu erklären.

Du benötigst Unterstützung bei einer statistischen Auswertung oder eine Beratung? ProStat unterstützt dich professionell, schnell und freundlich. Du erreichst uns direkt per Telefon 0175 – 810 35 20 oder über das Kontaktformular.

Signifikanz Definition

Was bedeutet Signifikanz bzw. ein p-Wert? Einfach gesprochen legen wir über die statistische Signifikanz den Fehler fest, den wir maximal begehen wollen, wenn die Alternativhypothese $H_1$ zugunsten der Nullhypothese $H_0$ angenommen wird. Ein Beispiel.

$H_1$: Du wirst ab morgen doppeltes Gehalt erhalten. vs. $H_0$: Du wirst ab morgen dein normales Gehalt weiter erhalten.

Wie wahrscheinlich soll diese Aussage am besten sein? Klar, 100% oder statistisch gesprochen $p=1.0$. Aber in der Statistik reichen uns oft 95%, da wir mit einer Signifikanz von 5% die Irrtumswahrscheinlichkeit bei $\alpha=.05$ angeben. Also den Wert, bis zu dem wir einen von uns zuvor festgelegten Irrtum in Kauf nehmen.

Sprechen wir von Wahrscheinlichkeit, wird dies in der Statistik mit $p$ angegeben, auch die Irrtumswahrscheinlichkeit wird mit $p$ (p-Wert) angegeben. Das Signifikanzniveau, also das vom Forscher festgelegte Fehlerniveau, wird mit $\alpha$ abgekürzt. Ein Ergebnis ist immer dann signifikant, wenn $p<\alpha$ gilt.

Kann ein Mensch Eisberge riechen?

Wir machen zunächst ein Ausflug, sowohl historisch als auch statistisch, um ein Grundprinzip der Statistik aufzufrischen: Wahrscheinlichkeiten ($p$).

Wer kennt ihn nicht, den Satz des Ausguck-Offiziers der Titanic: “Ich kann Eis riechen.”? Rückblickend wissen wir, dass besagter Offizier wohl doch kein Eis riechen konnte, wobei fairerweise zu ergänzen ist, dass sein Satz mit “[…], wenn ich nah genug dran bin!” endet.

Nehmen wir an, wir hätten Frederick – so der Name des Offiziers – schon vor seinem Dienst auf der Titanic gekannt, und er hätte uns seine besondere Gabe beim Kartenspielen mitgeteilt. Neugierig, wie wir sind, wollen wir diese Aussage überprüfen. Dafür stellen wir zwei Holzkisten auf: In einer befindet sich ein Eisblock (Simulation eines Eisbergs), in der anderen nicht. Frederick erkennt die richtige Kiste. Und ab hier wird es sowohl menschlich als auch statistisch.

Wir vermuten natürlich, dass Frederick geraten hat. Und Raten ist reiner Zufall. Die Chance, richtig zu raten, liegt für ihn bei 2 Kisten bei 50% oder $p=.5$ [Null Komma fünf], wie man es statistisch sagt. Stellen wir Frederick nun 6 Holzkisten hin, wobei sich nur in einer Kiste ein Eisblock befindet. Jetzt liegt die Wahrscheinlichkeit bei $p=\frac{1}{6}=.166$, also bei 16.6%, die Richtige Kiste zu erraten. Dementsprechend liegt die Wahrscheinlichkeit, die falsche Kiste zu erraten – die Fehlerwahrscheinlichkeit oder Irrtumswahrscheinlichkeit – bei exakt $p=\frac{5}{6}=.83$, also 83%. Diese Irrtumswahrscheinlichkeit wird oftmals weiterhin mit $p$ bezeichnet, da es sich hier nicht um die vom Forscher festgelegte statistische Irrtumswahrscheinlichkeit handelt, sondern um eine fixe. Damit wären also p-Wert des Probanden und Signifikanzlevel $\alpha$ identisch ($p=\alpha=.83$), da letzterer niemals $\alpha=.05$ o.ä. sein kann.

Die hier berechnete Fehlerwahrscheinlichkeit ist bei diesem Versuchsaufbau immer die Gleiche. Wir können für Frederick – der übrigens den Untergang der Titanic überlebt hat, weil er ans Steuer eines Rettungsbootes abkommandiert wurde – daher sagen, dass seine Wahrscheinlichkeit, richtig zu liegen, sehr gering ist. Diese Irrtumswahrscheinlichkeit ist allerdings immer die Gleiche.

Wir könnten Frederick den Test mit den 6 Kisten sehr oft wiederholen lassen, doch in der Statistik geht es darum, sich mit den Aussagen und Eigenschaften vieler Menschen zu beschäftigen und daraus auf tatsächlich vorhandene Eigenschaften einer Grundgesamtheit zu schließen.

Und das schauen wir uns jetzt genauer an.

Können Menschen Eisberge riechen?

Allen Lesern sollte klar sein, dass Menschen keine Eisberge riechen können, oder etwa doch? Die Ausnahme wäre vielleicht Eis in Form von Erdbeereis oder Schoko, aber die Titanic ist gegen einen Eisberg gefahren und nicht in ein Eiscafé. Daher meinen wir im Folgenden bei Verwendung eines Eisblocks im Versuchsaufbau auch ganz normales Eisberg-Eis ohne Geschmack.

Von allen Seefahrern (eines Landes), die in einer lang angelegten und äußerst kostspielen Studie – Nachbau der Titanic und Kreuzfahrt in die Arktis – untersucht wurden, wissen wir, dass 31% Eis riechen können. Das wundert uns etwas, aber naja. Damit kennen wir als den Wert der Grundgesamtheit, da wir alle Seemänner eines Landes in unsere Studie aufgenommen haben. Ja, Statistik funktioniert unter seltsamen Annahmen! Diesen Wert nehmen wir als Anhaltspunkt für unsere Analyse.

In Fredericks kleinem Heimathafen finden wir $N=25$ bereitwillige Seefahrer, die wir mir einer Flasche Rum für unsere Stichprobe gewinnen können. Um den Probanden eine Chance zu bieten, dürfen diese eine Woche lang an Eisblöcken riechen. Damit stellen wir gleichzeitig zwei Hypothesen auf: die Null- und die Alternativhypothese.

$H_0$: Das Riechen an Eisblöcken fördert die Erkennung von Eisbergen nicht.

$H_1$: Das Riechen an Eisblöcken fördert die Erkennung von Eisbergen.

Unsere $H_0$ geht davon aus, dass der Anteil an Seemännern, die Eisberge riechen können, unter den 31% der Grundgesamtheit bleibt, während $H_1$ darauf abzielt, dass der Anteil höher als der in der Grundgesamtheit ist.

Tatsächlich können im daran anschließenden Test $N=4$ Probanden Eisberge riechen. Dies entspricht $\frac{4}{25}=0.16$, also 16% der Seefahrer. Das liegt deutlich unter den 31% der Grundgesamtheit. Wir können vermuten, dass das Riechen an Eisblöcken nicht dazu führt, Eisberge erschnüffeln zu können und unsere $H_0$ beizubehalten ist.

Allerdings kann unser Ergebnis auch purer Zufall sein, schließlich untersuchen wir nur eine (kleine) Stichprobe. Daher müssen wir an dieser Stelle überprüfen, ob sich unsere Stichprobe signifikant von der bekannten Grundgesamtheit unterscheidet. Und dafür müssen wir die Irrtumswahrscheinlichkeit bzw. Fehlerwahrscheinlichkeit berechnen, welche unsere Stichprobe (mit $N=4$ riechenden Seemännern) in Bezug auf die Grundgesamtheit setzt (31% der Seemänner können Eis riechen). Wir berechnen also den p-Wert unserer Stichprobe. Dafür gibt es selbstverständlich eine wunderschöne mathematische Formel, die so aussieht:

$$p=\binom{n}{k}*p^k*(1-p)^{n-k}$$

Die Binomialformel sieht schlimmer aus, als sie ist und stellt eine vereinfachte Möglichkeit dar, bei kleinen Fallzahlen die Fehlerwahrscheinlichkeit (p-Wert) zu berechnen.

Die Formel wird für jeden Wert einzeln angewandt, also für die Fehlerwahrscheinlichkeit, dass 4 (oder weniger) Seemänner Eisberge riechen können (was in dem Fall dem Irrtum entspricht!), danach für die Fehlerwahrscheinlichkeit, dass 3 Seemänner (oder weniger) Eisberge riechen können bis hin zu keinem einzigen Seemann, der Eisberge riechen kann. Die Fehlerwahrscheinlichkeit, dass 4 oder weniger Seemänner Eisberge riechen können berechnet sich aus:

$p=\binom{25}{4}*0.31^4*0.69^{21}=.0482$

Die Formel lässt sich in ihre Einzelteile zerlegen und erklären:

  • Der Binomialterm $\binom{25}{4}$ gibt die Anzahl der Seemänner in unserer Stichprobe ($N=25$) an, sowie die maximale Anzahl der Erfolge (Eisberg riechen, $N=4$).
  • Der Binomialterm wird multipliziert mit der Fallzahl der Seemänner aus der Grundgesamtheit, die Eisberge riechen können (31% = $p=.31$), welcher mit den $N=4$ riechenden Seemännern unserer Stichprobe potenziert wird, also $0.31^4$.
  • Dieses Ergebnis wird dann mit der Irrtumswahrscheinlichkeit der uns bekannten Grundgesamtheit – wie viele Seemänner können Eisberge nicht riechen ($100-31=69$%) bzw. $p=.69$ und der entsprechenden Fallzahl unserer Stichprobe ($N=21$ können keine Eisberge riechen) potenziert, also $0.69^{21}$.

Excel berechnet dann für uns glücklicherweise das Ergebnis mit $p=.0482$. Die Fehlerwahrscheinlichkeit, dass 4 oder weniger Seeleute Eisberge riechen können, liegt also bei $p=0.0482*100=4.82\%$.

Die Fehlerwahrscheinlichkeit, dass 3 oder weniger Seemänner Eisberge riechen können liegt bei:

$p=\binom{25}{3}*0.31^3*0.69^{22}=.0195$ und damit bei 1.95%.

Am Ende werden die Fehlerwahrscheinlichkeiten noch dafür berechnet, dass 2 oder weniger Seemänner keine Eisberge riechen können bis hin zu der Wahrscheinlichkeit, dass kein Seemann Eisberge riechen kann. Diese einzelnen Fehlerwahrscheinlichkeit werden einfach summiert:

$p=0.0482+0.0195+0.0057+0.0011+0.0001=0.0746=7.46\%$

Der p-Wert unserer Stichprobe beträgt also $p=.0746$ und unser Ergebnis ist nicht signifikant.

p-Wert Signifikanz

Der p-Wert gibt an, wie wahrscheinlich Ergebnisse nur durch Zufall entstanden sind (nicht signifikant). Da wir das Signifikanzniveau $\alpha$ – also den vom Forscher definierten maximalen Fehler – meistens mit 5% ($\alpha=.05$) definieren, geben wir also praktisch an, dass diese Zufälligkeit maximal bis zu 5% betragen darf. Ein signifikantes Ergebnis liegt demnach bei $p<\alpha$ vor, also wenn die Fehlerwahrscheinlichkeit unserer Stichprobe $p$ unter der vom Forscher festgelegten Fehlerwahrscheinlichkeit (Signifikanzniveau $\alpha$) liegt.

Mit unserem $p=.0746$ liegt das Ergebnis über dem “Standardwert” einer Signifikanz von $\alpha=.05$, denn es gilt $p>\alpha$ bzw. $.075>.05$. Wir gehen daher davon aus, dass unser Ergebnis der Stichprobe zufällig entstanden zufällig ist. Die Nullhypothese darf nicht abgelehnt werden. Wir gehen weiterhin davon aus, dass Riechtests mit Eisblöcken nicht zum besseren Aufspüren eines Eisbergs durch die Nase führen.

Dennoch wären wir mit diesem Ergebnis trotz seines logischen Inhalts nicht zufrieden, da wir aus statistischer Sicht nicht wirklich gute Daten erhoben haben. Warum?

Einflussgrößen auf die statistische Signifikanz

Zunächst stellen wir uns die Frage nach der Stichprobengröße. $N=25$ Seemänner in Fredericks kleinem Heimathafen sind wirklich nicht viel. Um unsere Hypothese statistisch zu überprüfen, sollten wir mehr Seemänner heranziehen. Aus diesem Grund führen wir unsere Untersuchung an $N=1000$ Seemännern durch, die ebenfalls alle eine Woche an Eisblöcken riechen dürfen und danach mit uns auf dem Titanic-Nachbau auf Arktis-Kreuzfahrt gehen.

Wir finden heraus, dass $N=317$ Seemänner Eisberge riechen können, was einem Anteil von $p=\frac{317}{1000}=.317$, also 31.7% entspricht. Aufgrund der hohen Fallzahl der Stichprobe kann die Wahrscheinlichkeit nicht mehr über die Binomialformel berechnet werden. Wir benötigen eine Teststatistik, die in diesem Fall $z$ (manchmal auch $T$) heißt:

$$z=\frac{\overline{x}-\mu_0}{s}$$

Die Bestandteile der Formel ergeben sich aus:

  • $\mu_0$ berechnet sich aus $n*p$, wobei n unsere Fallzahl der Stichprobe ist ($n=1000$) und $p$ der Anteil der Probanden, die in der Grundgesamtheit Eisberge riechen können. Aus dieser wissen wir, dass 31% der Personen Eisberge riechen konnten ($p=.31$). Übertragen auf unsere Stichprobe mit $N=1000$ Seemännern würden wir also statistisch gesehen $\mu_o=n*p=1000*0.31=310$ Seemänner in unserer Stichprobe erwarten, die Eisberge riechen können.
  • Die Standardabweichung $s$ berechnet sich $s=\sqrt{n*p*(1-p)}$, wobei $n$ wiederum die Fallzahl der Stichprobe ist ($n=1000$) und $p$ erneut der Anteil an Seemännern, die in der Grundgesamtheit Eisberge riechen können ($p=.31$). Die Standardabweichung ist $s=\sqrt{1000*0.31*0.69}=14.6$.
  • $\overline{x}$ ist die Anzahl Seemänner unserer Stichprobe, die Eisberge riechen können, nachdem sie eine Woche an Eisblöcken geschnüffelt haben, also $\overline{x}=317$.

Daher erhalten wir: $z=\frac{317-310}{14.6}=0.479$.

Hurra! Wir haben einen Testwert berechnet. Genauer gesagt, den transformierten z-Wert der Standardnormalverteilung. Jedes Fachbuch für Statistik besitzt im Anhang eine meist große Anzahl an Tabellen mit vielen Zahlen. Für uns ist die Tabelle der Standardnormalverteilung genau die, welche wir jetzt benötigen.

Die Tabellen sehen nicht immer gleich aus, was die Zellen betrifft. Manchmal enthalten sie die Wahrscheinlichkeit, und manchmal direkt die Irrtumswahrscheinlichkeit (den p-Wert, den wir benötigen). Werden die Zellen mit ansteigendem z-Wert größer Richtung 1.0, dann handelt es sich um die Wahrscheinlichkeit $p$, werden die Zahlen mit ansteigendem z-Wert kleiner Richtung 0, dann handelt es sich um die Irrtumswahrscheinlichkeit.

Unsere Tabelle enthält die Wahrscheinlichkeit $p$ des z-Werts. Zunächst einmal ist es wichtig, in welcher Zelle man ablesen muss. Dabei geben die Zeilen z-Werte ab 0 vor (1. Spalte) und wandern in Schritten von gewöhnlich 0.1 nach oben. Die zweite Nachkommastelle liest sich in der Spalte ab. Ein Wert von 0.13 müsste man also links mit 0.1 ablesen und dann in die Spalte mit der 3 gehen. Der abgelesene Wert wäre dann 0.5517, was der Wahrscheinlichkeit $p$ entspricht.

z 0 1 2 3 4 5 6 7 8 9
0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5754
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990

Schauen wir uns unsere Wert von $z=0.479$ an, den wir für die Tabelle auf $z=0.48$ runden. Die oben stehende Tabelle ist verkürzt dargestellt. Einen Wert von 0.48 lesen wir links bei 0.4 und dann in der Spalte mit der 8 ab. Der Wert der Zelle an dieser Stelle beträgt $p=.6844$. Dies ist die Wahrscheinlichkeit für den z-Wert 0.48, also 68.44%. Klingt schon mal nicht so hoch, oder? Wir erinnern uns an die Aussage, dass “Du ab morgen doppeltes Gehalt bekommen sollst ($H_1$).” Da wären 68% Wahrscheinlichkeit auch nicht so gut wie z.B. 90% oder mehr, oder?

Viel mehr aber interessiert uns in der Statistik die Irrtumswahrscheinlichkeit. Die Irrtumswahrscheinlichkeit berechnet sich mit $1-p$ und stellt den eigentlich interessanten Wert dar, den wir als p-Wert bezeichnen. Für den Wert $z=0.48$ beträgt sie $1-0.6844=0.3156$, also 31.56%. Da die Signifikanz unsere festgelegte Irrtumswahrscheinlichkeit ist und wir diese auf (maximal) $\alpha=5\%$ festgelegt haben, liegt der berechnete p-Wert der Irrtumswahrscheinlichkeit leider darüber ($p>\alpha$ bzw. $.317>.05$). Wir dürfen aus diesem Grund die Nullhypothese ($H_0$: Das Riechen an Eisblöcken fördert die Erkennung von Eisbergen nicht.) nicht verwerfen, da dass Ergebnis unserer Stichrpobe nicht signifikant ist.

Signifikant und nicht-signifikant

Menschen können also keine Eisberge riechen, auch wenn sie darauf trainiert werden! Wir haben es ja gewusst. In unserem Beispiel konnten wir die Nullhypothese nicht verwerfen, weil der p-Wert unserer Stichprobe mit $p=.317$ (gerundet) größer ist als das von uns angegebene Signifikanzniveau von $\alpha=.05$. Damit gilt $p>.05$ bzw. $.317>.05$.

Dieses Beispiel wurde auch deshalb gewählt, weil wir im Zuge langjähriger Beratung immer wieder mitbekommen, wie Betreuer, Professoren und anderes wissenschaftliches Personal Aussagen wie “Nur signifikante Ergebnisse sind gute Ergebnisse.” treffen. Dieser Irrglauben zieht sich leider durch Bachelorarbeiten bis hin zu Promotionen, bei denen der wissenschaftliche Betreuer nicht über das ausreichende statistische Grundwissen verfügt. Ergebnisse haben immer eine relevante Aussage, nur eben nicht immer jene, welche die eigene Hypothese bestätigt.

Stellen wir uns nun zum Schluss noch einmal vor, dass in unserer Stichprobe $N=354$ Seemänner (35.4%) Eisberge riechen können anstatt $N=317$. Der z-Wert beträgt dann $z=3.008$. In unserer Tabelle oben ist dieser Wert ebenfalls aufgeführt. Wir lesen dann links 3.0 ab und in der Spalte mit der 0 die dazu gehörende Zelle, was $p=.9987$ ergibt. Der p-Wert für unseren z-Wert beträgt damit $p=1-0.9987=0.0013$, also 0.13%. Dieser Wert liegt deutlich unter einer Signifikanz von 5% (0.13% < 5% oder $.0013<.05$). Damit hätten wir die Nullhypothese verwerfen dürfen und die Aussage wäre gewesen, dass Menschen, die an Eisblöcken riechen, Eisberge (besser) erschnüffeln können ($H_1$ bestätigt).

Wir hätten in unserer kleinen Stichprobe mit $p=.317$ das Signifikanzniveau auch auf .40 erhöhen können anstatt bei .05 zu bleiben. Dann wäre die Stichprobe ebenfalls signifikant gewesen und $H_1$ bestätigt. Gleiches gilt umgekehrt für die große Strichprobe mit $p=.0013$. Da es ja hier um tausende Menschenleben geht, hätten wir eine Signifikanz von $\alpha<.001$ wählen können, was wir dann mit unserem Ergebnis nicht erreicht hätten und somit $H_0$ nicht verworfen werden darf.

Signifikanz ist also, was man daraus macht?

Das würde bedeuten, dass man sich das Signifikanzniveau in der Statistik aussuchen kann?! So gesehen lautet die Antwort: Ja! Das 5%ige Signifikanzniveau der Statistik ist nicht in Stein gemeißelt. Vielmehr ist es abhängig von der Situation der statistischen Untersuchung:

  • Wenn 5 von 100 Probanden bei der Einnahme eines Medikaments starken Ausschlag bekommen, dann läge Fehlerwahrscheinlichkeit bei $p<.05$ absolut im statistischen Rahmen. Im Übrigen: Nicht ganz im Rahmen, denn es heißt “kleiner als .05” ($\alpha<.95$) und nicht $\alpha\leq.05$. Somit ist das Ergebnis eines statistischen Tests mit $\alpha=.05$ (z.B. ein t-Test zum Vergleich zweier Mittelwerte) nämlich “nicht signifikant”.

Wollen wir in einer Packungsbeilage lesen, dass 5 von 100 Probanden starken Ausschlag (oder Schlimmeres!) bekommen? Sicher nicht. Deshalb liegt das vom Forscher festgelegte Signifikanzniveau bei medizinischen Auswertungen sehr oft nicht bei $\alpha<.05$, sondern eher bei $\alpha<.01$ oder sogar $\alpha<.001$.

Es liest sich einfach viel besser, wenn nur 1 von 100 Probanden Ausschlag bekommt ($\alpha<.01$) oder sogar nur 1 von 1000 Probanden ($\alpha<.001$). Sehr starke Nebenwirkungen werden in Packungsbeilagen auch mit “1 von 10.000” angegeben, was $\alpha<.0001$ entspricht.

Bei sozialwissenschaftlichen Untersuchungen geht es nicht um Nebenwirkungen oder Leben und Tod. Daher ist ein Signifikanzniveau von 5% oder sogar 10% ($\alpha<.10$) überhaupt kein Problem.

Downloads

Du kannst diesen Artikel als PDF herunterladen.

Consent Management Platform von Real Cookie Banner