Um festzustellen, wie hoch ein Zusammenhang zwischen zwei Merkmalen ist, muss man den Korrelationskoeffizient berechnen. Der Korrelationskoeffizient ist ein Begriff aus der beschreibenden (deskriptiven) Statistik. Er bezeichnet das Maß für die Richtung und Stärke einer statistischen Beziehung zwischen zwei Merkmalen.

Beispielfragen nach Zusammenhängen zwischen zwei Merkmalen, zu denen man einen Korrelationskoeffizient berechnen kann:

  • Besteht ein Zusammenhang zwischen Körpergröße und Schuhgröße?
  • Erreichen Kinder aus Haushalten mit höherem Einkommen höhere Bildungsabschlüsse als Kinder aus Haushalten mit geringerem Einkommen?
  • Lässt sich eine Beziehung zwischen den Ausgaben für Werbekampagnen eines Unternehmens und der Anzahl neuer Aufträge feststellen?
  • Verbringen Jugendliche bei zunehmender Außentemperatur weniger Zeit vor dem Fernsehen?

Für sinnvolle Antworten auf Fragen dieser Art reichen Antworten wie „ja“ oder „nein“ nicht aus. Man möchte erstens auch die Richtung des Zusammenhangs wissen, zum Beispiel, ob Jugendliche bei steigenden Außentemperaturen mehr oder weniger Zeit fernsehen. Zweitens interessiert die Höhe des Zusammenhangs, zum Beispiel, ob in einer Firma die Neuaufträge im gleichen Maß ansteigen, wie die Erhöhung der Werbeausgaben.

Dafür muss man einen numerischen Zusammenhang zwischen beiden Merkmalen erfassen, und zwischen beiden Merkmalen einen Korrelationskoeffizient berechnen.

Der Korrelationskoeffizient nimmt Werte zwischen – 1 und +1 an. Ein Wert von +1 bedeutet, dass bei steigenden Werten des ersten Merkmals die des zweiten Merkmals maximal steigen, und umgekehrt. Ein Wert von -1 bedeutet, dass bei steigenden Werten des ersten Merkmals die Werte des anderen maximal sinken. Ein Wert von +0,6 bedeute, dass ein mittlerer positiver Zusammenhang besteht, ein Wert von +0,2, dass ein kleiner positiver Zusammenhang vorliegt.

Zum Korrelationskoeffizient berechnen benötigt man eine Tabelle (Matrix), in welcher die Daten beider Merkmale in Zweiergruppen gegenübergestellt werden.

Werbeausgaben für Elektromobile in Euro Neuaufträge für Elektromobile:

0 2000
200.000 2800
400.000 3600
600.000 4400
800.000 5200
1.000.000 6000

Wenn bei überdurchschnittlich hohen (oder tiefen) Werten des ersten Merkmals (hier: Werbeausgaben) auch überdurchschnittlich hohe Werte (oder tiefe Werte) des zweiten Merkmals (hier: Neuaufträge für Elektromobile) vorkommen, dann liegt eine Korrelation vor.

ein hertz und ein gehirn laufen zusammen

Man muss daher für jedes Wertepaar bestimmen, wie weit es vom arithmetischen Mittel der Werte abweicht.

Man muss daher für jedes Wertepaar bestimmen, wie weit es vom arithmetischen Mittel der Werte abweicht.

Dazu muss man die Kovarianz berechnen.

Dies geschieht mit einer Formel:

Kovarianz

 

Wenn man die Kovarianz durch das Produkt der Standardabweichungen der Merkmale dividiert, so erhält man die Korrelation.

Die Formel für die Korrelation ist:

Standardabweichung

 

Konnte man den Korrelationskoeffizient berechnen, ist der nächste Schritt die Interpretation. Wenn die Korrelation stabil ist, kann man von einem Wert eines Merkmals auf den Wert des anderen Merkmals schließen. Aber, man kann nicht mit dem Korrelationskoeffizient berechnen, und auch nicht interpretieren, ob etwa auch ein ursächlicher Zusammenhang zwischen den Merkmalen vorliegt.