Współczynnik korelacji rang Spearmana (RHO Spearmana) wykorzystywany jest do opisu siły korelacji dwóch cech, w przypadku gdy:
- cechy mają charakter jakościowy, pozwalający na uporządkowanie ze względu na siłę tej cechy,
- cechy mają charakter ilościowy, ale ich liczebność jest niewielka.
Wzór na współczynnik korelacji rang Spearmana
$$\huge{r_{s} = 1 – \frac{6 \sum_{i=1}^{n} d_{i}^{2}}{n \ \left(n^{2} – 1\right)}}$$,
gdzie:
$d_{i}^{2}$ – kwadraty różnic pomiędzy rangami odpowiadających sobie wartości cech $x_{i}$ i $y_{i}$.
$n$ – liczba par danych (liczba wierszy w tabeli).
Czym są rangi Spearmana?
Nadajemy cechom X i Y rangi (1- dla największej wartości X, 2 dla drugiej największej wartości X itd. I analogicznie dla Y).
Jeżeli któreś jednostki cechy mają taką samą wartość, to jednostkom tym przypisuje się identyczne rangi, licząc średnią arytmetyczną z rang dla tych samych jednostek.
Chcemy obliczyć korelację Spearmana pomiędzy ocenami z testu z matematyki i angielskiego:
Angielski | Matematyka |
56 | 66 |
75 | 70 |
45 | 40 |
71 | 60 |
61 | 65 |
64 | 56 |
58 | 59 |
80 | 77 |
76 | 67 |
61 | 63 |
Uporządkujmy teraz cechy X i Y malejąco, tj.:
$X \rightarrow 80,76,75,71,64,61,$$61,58,56,45$,
$Y \rightarrow 77,70,67,66,65,63,60,$$59,56,40$.
Tworzymy tabelkę z 2 nowymi kolumnami – rangami dla X i Y:
Cecha X | Cecha Y | $d_{x}$ | $d_{y}$ |
56 | 66 | 9 | 4 |
75 | 70 | 3 | 2 |
45 | 40 | 10 | 10 |
71 | 60 | 4 | 7 |
61 | 65 | (6+7)/2=6.5 | 5 |
64 | 56 | 5 | 9 |
58 | 59 | 8 | 8 |
80 | 77 | 1 | 1 |
76 | 67 | 2 | 3 |
61 | 63 | (6+7)/2=6.5 | 6 |
gdzie $d_{x}$ i $d_{y}$ to są rangi dla cech X i Y.
Uwaga:
Widzimy, że 2 jednostki mają ocenę 61 (na pozycji 6 i 7), więc:
$ś = \frac{6+7}{2} = \frac{13}{2} = 6,5$.
więc nadamy im rangi 6.5 i 6.5.
Następnie obliczamy różnice i kwadraty różnic dla wyznaczonych rang, tzn.:
Cecha X | Cecha Y | $d_{x}$ | $d_{y}$ | $d_{x} – d_{y}$ | $(d_{x} – d_{y})^{2}$ |
56 | 66 | 9 | 4 | 5 | 25 |
75 | 70 | 3 | 2 | 1 | 1 |
45 | 40 | 10 | 10 | 0 | 0 |
71 | 60 | 4 | 7 | -3 | 9 |
61 | 65 | 6.5 | 5 | 1.5 | 2.25 |
64 | 56 | 5 | 9 | -4 | 16 |
58 | 59 | 8 | 8 | 0 | 0 |
80 | 77 | 1 | 1 | 0 | 0 |
76 | 67 | 2 | 3 | -1 | 1 |
61 | 63 | 6.5 | 6 | 0.5 | 0.25 |
Zostało nam to policzenia suma kwadratów różnic rang. Zatem:
$\sum (d_{x} – d_{y})^{2} = 25+1+9+$$2.25+16+0+0+1+$$0.25 = 54.5$
Wobec tego:
$r_{s} = 1 – \frac{6 \cdot 54.5}{10 \ \left(10^{2} – 1\right)} $$= 1 – \frac{327}{990} = 1 – \frac{109}{330} = \frac{221}{330} \approx 0,67$
Odpowiedź: Współczynnik rho wynosi 0,67 co oznacza korelację wysoką.
Intrepretacja współczynnika korelacji rang Spearmana
$r_{s}$ | interpetacja |
poniżej 0,2 | korelacja słaba (praktycznie brak związku) |
0,2-0,4 | korelacja niska (zależność wyraźna) |
0,4-0,6 | korelacja umiarkowana (zależność istotna) |
0,6-0,8 | korelacja wysoka (zależność znaczna) |
0,8-0,9 | korelacja bardzo wysoka (zależność bardzo duża) |
0,9-1,0 | zależność praktycznie pełna |
Korelacja rang Spearmana a korelacja Pearsona
Korelacja rang Spearmana bada związki monotonicze (wykres 1 i 2), w przeciwieństwie do korelacji Pearsona, które bada związki liniowe (jedynie wykres 1)
Przykład 2.
Widzimy wykres rozrzutu zmiennej, gdzie relacja nie jest liniowa, tylko „pofalowana”. Współczynnik korelacji Pearsona wyniesie 0.88 a Spearmana 1.
Źrodło: wikipedia.org
Oznacza to, że wartości odstające nie zaburzają korelacji Spearmana tak jak w przypadku korelacji Pearsona.
Przykład 3.
Widzimy wykres rozrzutu zmiennej, gdzie mamy po prawej stronie wartości odstające. Współczynnik korelacji Pearsona wyniesie 0.67 a Spearmana 0.843.
Źrodło: wikipedia.org
Istotność korelacji Spearmana
Skąd mamy wiedzieć czy obliczony współczynnik korelacji mamy traktować “na serio”?
Co świadczy “lepiej” o istniejącej korelacji? Współczynnik korelacji równy 0.4 dla 50 par zmiennych czy równy 0.5 dla 5 par zmiennych?
Możemy sprawdzić “wiarygodność” obliczonego współczynnika dla korelacji Spearmana i korelacji Pearsona korzystając z testu istotności korelacji .
Wtedy możemy z pewnym przyjętym prawdopodobieństwem stwierdzić czy korelacja jest istotna statystycznie.
Typowy przykład
Sędziowie przyznali 10 zawodnikom następujące noty na turnieju tańca solo:
Zawodnik | Ocena sędziego 1 | Ocena sędziego 2 |
1 | 5 | 7 |
2 | 9 | 8 |
3 | 3 | 6 |
4 | 8 | 7 |
5 | 6 | 8 |
6 | 7 | 5 |
7 | 4 | 10 |
8 | 8 | 6 |
9 | 4 | 5 |
10 | 6 | 8 |
Oblicz jak silnie skorelowane są oceny sędziów 1 i 2.
Uporządkujmy oceny sędziów malejąco, tj.:
$x \rightarrow 9,8,8,7,6,6,5,4,4,3$,
$y \rightarrow 10,8,8,8,7,7,6,6,5,5$.Przydzielamy rangi:
Zawodnik | X | Y | Ranga X | Ranga Y |
1 | 5 | 7 | 7 | 5.5 |
2 | 9 | 8 | 1 | 3 |
3 | 3 | 6 | 10 | 7.5 |
4 | 8 | 7 | 2.5 | 5.5 |
5 | 6 | 8 | 5.5 | 3 |
6 | 7 | 5 | 4 | 9.5 |
7 | 4 | 10 | 8.5 | 1 |
8 | 8 | 6 | 2.5 | 7.5 |
9 | 4 | 5 | 8.5 | 9.5 |
10 | 6 | 8 | 5.5 | 3 |
Rangi X:
Zawodnik 2. dostał notę 9 od sędziego 1, więc dostaje rangę 1.
Zawodnik 3. i 8. dostali oboje 8, więc dostają rangę $\frac{2+3}{2} = 2.5$
Analogicznie przydzielamy rangi Y.
Dalej obliczamy różnice i ich kwadraty:
Zawodnik | X | Y | Ranga X | Ranga Y | $d$ | $d^{2}$ |
1 | 5 | 7 | 7 | 5.5 | 1.5 | 2.25 |
2 | 9 | 8 | 1 | 3 | -2 | 4 |
3 | 3 | 6 | 10 | 7.5 | 2.5 | 6.25 |
4 | 8 | 7 | 2.5 | 5.5 | -3 | 9 |
5 | 6 | 8 | 5.5 | 3 | 2.5 | 6.25 |
6 | 7 | 5 | 4 | 9.5 | -5.5 | 30.25 |
7 | 4 | 10 | 8.5 | 1 | 7.5 | 56.25 |
8 | 8 | 6 | 2.5 | 7.5 | -5 | 25 |
9 | 4 | 5 | 8.5 | 9.5 | -1 | 1 |
10 | 6 | 8 | 5.5 | 3 | 2.5 | 6.25 |
Wobec tego:
$\sum d_{i}^{2} = 2.25+4+6.25+9+$$6.25+30.25+56.25$$+25+1+6.25=146.5$
Na końcu obliczamy współczynnik rang Supermana:
$r_{s} = 1 – \frac{6 \sum_{i=1}^{n} d_{i}^{2}}{n \ \left(n^{2} – 1\right)} = 1 – \frac{6 \cdot 146.5}{10\left(100-1\right)} =$$ 1 – \frac{879}{990} = \frac{111}{990} = \frac{37}{330} \approx 0,11$
Odpowiedź: Współczynnik rang Spearmana wynosi 0,11 i oznacza ono korelację słabą.
Bibliografia:
- Statystyka ogólna, pod red. Michała Woźniaka, Wyd. 3 poprawione, Kraków, Wydawnictwo Akademii Ekonomicznej w Krakowie, 2002, ISBN 83-7252-113-1
- Maksimowicz-Ajchel Alicja, Wstęp do statystyki: Metody opisu statystycznego, Warszawa, Wydawnictwo Uniwersytetu Warszawskiego, 2007, ISBN 978-83-235-0267-8