Regresja liniowa to znana z liceum funkcja liniowa, opisuje zależność pomiędzy 2 zmiennymi.
$$\large {\hat{y_{i}} = a \cdot x_{i} + b}$$
gdzie:
$\hat{y_{i}}$ – zmienna objaśniana (ilościowa),
$x_{i}$ – zmienna objaśniająca (ilościowa lub binarna),
$a$ – współczynnik regresji (interpretacja: o ile przeciętnie zmieni się wartość zmiennej $y$, jeśli wartość zmiennej $x$ wzrośnie o jedną jednostkę),
$b$ – wyraz wolny (nie interpretowany)
Wyznaczanie parametrów prostej regresji
Do wyznaczania prostej regresji regresji jednej zmiennej (oraz linii trendu) używamy metody najmniejszych kwadratów (MNK).
gdzie:
$\overline{x}$ – średnia $x$,
$\overline{y}$ – średnia $y$.
Tabelka, którą tworzymy, jest podobna, jak w przypadku korelacji Pearsona (stąd bardzo często korelację i prostą regresji liczymy w tym samym zadaniu).
Zbadano wydatki na kulturę i wielkość miesięcznego dochodu dla 7 osób. W jakim stopniu zmiana miesięcznego dochodu wpływa na zmianę wydatków na kulturę?
osoba | $x_{i}$ – wydatki na kulturę | $y_{i}$ – średnie dochody |
A | 0,1 | 0,5 |
B | 0,9 | 1,0 |
C | 0,8 | 1,5 |
D | 1,3 | 1,5 |
E | 1,0 | 2,0 |
F | 1,5 | 2,0 |
gdzie:
$X$ – miesięczny dochód (w 1000 zł),
$Y$ – miesięczne wydatki na kulturę (w 100 zł).
Policzmy na początku średnie $\overline{x}$ i $\overline{y}$:
Tworzymy tabelkę:
osoba | $y_{i}$ | $x_{i}$ | $x_{i} – \overline{x}$ | $y_{i} – \overline{y}$ | $\left(x_{i} – \overline{x}\right) \left(y_{i} – \overline{y}\right)$ | $\left(x_{i} – \overline{x}\right)^{2}$ |
A | 0,1 | 0,5 | 0,5-1.4=-0,9 | 0,1-0,9=-0,8 | 0,72 | 0,81 |
B | 0,9 | 1,0 | -0,4 | 0,0 | 0,00 | 0,16 |
C | 0,8 | 1,5 | 0,1 | -0,1 | -0,01 | 0,01 |
D | 1,3 | 1,5 | 0,1 | 0,4 | 0,04 | 0,01 |
E | 1,0 | 2,0 | 0,6 | 0,1 | 0,06 | 0,36 |
F | 1,5 | 2,0 | 0,6 | 0,6 | 0,36 | 0,36 |
$\sum$ | 5,6 | 8,5 | 1,17 | 1,71 |
Zatem:
Stąd:
Interpretacja współczynników regresji liniowej
Interpretacja współczynnika liniowego:
Jeżeli X wzrasta o 1, to Y wzrasta średnio o 0.68.
Używając dokładnej treści naszego przykładu:
$$\hat{y_{i}} = a \cdot x_{i} + b = 0,68 \cdot x_{i} – 0,052$$
Odpowiedź: Wzrost miesięcznego dochodu o 100 zł (x wzrasta o 1) prowadzi do zwiększenia wydatków na kulturę o 6,8 zł (y wzrasta o 0,68).
Interpretacja wyrazu wolnego:
Współczynnik wyrazu wolnego to wartość $y$ gdy $x=0$.
Bardzo często taka sytuacja nie ma sensu (jeżeli np. X to wzrost a Y to waga, wtedy $X=0$ nie może zaistnieć).
Jest to punkt przecięcia z osią OY – równy w naszym przykładzie $y=-0.052$.
Współczynnik determinacji liniowej R kwadrat
Jest to inaczej:
Lub innymi słowem:
$$R^{2} = \frac{\sum_{i=1}^{n} (\hat{y_{i}}-\overline{y})^{2}}{\sum_{i=1}^{n} ({y_{i}-\overline{y})^{2}}}$$
gdzie:
- licznik to suma kwadratów wynikających z modelu (zmienność wyjaśniona),
- mianownik to całkowita suma kwadratów (zmienność całkowita).
Współczynnik determinacji można policzyć dużo prościej – po prostu podnosimy współczynnik korelacji R do kwadratu (stąd miara ta nazywana jest współczynnikiem R kwadrat)
Więcej o współczynniku determinacji $R^{2}$ tutaj.
Typowe przykłady
Przykład 1.
Miesięczne dochody (w tys. zł) | Miesięczne wydatki na prasę (w zł) |
1 | 30 |
2 | 30 |
3 | 40 |
4 | 50 |
5 | 50 |
a) Określić siłę i kierunek badanej zależności.
b) Wyznaczyć linię regresji oraz podać jej interpretację.
c) Jakie jest dopasowanie modelu regresji?
d) Oszacować miesięczne wydatki na prasę, jeżeli miesięczne dochody wynoszą 6 tys. zł.
a) Policzymy współczynnik korelacji Pearsona
Niech $x$ oznacza miesięczne dochody, zaś $y$ oznaczają miesięczne wydatki na prasę.
Żeby policzyć współczynnik korelacji Pearsona, to potrzebujemy tych danych:
$x_{i}$ | $y_{i}$ | $x_{i} – \overline{x}$ | $y_{i} – \overline{y}$ | $\left(x_{i} – \overline{x}\right)^{2}$ | $\left(y_{i} – \overline{y}\right)^{2}$ | $\left(x_{i} – \overline{x}\right) \left(y_{i} – \overline{y}\right)$ |
1 | 30 | -2 | -10 | 4 | 100 | 20 |
2 | 30 | -1 | -10 | 1 | 100 | 10 |
3 | 40 | 0 | 0 | 0 | 0 | 0 |
4 | 50 | 1 | 10 | 1 | 100 | 10 |
5 | 50 | 2 | 10 | 4 | 100 | 20 |
$\sum$ | 400 | 0 | 0 | 10 | 400 | 60 |
gdzie policzone wcześniej średnie wynoszą:
$$\overline{x} = \frac{1+2+3+4+5}{5} = \frac{15}{5} = 3$$
Zatem:
Odpowiedź: Współczynnik korelacji wynosi 0,9487, co oznacza bardzo silną korelację dodatnią.
b) Następnie wyznaczymy parametry a i b do wzoru prostej regresji.
Uwaga:
Tabelkę mamy z potrzebnymi wartościami mamy już zrobioną przy okazji liczenia korelacji Pearsona.
Zatem:
Stąd:
$$y = 6x + 22$$
Interpretacja:
Jeżeli $x$ rośnie o 1 (miesięczne dochody rosną o 1000 zł), to $y$ rośnie o 6 (miesięczne wydatki na prasę rosną o 6 zł).
c) Dopasowanie modelu regresji do danych wyznaczamy obliczając współczynnik zbieżności R kwadrat.
Wystarczy, że podniesiemy do kwadratu obliczoną w podpukcie a) wartość korelacji Pearsona:
$$R^{2} = 0,9487^{2} \approx 0,9$$
Interpretacja:
Oznacza to bardzo dobre dopasowanie modelu – 90% zmienności zmiennej objaśnianej jest wyjaśniana przez zmienność zmiennej objaśniającej.
d) Podstawiamy do równania regresji $x=6$, czyli:
$$y(6) = 6 \cdot 6 + 22 = 58$$
Odpowiedź: Gdyby średnie miesięczne dochody wyniosły 6000 zł, to wydatki na prasę wyniosłyby przeciętnie 58 zł.
Przedsiębiorstwo TOP sprowadza z Egiptu róże. $\hat{y} = 400x + 3000$ jest równaniem prostej regresji (X – cena goździków w zł/szt, Y – miesięczna sprzedaż róż w szt), współczynnik determinacji $R^{2} = 0,81$, współczynnik korelacji liniowej $r=0,9$.
Uzupełnij zdania:
a) Jeżeli cena goździka wzrośnie o 1 zł/szt, to …
b) Oceń dopasowanie modelu do danych empirycznych … $\%$ zmienności miesięcznej sprzedaży róż zostało wyjaśnione przez …
c) Przy cenie goździka 2 zł/szt prognozowana miesięczna sprzedaż róż wyniesie …
a) Jeżeli cena goździka wzrośnie o 1 zł/szt, to miesięczna sprzedaż róż wzroście o 400 sztuk
b) Oceń dopasowanie modelu do danych empirycznych 81 $\%$ zmienności miesięcznej sprzedaży róż zostało wyjaśnione przez co oznacza bardzo dobre dopasowanie modelu
c) Liczymy $y(2)$.
Zatem:
$$y(2) = 400 \cdot 2 + 3000 = 800 $$$$+ 3000 = 3800$$
Co oznacza, że sprzedaż prognozowana wyniesie 3800 sztuk.
Chcąc zbadać wpływ liczby znanych języków obcych na wynagrodzenie, oszacowano model regresji liniowej. Analiza wyników wskazuje, że nauczenie się kolejnego języka obcego powinno zwiększyć wynagrodzenie średnio o 1210 zł; zaś osoby znające 2 języki obce zarabiają przeciętnie 4350 zł. Jakość dopasowania tego modelu, mierzona współczynnikiem determinacji $R^{2}$ wyniosła 0,49.
- Zapisz ten model,
- Zinterpretuj oszacowania parametrów modelu,
- Oceń siłę i kierunek liniowej między wysokością wynagrodzenia a liczbą znanych języków obcych.
- Wiemy, że: $R^{2} = 0,49$, $a = 1210$, $y(2) = 4350$.
Skąd policzymy równanie prostej regresji, czyli:
$$y(x) = ax + b = 1210 \cdot x + b$$ $$y(2) = 1210 \cdot 2 + b = 4350$$ $$4350 = 2420 + b$$ $$b = 1930$$
Zatem:
$$y = 1210x + 1930$$ - Współczynnik liniowy $a$ wynosi 1210, co oznacza, że nauczenie się kolejnego języka zwiększa zarobki średnio o 1210 zł.
Współczynnik $b$ wynosi 1930, co oznacza przeciętne zarobki przy braku znajomości języków. - $$r = \sqrt{r^{2}} = 0,7$$
co oznacza średnią dodatnią korelację pomiędzy zmiennymi.
Bibliografia:
- Maksimowicz-Ajchel Alicja, Wstęp do statystyki: Metody opisu statystycznego, Warszawa, Wydawnictwo Uniwersytetu Warszawskiego, 2007, ISBN 978-83-235-0267-8
- Greń Jerzy, Statystyka matematyczna: Modele i zadania, Wyd. 4, Warszawa, PWN, 1974