Regresja liniowa to znana z liceum funkcja liniowa, opisuje zależność pomiędzy 2 zmiennymi.

$$\large {\hat{y_{i}} = a \cdot x_{i} + b}$$

gdzie:
$\hat{y_{i}}$ – zmienna objaśniana (ilościowa),
$x_{i}$ – zmienna objaśniająca (ilościowa lub binarna),
$a$ – współczynnik regresji (interpretacja: o ile przeciętnie zmieni się wartość zmiennej $y$, jeśli wartość zmiennej $x$ wzrośnie o jedną jednostkę),
$b$ – wyraz wolny (nie interpretowany)

Wyznaczanie parametrów prostej regresji

Do wyznaczania prostej regresji regresji jednej zmiennej (oraz linii trendu) używamy  metody najmniejszych kwadratów (MNK).

$$ \large{a = \frac{\sum_{i=1}^{n} \left(x_{i} – \overline{x} \right)\left(y_{i} – \overline{y} \right)}{\sum_{i=1}^{n} \left(x_{i} – \overline{x}\right)^{2}}}$$ $$\large{b = \overline{y} – a\overline{x}}$$

gdzie:
$\overline{x}$ – średnia $x$,
$\overline{y}$ – średnia $y$.
Tabelka, którą tworzymy, jest podobna, jak w przypadku korelacji Pearsona (stąd bardzo często korelację i prostą regresji liczymy w tym samym zadaniu).

Zadanie.
Zbadano wydatki na kulturę i wielkość miesięcznego dochodu dla 7 osób. W jakim stopniu zmiana miesięcznego dochodu wpływa na zmianę wydatków na kulturę?

osoba $x_{i}$ – wydatki na kulturę $y_{i}$ – średnie dochody
A 0,1 0,5
B 0,9 1,0
C 0,8 1,5
D 1,3 1,5
E 1,0 2,0
F 1,5 2,0


gdzie:
$X$ – miesięczny dochód (w 1000 zł),
$Y$ – miesięczne wydatki na kulturę (w 100 zł).

Policzmy na początku średnie $\overline{x}$ i $\overline{y}$:

$$\overline{x} = \frac{0,5+1,0+1,5+1,5+2,0+2,0}{6} = \frac{8,5}{6}\approx 1,4$$
$$\overline{y} = \frac{0,1+0,9+0,8+1,3+1,0+1,5}{6} = \frac{5,6}{6}\approx 0,9$$

Tworzymy tabelkę:

osoba $y_{i}$ $x_{i}$ $x_{i} – \overline{x}$ $y_{i} – \overline{y}$ $\left(x_{i} – \overline{x}\right) \left(y_{i} – \overline{y}\right)$ $\left(x_{i} – \overline{x}\right)^{2}$
A 0,1 0,5 0,5-1.4=-0,9 0,1-0,9=-0,8 0,72 0,81
B 0,9 1,0 -0,4 0,0 0,00 0,16
C 0,8 1,5 0,1 -0,1 -0,01 0,01
D 1,3 1,5 0,1 0,4 0,04 0,01
E 1,0 2,0 0,6 0,1 0,06 0,36
F 1,5 2,0 0,6 0,6 0,36 0,36
$\sum$ 5,6 8,5 1,17 1,71

Zatem:

$$a = \frac{\sum_{i=1}^{n} \left(x_{i} – \overline{x} \right)\left(y_{i} – \overline{y} \right)}{\sum_{i=1}^{n} \left(x_{i} – \overline{x}\right)^{2}} = \frac{1,17}{1,71} \approx 0,68$$
$$b = \overline{y} – a\overline{x} = 0,9 – 1,4 \cdot 0,68 = -0,052$$

Stąd:

$$\hat{y_{i}} = a \cdot x_{i} + b = 0,68 \cdot x_{i} – 0,052$$

Interpretacja współczynników regresji liniowej

Interpretacja współczynnika liniowego:

Jeżeli X wzrasta o 1, to Y wzrasta średnio o 0.68.
Używając dokładnej treści naszego przykładu:

W jakim stopniu zmiana miesięcznego dochodu wpływa na zmianę wydatków na kulturę?

$$\hat{y_{i}} = a \cdot x_{i} + b = 0,68 \cdot x_{i} – 0,052$$

Odpowiedź: Wzrost miesięcznego dochodu o 100 zł (x wzrasta o 1) prowadzi do zwiększenia wydatków na kulturę o 6,8 zł (y wzrasta o 0,68).

Interpretacja wyrazu wolnego:

Współczynnik wyrazu wolnego to wartość $y$ gdy $x=0$.
Bardzo często taka sytuacja nie ma sensu (jeżeli np. X to wzrost a Y to waga, wtedy $X=0$ nie może zaistnieć).

Jeżeli polecenie zadania mówi aby zinterpretować oba współczynniki prostej regresji, możemy napisać, że współczynnik wyrazu wolnego ma interpretację matematyczną:
Jest to punkt przecięcia z osią OY – równy w naszym przykładzie $y=-0.052$.

Współczynnik determinacji liniowej R kwadrat

Jest to inaczej:

 współczynnik zbieżności $R^2$- określa procent zmienności zmiennej objaśnianej, który może być wyjaśniany za pomocą zmiennej objaśniającej w modelu regresji.

Lub innymi słowem:

Ocenia jak dobrze model regresji jest dopasowany do danych.
$$R^{2} = \frac{\sum_{i=1}^{n} (\hat{y_{i}}-\overline{y})^{2}}{\sum_{i=1}^{n} ({y_{i}-\overline{y})^{2}}}$$
gdzie:

  • licznik to suma kwadratów wynikających z modelu (zmienność wyjaśniona),
  • mianownik to całkowita suma kwadratów (zmienność całkowita).

Współczynnik determinacji można policzyć dużo prościej – po prostu podnosimy współczynnik korelacji R do kwadratu (stąd miara ta nazywana jest współczynnikiem R kwadrat)

Więcej o współczynniku determinacji $R^{2}$ tutaj.

Typowe przykłady

Przykład 1.

Miesięczne dochody (w tys. zł) Miesięczne wydatki na prasę (w zł)
1 30
2 30
3 40
4 50
5 50

a) Określić siłę i kierunek badanej zależności.
b) Wyznaczyć linię regresji oraz podać jej interpretację.
c) Jakie jest dopasowanie modelu regresji?
d) Oszacować miesięczne wydatki na prasę, jeżeli miesięczne dochody wynoszą 6 tys. zł.

a) Policzymy współczynnik korelacji Pearsona

Niech $x$ oznacza miesięczne dochody, zaś $y$ oznaczają miesięczne wydatki na prasę.
Żeby policzyć współczynnik korelacji Pearsona, to potrzebujemy tych danych:

$x_{i}$ $y_{i}$ $x_{i} – \overline{x}$ $y_{i} – \overline{y}$ $\left(x_{i} – \overline{x}\right)^{2}$ $\left(y_{i} – \overline{y}\right)^{2}$ $\left(x_{i} – \overline{x}\right) \left(y_{i} – \overline{y}\right)$
1 30 -2 -10 4 100 20
2 30 -1 -10 1 100 10
3 40 0 0 0 0 0
4 50 1 10 1 100 10
5 50 2 10 4 100 20
$\sum$ 400 0 0 10 400 60

gdzie policzone wcześniej średnie wynoszą:
$$\overline{x} = \frac{1+2+3+4+5}{5} = \frac{15}{5} = 3$$

$$\overline{y} = \frac{30+30+40+50+50}{5} = \frac{200}{5} = 40$$

Zatem:

$$r=\frac{\sum \left(x_{i} – \overline{x}\right) \left(y_{i} – \overline{y}\right)}{\sqrt{\sum \left(x_{i} – \overline{x}\right)^{2} \cdot \left(y_{i} – \overline{y}\right)}} = \frac{60}{\sqrt{400 \cdot 10}} \approx 0,9487$$

Odpowiedź: Współczynnik korelacji wynosi 0,9487, co oznacza bardzo silną korelację dodatnią.

b) Następnie wyznaczymy parametry a i b do wzoru prostej regresji.

Uwaga:
Tabelkę mamy z potrzebnymi wartościami mamy już zrobioną przy okazji liczenia korelacji Pearsona.
Zatem:

$$a = \frac{\sum_{i=1}^{n} \left(x_{i} – \overline{x} \right)\left(y_{i} – \overline{y} \right)}{\sum_{i=1}^{n} \left(x_{i} – \overline{x}\right)^{2}} = \frac{60}{10} = 6$$
$$b = \overline{y} – a\overline{x} = 40 – 6 \cdot 3 = 22$$

Stąd:
$$y = 6x + 22$$

Interpretacja:

Jeżeli $x$ rośnie o 1 (miesięczne dochody rosną o 1000 zł), to $y$ rośnie o 6 (miesięczne wydatki na prasę rosną o 6 zł).

c) Dopasowanie modelu regresji do danych wyznaczamy obliczając współczynnik zbieżności R kwadrat.

Wystarczy, że podniesiemy do kwadratu obliczoną w podpukcie a) wartość korelacji Pearsona:

$$R^{2} = 0,9487^{2} \approx 0,9$$

Interpretacja:

Oznacza to bardzo dobre dopasowanie modelu – 90% zmienności zmiennej objaśnianej jest wyjaśniana przez zmienność zmiennej objaśniającej.

d) Podstawiamy do równania regresji $x=6$, czyli:

$$y(6) = 6 \cdot 6 + 22 = 58$$

Odpowiedź: Gdyby średnie miesięczne dochody wyniosły 6000 zł, to wydatki na prasę wyniosłyby przeciętnie 58 zł.

Przykład 2.
Przedsiębiorstwo TOP sprowadza z Egiptu róże. $\hat{y} = 400x + 3000$ jest równaniem prostej regresji (X – cena goździków w zł/szt, Y – miesięczna sprzedaż róż w szt), współczynnik determinacji $R^{2} = 0,81$, współczynnik korelacji liniowej $r=0,9$.
Uzupełnij zdania:
a) Jeżeli cena goździka wzrośnie o 1 zł/szt, to …
b) Oceń dopasowanie modelu do danych empirycznych … $\%$ zmienności miesięcznej sprzedaży róż zostało wyjaśnione przez …
c) Przy cenie goździka 2 zł/szt prognozowana miesięczna sprzedaż róż wyniesie …

a) Jeżeli cena goździka wzrośnie o 1 zł/szt, to miesięczna sprzedaż róż wzroście o 400 sztuk

b) Oceń dopasowanie modelu do danych empirycznych 81 $\%$ zmienności miesięcznej sprzedaży róż zostało wyjaśnione przez co oznacza bardzo dobre dopasowanie modelu

c) Liczymy $y(2)$.
Zatem:
$$y(2) = 400 \cdot 2 + 3000 = 800 $$$$+ 3000 = 3800$$
Co oznacza, że sprzedaż prognozowana wyniesie 3800 sztuk.

Przykład 3.
Chcąc zbadać wpływ liczby znanych języków obcych na wynagrodzenie, oszacowano model regresji liniowej. Analiza wyników wskazuje, że nauczenie się kolejnego języka obcego powinno zwiększyć wynagrodzenie średnio o 1210 zł; zaś osoby znające 2 języki obce zarabiają przeciętnie 4350 zł. Jakość dopasowania tego modelu, mierzona współczynnikiem determinacji $R^{2}$ wyniosła 0,49.
  1. Zapisz ten model,
  2. Zinterpretuj oszacowania parametrów modelu,
  3. Oceń siłę i kierunek liniowej między wysokością wynagrodzenia a liczbą znanych języków obcych.
  1. Wiemy, że: $R^{2} = 0,49$, $a = 1210$, $y(2) = 4350$.
    Skąd policzymy równanie prostej regresji, czyli:
    $$y(x) = ax + b = 1210 \cdot x + b$$ $$y(2) = 1210 \cdot 2 + b = 4350$$ $$4350 = 2420 + b$$ $$b = 1930$$
    Zatem:
    $$y = 1210x + 1930$$
  2. Współczynnik liniowy $a$ wynosi 1210, co oznacza, że nauczenie się kolejnego języka zwiększa zarobki średnio o 1210 zł.
    Współczynnik $b$ wynosi 1930, co oznacza przeciętne zarobki przy braku znajomości języków.
  3. $$r = \sqrt{r^{2}} = 0,7$$
    co oznacza średnią dodatnią korelację pomiędzy zmiennymi.

Bibliografia:

  • Maksimowicz-Ajchel Alicja, Wstęp do statystyki: Metody opisu statystycznego, Warszawa, Wydawnictwo Uniwersytetu Warszawskiego, 2007, ISBN 978-83-235-0267-8
  • Greń Jerzy, Statystyka matematyczna: Modele i zadania, Wyd. 4, Warszawa, PWN, 1974
12+