Linia trendu to najczęściej funkcja prostoliniowa opisująca zmiany zjawiska w czasie
$$ \large{y = a \cdot t + b}$$
gdzie y to wartość zjawiska w kolejnym okresie t
$$\large {a = \frac{\sum_{i=1}^{n} \left(t_{i} – \overline{t} \right)\left(y_{i} – \overline{y} \right)}{\sum_{i=1}^{n} \left(t_{i} – \overline{t}\right)^{2}}}$$
$$\large{b = \overline{y} – a\overline{t} }$$
Linia trendu jest podobna do prostej regresji liniowej.
Zamiast wartości $x$, mamy kolejne numery okresów $t$ (t=1, t=2, t=3,…).
Pewien emeryt od poniedziałku do piątku notował ile czasu spędzał codziennie na czytaniu ulubionej gazety. Uzyskał następujące wartości (w min.): $18,22,25,23,26$.
Oszacuj i zinterpretuj parametry liniowej funkcji trendu opisującej zmiany czasu czytania gazety w kolejnych dniach.
$t=1,2,3,4,5$ – kolejne dnie tygodnia,
$Y$ – czas czytania.Tworzymy tabelkę:
$t_{i}$ | $y_{i}$ | $t_{i}-\overline{t}$ | $y_{i}-\overline{y}$ | $\left(t_{i}-\overline{t}\right)^{2}$ | $\left(t_{i}-\overline{t}\right)\left(y_{i} – \overline{y}\right)$ |
1 | 18 | -2,0 | -4,8 | 4,0 | 9,6 |
2 | 22 | -1,0 | -0,8 | 1,0 | 0,8 |
3 | 25 | 0,0 | 2,2 | 0,0 | 0,0 |
4 | 23 | 1,0 | 0,2 | 1,0 | 0,2 |
5 | 26 | 2,0 | 3,2 | 4,0 | 6,4 |
$\sum$ | 10,0 | 17,0 |
gdzie:
$\overline{t} = \frac{1+2+3+4+5}{5} = 3$
$\overline{y} = \frac{18+22+25+23+26}{5} = 22,8$
Podstawiamy sumy ostatnich kolumn:
$a = \frac{\sum_{i=1}^{n} \left(t_{i} – \overline{t} \right)\left(y_{i} – \overline{y} \right)}{\sum_{i=1}^{n} \left(t_{i} – \overline{t}\right)^{2}} = \frac{17}{10} = 1,7$
Podstawiamy wartości a i wartości średnich:
$b = \overline{y} – a\overline{t} = 22,8 – 3 \cdot 1,7 = 17,7$
Wobec tego:
$$y = 17,7 + 1,7 \cdot t$$
Interpretacja:
Jeżeli $t$ rośnie o 1, to $y$ rośnie o 1,7, czyli emeryt czyta średnio o 1,7 więcej dziennie.
Współczynnika wyrazu wolnego $b = 17,7$ nie interpretujemy. Jest to wartość Y, gdyby $t$ było równe 0.
Na niektórych uczelniach korzysta się też w innych wzorów (które dają oczywiście te same wyniki).
Tutaj obliczyliśmy linię trendu korzystając ze wzoru wykorzystującego kowariancję i wariancję:
$$y = a \cdot t + b$$
$$a = \frac{cov(t,y)}{s^{2}(t)}$$
$$b = \overline{y} – a \cdot \overline{t}$$
gdzie wariancję możemy policzyć ze wzoru: $s^{2}(t) = \overline{t^{2}} – \left(\overline{t^{2}}\right)^{2}$
a kowariancję: $cov(t,y) = \overline{yt} – \overline{t} \cdot \overline{y} $
$t$ | $y$ | $t \cdot y$ | $t^{2}$ | |
1,0 | 100,0 | 100,0 | 1,0 | |
2,0 | 102,0 | 204,0 | 4,0 | |
3,0 | 108,0 | 324,0 | 9,0 | |
4,0 | 124,0 | 496,0 | 16,0 | |
średnie | 2,5 | 108,5 | 281,0 | 7,5 |
gdzie:
$\overline{t} = \frac{1+2+3+4}{4} = 2,5$
$\overline{y} = \frac{100+102+108+124}{4} = 108,5$
$\overline{ty} = \frac{100+204+324+496}{4} = 281$
$\overline{t^{2}} = \frac{1+4+9+16}{4} = 7,5$
Policzmy wariację z $t$ oraz kowariancję z $t$ i $y$, czyli:
$s^{2}(t) = \overline{t^{2}} – \left(\overline{t^{2}}\right)^{2} = 7,5 – 2,5^{2} $$= 1,25$
$cov(t,y) = \overline{yt} – \overline{t} \cdot \overline{y} = 281 $$- 2,5 \cdot 108,5 = 9,75$
Stąd współczynnik liniowy wynosi:
$a = \frac{cov(t,y)}{s^{2}(t)} = \frac{9,75}{1,25} = 7,8$
Zostało nam do policzenia współczynnik $b$. Wobec tego:
$b = \overline{y} – a \cdot \overline{t} = 108,5 – 7,8 \cdot 2,5$$ = 89$
Zatem linia trendu to:
$$y = 7,8x + 89$$
Bibliografia:
- Maksimowicz-Ajchel Alicja, Wstęp do statystyki: Metody opisu statystycznego, Warszawa, Wydawnictwo Uniwersytetu Warszawskiego, 2007, ISBN 978-83-235-0267-8