Czym jest Centralne Twierdzenie Graniczne (CTG)?

Twierdzenie mówi o tym, że rozkład zbioru zmiennych losowych o tym samym rozkładzie (niekoniecznie normalnym) zbiega do rozkładu normalnego (przy n dążącym do nieskończoności).

Jeżeli jesteś na tej stronie nie tylko żeby zdać i zapomnieć : ) to to twierdzenie jest jednym z najważnieszych w nauce, polecam dowiedzieć się więcej np. tutaj

Jeżeli natomiast, chcesz ograniczyć swoje zainteresowania statystyką do zdania egzaminu po najmniejszej linii oporu (nie ma w tym nic złego! 😅) to praktyczne zastosowanie mówi nam w jaki sposób możemy wykorzystać rozkład normalny do przybliżenia rozkładu sumy / średniej / proporcji dużej liczby niezależnych zmiennych losowych.

Sposób rozwiązania jest podobny jak w typowych zadaniach rozkładu normalnego, ale „standaryzujemy” zmienna losową w inny sposób-zależny od przyjętego modelu.

Modele

1. CTG dla sum
$$\frac{\sum_{i=1}^n X_i-n\mu}{\sigma\sqrt n} $$

2. CTG dla średnich
$$\frac{\overline{X}-\mu}{\sigma \sqrt n}$$
3. CTG dla prób o rozkładzie Bernoulliego (tw.Demoivre’a-Laplace’a)
$$\frac{S_n-np}{\sqrt{np(1-p)}}$$
4. CTG dla proporcji
$$\frac{\hat p-p}{\sqrt{\frac{p(1-p)}{n}}}$$

1. Centralne twierdzenie graniczne dla sum
Twierdzenie mówi, że dla dużej liczby $n$ zmienna losowa $S_n=X_1+…+X_n$, gdzie $X_i$ ma rozkład normalny $N(m \space \sigma)$ ma rozkład:
$$E(S_n)=n \cdot \mu$$ $$Var(S_n)=n \cdot \delta^2$$
Czyli:$ S_n \sim N(n \cdot \mu , \sqrt n \cdot \delta)$
Stąd zmienna losową $S_n$ standaryzujemy następująco (odejmujemy wartość oczekiwaną i dzielimy przez pierwiastek z wariancji czyli odchylenie standardowe)
$$\frac{\sum_{i=1}^n X_i-n\mu}{\sigma\sqrt n} $$
Dlatego zachodzi:
$$P\Big(\frac{\sum_{i=1}^n X_i-n\mu}{\sigma\sqrt n} < x \Big)\to \Phi (x)\space dla\space n \to \infty$$
Gdzie $\Phi(x)$ jest wartością dystrybuanty rozkładu normalnego standaryzowanego, którego wartości możemy znaleźć w tablicach.
Przykład
Wina może przewieźć obciążenie maksymalnie 900 kg. Waga człowieka jest zmienną losową o rozkładzie normalnym $N(75, 15)$. Jakie jest prawdopodobieństwo, że przy 13 osobach w windzie, limit wagi nie zostanie przekroczony?
Rozwiązanie
Waga pojedynczej osoby $X_i$ ma rozkład $N(m,\sigma)=N(75,15)$
$S_n=X_1+X_2+…+X_n$ oznacza sumę wag 13 osóbWaga grupy 13 osób(sumy 13 niezależnych zmiennych losowych) ma rozkład $N(n\cdot m, \sigma \cdot \sqrt n)$Chcemy obliczyć prawdopodobieństwo
$P(S_n \le 900)$Standaryzujemy zmienną losową $S_n$ poprzez odjęcie od niej średniej i podzielenie przez odchylenie standardowe
$$P (S_n \le 900)=P \Big(\frac{S_n-n\cdot \mu}{\sigma \sqrt n} \le \frac{900-n \cdot \mu}{\sigma \sqrt n}\Big)=$$
Możemy w zapisie zmienić na $U$, która jest zmienną losową o rozkładzie $N(0,1)$
$$=P \Big(U \le \frac{900 -13 \cdot 75}{15\sqrt 13}\Big)=P(U \le -1.385)=\Phi(-1.385)=$$
Ponieważ często tablice rozkładu normalnego nie zawierają ujemnych wartości przekształcamy wyrażenie:
$$=1-\Phi(-1.385)=1-0.917=0.083$$
Odpowiedź: Prawdopodobieństwo, że przy 13 osobach limit wagi nie zostanie przekroczony wynosi $8.3\% $.

2. Centralne Twierdzenie Graniczne dla średnich
Twierdzenie mówi, że dla dużej liczby $n$, zmienna losowa $\overline{X_n}=\frac{x_1+x_2+..x_n}{n}$, gdzie $X_i$ ma rozkład normalny $N(\mu, \sigma)$ ma rozkład:
$$E(\overline{X_n})= \mu$$ $$Var(\overline{X_n})=\frac{\delta ^2}{n}$$
Czyli $\overline{X_n} \sim N(\mu, \frac{\delta}{\sqrt n})$
A więc zmienną losową $S_n$ standaryzujemy następująco:
$$P\Big(\frac{\overline{x}- \mu }{\frac{\delta}{ \sqrt n}}\Big) < x \to \Phi(x) \space dla \space n \to \infty$$
Przykład
Jakie jest prawdopodobieństwo, że średnia waga osoby z grupy 13 osób z poprzedniego przykładu (waga jednej osoby ma rozkład normalny $N(75,15)$) jest większa od 70kg, ale mniejsza od 75kg?
Rozwiązanie
Chcemy obliczyć prawdopodobieństwo:
$$P(70 < \overline{x} < 75)$$
Standaryzujemy zmienną losową $S_n$ poprzez odjęcie od niej średniej i podzielenie przez odchylenie standardowe
$$P\Big( \frac{70-\mu}{\frac{\delta}{\sqrt n}} < \frac{\overline{x}-\mu}{\frac{\delta}{\sqrt n}} < \frac{75-\mu}{\frac{\delta}{\sqrt n}}\Big)=P\Big(\frac{70-75}{\frac{15}{\sqrt 13}} < U < \frac{75-75}{\frac{15}{\sqrt 13}}\Big)=$$
$$=P(-1.2 < U < 0)= P(U < 0)- P(U \le -1.2)= P(U \le 0)- P(U \le -1.2)=$$
$$=\Phi(0)=\Phi(-1.2)=\Phi(0)=\Phi(0)-(1-\Phi(1.2))=0.5-(1-0.885)=0.385$$Odpowiedź: Prawdopodobieństwo, że przy 13 osobach średnia waga będzie w przedziale $(70, 75)$ wynosi $38.5\%$.
3. CTG z rozkładem Bernoulliego (tw. Demoivre’a-Laplace’a)
$S_n=X_1+X_2…+X_n$ to liczba sukcesów w $n$ próbach Bernoulliego z prawdopodobieństwem sukcesu $p$ (gdzie $X_i$ przyjmuje wartość 1 i 0).
$$E(S_n)=n\cdot p $$ $$Var(S_n)=n \cdot p \cdot q$$ $$q=1-p$$
Czyli, $S_n$ ma rozkład $N( np, \sqrt{np(1-p)})$ ( przy spełnionych założeniach twierdzenia)Twierdzenie mów, że zmienna losowa $S_n$ po standaryzacji dąży do rozkładu normalnego standaryzowanego:
$$P\Big(\frac{S_n-np}{\sqrt{np(1-p)}} < x \Big) \to \Phi(x) \space przy \space n \to \infty $$
Przykład
Oszacowano, że pewna fabryka śrub produkuje 2% braków. Jakie jest prawdopodobieństwo, że w partii 2000 co najmniej 20, ale nie więcej niż 40 okaże się brakami?
Rozwiązanie
$p=0.02$ rozkład Bernoulliego
$$m=n \cdot p =2000 \cdot 0.02=40$$
$$s^2=n \cdot p \cdot q=2000 \cdot 0.02 \cdot 0.98=39.2$$
$S_n=X_1+…+X_{2000}$
$$P(S_n \in <20, 40>)=P(S_n \le 40)-P(S_n \le 19)=$$
$$=P\Big(\frac{S_n-40}{\sqrt{39.2}} \le \frac{40-40}{\sqrt{39.2}}\Big)-P\Big(\frac{S_n-40}{\sqrt{39.2}} \le \frac{19-40}{\sqrt{39.2}}\Big)=$$
$$=\Phi(0)-\Phi(-3.354)=0.5-0=0.5$$Odpowiedź: Prawdopodobieństwo wynosi 50%.
4. CTG dla frakcji (odsetek/proporcji)
Centralne Twierdzenie Graniczne w tej wersji mówi, że wraz z liczebnością próby rozkładu frakcji w próby zbliża się do rozkładu normalnego o parametrach:
$$E(\hat p)=p$$ $$Var(\hat p)= \frac{pq}{n}$$
a więc $ p \sim N(p,\sqrt{\frac{pq}{n}})$
Zatem standaryzujemy następująco:
$$P\Big( \frac{\hat p-p}{\sqrt{\frac{p(1-p)}{n}}} \le x \Big) \to \Phi(x) \space dla \space n \to \infty $$

Uwaga: Musi być spełnione założenie $pq > 5$ oraz $qn> 5$

Przykład
Wśród grupy piesków 37% są rasowe. Jakie jest prawdopodobieństwo, że w grupie 150 piesków odsetek rasowych będzie pomiędzy 30 a 40% ?
Rozwiązanie:
Chcemy obliczyć prawdopodobieństwo $P(30 < \hat P < 40)$
$$P(30 < \hat P < 40)=P\Big(\frac{0.30-0.37}{\sqrt{\frac{0.37 \cdot 0.67}{150}}} < U < \frac{0.40-0.37}{\sqrt{\frac{0.37 \cdot 0.67}{150}}}\Big)=P(-1.79 < Z=U < 0.77)=$$
$$=\Phi(0.77)-\Phi(-1.79)=\Phi(0.77)-(1-\Phi(-1.79))=0.779-(1-0.963)=0.742$$
Odpowiedź: Prawdopodobieństwo wynosi 74.2%
0