Minimalna liczebność próby

Na początku przedstawimy typowe zadania z egzaminów, które wyliczają minimalną liczebność próby.

Zadanie: Na podstawie losowej próby szacujemy procent dorosłych osób, które umieją czytać i pisać. Ile osób musi liczyć próba, jeżeli błąd badania ma być mniejszy od 0,01 z prawdopodobieństwem 0,9?

Zadanie: W celu oszacowania 90-procentowego przedziału ufności dla średniej wysokości pędu kukurydzy zmierzono 12 roślin i uzyskano (w cm) średnią $x=178$ oraz $s=9,5$, gdzie $s$ to odchylenie standardowe. Sprawdzić czy próba jest wystarczająco liczna do wyznaczenia przedziału ufności dla średniej, z maksymalnym błędem szacunku 4 cm. Jeśli nie, określić ile elementów należy dobrać do próby.

Zadanie: Spośród populacji studentów Krakowa wylosowano 400 osób, którym zadano pytanie, czy palą papierosy. Stwierdzono, że 160 osób odpowiedziało twierdząco. Sprawdzić, czy wylosowana próba jest wystarczająca dla budowy przedziału ufności dla współczynnika udziału palących, jeśli przyjąć, że błąd szacowania nie może przekroczyć 4 $\%$, a współczynnik ufności wynosi 0,95.

Jak rozpoznać zadanie na minimalną liczebność próby?

Często polecenie zacznie się od słów Jaka jest minimalna liczebność próby…

W zadaniu może być wspomniany przedział ufności dla średniej lub frakcji (odsetka), szacowanie średniej lub frakcji.

Dodatkowo polecenie będzie mówiło o dokładności, błędzie badania lub szacowania.

W jaki sposób rozwiązywać ten typ zadania?

Są 4 wzory, które musimy zapamiętać. Należy rozpoznać, który wzór trzeba użyć i potem podstawić do wzoru.
Niżej omówimy wzory na minimalną liczebność próby:

Model	Wzór
Model 1 – dla średniej przy znanym odchyleniu standardowym populacji	$$\large {n \geq \left(u_{1 – \frac{\alpha}{2}} \cdot \frac{\sigma}{d}\right)^{2}}$$
Model 2 – dla średniej przy nieznanym odchyleniu standardowym populacji	$$\large {n \geq \left(t_{1 – \frac{\alpha}{2}}^{n_{0}-1} \cdot \frac{s}{d}\right)^{2}}$$
Model 3 – dla frakcji (odsetka) przy znanym szacunkowym odsetku	$$\large {n \geq u_{1 – \frac{\alpha}{2}}^{2} \cdot \frac{p_{0}(1-p_{0})}{d^{2}}}$$
Model 4 – dla frakcji (odsetka) przy nieznanym szacunkowym odsetku	$$\large {n \geq u_{1 – \frac{\alpha}{2}}^{2} \cdot \frac{1}{4d^{2}}}$$

Dodatkowo będziemy musieli <link>odczytywać wartości z tablic rozkładu normalnego i t-Studenta.

1. Model dla średniej przy znanym odchyleniu standardowym populacji

Zmienna $X$ ma rozkład normalny: $X \sim N(\mu, \sigma)$, gdzie:
$\sigma$ – odchylenie standardowe,
$d$ – maksymalny dopuszczalny błąd pomiaru,
$\alpha$ – poziom istotności,
$u_{1 – \frac{\alpha}{2}}$ – wartość krytyczna odczytana z tablicy rozkładu normalnego.

Wówczas:
$$\large {n \geq \left(u_{1 – \frac{\alpha}{2}} \cdot \frac{\sigma}{d}\right)^{2}}$$

Przykład.
Badamy wagę jabłek pewnego sadu. Wiemy, że waga ma rozkład normalny z odchyleniem standardowym równym 50 g. Ile jabłek musimy zważyć aby na poziomie istotności $\alpha=0.05$ i maksymalnym błędem 20 g oszacować średnią wagę?

Obliczamy:
$\sigma = 50$,
$d = 20$ (maksymalny błąd),
$\alpha = 0.05$,
$1-\frac{\alpha}{2} = 0.975$,
$u_{0.975} = 1.96$ (odczytujemy z tablic rozkładu normalnego),
Zatem:
$$n \geq \left(\frac{1.96 \cdot 50}{20}\right)^{2}$$ $$n \geq 24,01 \approx 25$$
Wartość zaokrąglamy do góry (gdyż dla $n=24$ błąd wynosiłby więcej niż d=20 g).
Odpowiedź: Należy zważyć co najmniej 25 jabłek.

2. Model dla średniej przy nieznanym odchyleniu standardowym populacji

Zmienna $X$ ma rozkład normalny $X \sim N(\mu, \sigma)$, gdzie:
$n_{0}$ – rozmiar próby wstępnej,
$s$ – odchylenie standardowe oszacowane z próby wstępnej,
$d$ – maksymalny dopuszczalny błąd pomiaru,
$\alpha$ – poziom istotności,
$t_{1 – \frac{\alpha}{2}}^{n_{0}-1}$ – wartość krytyczna odczytana z tablicy rozkładu t-Studenta.

Wówczas:
$$\large {n \geq \left(t_{1 – \frac{\alpha}{2}}^{n_{0}-1} \cdot \frac{s}{d}\right)^{2}}$$

W tych zadaniach pojawi się informacja o próbie wstępnej czy badaniu pilotażowym.

Przykład.
Wyznacz minimalną liczebność próby dla oszacowania średniego wzrostu uczniów w klasach piątych szkół podstawowych,jeżeli w próbie wstępnej liczącej 10 uczniów otrzymano średnią 150 cm i wariancję 225 cm^2. Zakładamy dopuszczalny błąd szacunku 5 cm przy współczynniku ufności 0,95.

Polecenie mówi o próbie wstępnej, więc zastosujemy model 2.
$d=5$,
$T=2,262$ (wartość z tablic rozkładu t-Studenta dla $n-1=9$ stopni swobody i poziomu istotności równego $\alpha= 0.05$),
$s=15$ cm.
Zatem:
$$n \geq \left(t_{1 – \frac{\alpha}{2}}^{n_{0}-1} \cdot \frac{s}{d}\right)^{2}$$$$n \geq \left(\frac{2,262 \cdot 15}{5}\right)^{2}$$ $$n \geq 46,05 \approx 47$$Odpowiedź: Minimalna liczebność próby wynosi $47$ osób.

3. Model dla frakcji (odsetka) przy znanym szacunkowym odsetku

Zmienna $X$ ma rozkład dwupunktowy, $P(x=1) = p$, gdzie:
$p_{0}$ – znany szacunkowy procent,
$d$ – maksymalny dopuszczalny błąd pomiaru,
$\alpha$ – poziom istotności,
$u_{1 – \frac{\alpha}{2}}$ – wartość krytyczna odczytana z tablicy rozkładu normalnego.

Wówczas:
$$\large {n \geq u_{1 – \frac{\alpha}{2}}^{2} \cdot \frac{p_{0}(1-p_{0})}{d^{2}}}$$

Przykład.
Spośród populacji studentów Krakowa wylosowano 400 osób, którym zadano pytanie, czy palą papierosy. Stwierdzono, że 160 osób odpowiedziało twierdząco. Sprawdzić, czy wylosowana próba jest wystarczająca dla budowy przedziału ufności dla współczynnika udziału palących, jeśli przyjąć, że błąd szacowania nie może przekroczyć 4 $\%$, a współczynnik ufności wynosi 0,95.

Mamy wyznaczyć minimalną próbę dla frakcji (współczynnika udziału). Podana jest . Mamy podaną wielkość badanej grupy (160 osób), więc możemy policzyć $p_{0} = \frac{160}{400} = 0,4$, czyli zastosujemy model 3
$d = 0,04$,
$\alpha = 0,05$,
$1-\frac{\alpha}{2} = 0.975$,
$u_{0.975} = 1.96$,
Zatem:
$$n \geq u_{1 – \frac{\alpha}{2}}^{2} \cdot \frac{p_{0}(1-p_{0})}{d^{2}}$$$$n \geq u_{1,96}^{2} \cdot \frac{0,4(1-0,4)}{0,04^{2}}$$

$$n \geq 3,8416 \cdot \frac{0,24}{0,0016} = 576,24 = \left\{577,578,…\right\}$$

Odpowiedź: Minimalna liczebność to 577 osób więc wylosowana próba nie jest wystarczająca dla budowy przedziału ufności dla współczynnika udziału palących.

4. Model dla frakcji (odsetka) przy nieznanym szacunkowym odsetku

Zmienna $X$ ma rozkład dwupunktowy, $P(x=1) = p$, gdzie:
$d$ – maksymalny dopuszczalny błąd pomiaru,
$\alpha$ – poziom istotności,
$u_{1 – \frac{\alpha}{2}}$ – wartość krytyczna odczytana z tablicy rozkładu normalnego.

Wówczas:
$$\large {n \geq u_{1 – \frac{\alpha}{2}}^{2} \cdot \frac{1}{4d^{2}}}$$

Przykład.
Na podstawie losowej próby szacujemy procent dorosłych osób, które umieją czytać i pisać. Ile osób musi liczyć próba, jeżeli błąd badania ma być mniejszy od 0,01 z prawdopodobieństwem 0,9?

$d = 0,01$,
$\alpha = 0,09$ – poziom istotności,
$1 – \frac{\alpha}{2} = 0,95$,
$u_{0,95} = 1,645$.
Zatem:

$$n \geq u_{1 – \frac{\alpha}{2}}^{2} \cdot \frac{1}{4d^{2}}$$$$n \geq 1,645^{2} \cdot \frac{1}{4\cdot 0,01^{2}} = 6765,06 \approx 6766$$

Odpowiedź: Musi być co najmniej 6766 osoby.

Skąd się bierze wzór na minimalną wielkość próby?

Weźmy np. model 1 – minimalną liczebność próbki dla średniej przy znanym odchyleniu standardowym populacji.

Wzór na przedział ufności wygląda następująco:

$$P\left(\overline{X} – u_{1- \frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}} < m < \overline{X} + u_{1- \frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}\right) = 1 – \alpha$$

Błędem oszacowania jest wyrażenie odejmowania i dodawania do średniej z próby.

Czyli jeżeli przedział ufności wynosi (40,60) to średnią z próby jest oczywiście 10 a błędem $d=10$.

Skoro:
$$d \geq u_{1- \frac{\alpha}{2}} \cdot \frac{\sigma}{\sqrt{n}}$$

To przekształcając wzór otrzymujemy:
$$n \geq \left(u_{1 – \frac{\alpha}{2}} \cdot \frac{\sigma}{d}\right)^{2}$$

Zadania z rozwiązaniami:

Zadanie 1.
Rozkład wagi studentów politechnik można ująć jako rozkład $N(m, \sigma)$. Na podstawie 10-elementowej próby otrzymano $s=4$. Ilu studentów należy wziąć do próby, aby przy współczynniku ufności 0,98 oszacować przeciętną wagę z maksymalnym błędem 0,5 kg?

Niech:
$\alpha = 0,02$,
$1-\frac{\alpha}{2} = 0,99$,
$s = 4$ kg,
$d = 0,5$ kg,
$t_{0,02,9} = 2,821$.
Będziemy korzystać ze wzoru 2, czyli:
$$n \geq \left(2,821 \cdot \frac{4}{0,5}\right)^{2}$$ $$n \geq 7,96 \cdot 64 = 509,3 \approx 509$$
Zatem:
$$n_{min}=509+1 = 509 + 1 = 510$$
Odpowiedź: Należy do próby wziąć co najmniej 510 studentów.

Zadanie 2.
Aby jak najlepiej zorganizować pracę personelu domu towarowego w soboty, dyrekcja chciałaby wiedzieć m.in., ile czasu spędzają w nim klienci w tymże dniu. Przygotowując odpowiednie badanie, wykonano pilotaż (badanie wstępne) na przypadkowo wybranych 10 klientach w celu uzyskania wstępnych informacji. Otrzymano średni czas przebywania w domu towarowym $\overline{x} = 18,7$ min oraz odchylenie standardowe czasu $s^{2} = 8,22$ min. Na jak licznej próbie należy przeprowadzić badanie zasadnicze, aby oszacować średnią w populacji klientów, z błędem nie przekraczającym 1,5 minuty przy prawdopodobieństwie 0,95 niepopełnienia błędu większego.

Niech:
$n = 10$,
$s^{2} = 8,22$,
$d = 1,5$,
$1-\alpha = 0,95$,
$\alpha = 0,05$,
$t_{0,05,9} = 2,262$.
Będziemy korzystać ze wzoru 2, czyli:
$$n \geq \left(2,262 \cdot \frac{8,22}{1,5}\right)^{2}$$ $$n \geq 5,12 \cdot 30,03 = 153,75 \approx 154$$
Odpowiedź: Należy dysponować próbą 154 osób.

Zadanie 3.
Fabryka zakupiła nowy agregat. Wylosowano 500 wyprodukowanych przez ten agregat detali. Okazało się, że 20 z nich nie spełnia normy jakości.
a) Podać $95 \%$ przedział ufności dla wadliwości,
b) Jak liczbą próbę należałoby pobrać, aby móc oszacować przedziałowo wadliwość nowego agregatu z dokładnością $\pm 1\%$ na poziomie ufności $95 \%$?

Ad. a)
Mamy tu rozkład dwupunktowy (detal jest wadliwy albo dobry). Stosujemy następujący wzór:

$$\left(p_{0}-u_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{p_{0}(1-p_{0})}{n}},p_{0}+u_{1-\frac{\alpha}{2}}\cdot\sqrt{\frac{p_{0}(1-p_{0})}{n}}\right)$$

gdzie:
$n = 500$,
$p_{0} = \frac{20}{500} = 0,04$,
$1 – \alpha = 0,95$,
$\alpha = 0,05$,
$1 – \frac{\alpha}{2} = 0,975$,
$u_{0,975} = 1,95996$.
Zatem:

$$\left(0,04-1,95996\cdot\sqrt{\frac{0,04(1-0,04)}{500}},0,04+1,95996\cdot\sqrt{\frac{0,04(1-0,04)}{500}}\right)$$

Ad. b)
Wyznaczymy teraz liczność próby niezbędną do oszacowania wadliwości nowego agregatu z dokładnością $\pm 1\%$. Ponieważ wiemy, że na 500 badanych detali 20 okazało się wadliwych, więc $p_{0} = 0,04$.
Teraz będziemy korzystać ze wzoru 3, czyli:

$$n \geq 1,95996^{2} \cdot \frac{0,04(1-0,04)}{0,01^{2}} = 1475,11 \approx 1476$$

Odpowiedź; Minimalna liczność próby wynosi 1476.

Martyna Szczygieł

Ucz się matematyki za darmo

Z dowolnego miejsca, bez płacenia za korepetycje i stresu przy tablicy