Szeregi statystyczne

Wyróżniamy następujące typy szeregów statystycznych:

Teraz zdefiniujemy pojęcia, które są pogrubione na czerwono w powyższym schemacie.

Szereg szczegółowy (indywidualny, prosty, wyliczający) to ciąg liczbowych wielkości statystycznych uporządkowanych według badanej cechy (rosnąco lub malejąco).
W praktyce ma zastosowanie przy małych zbiorowościach.

Przykład.
Zbadano liczbę komputerów dla 6 gospodarstw domowych. Otrzymano wyniki: 2,4,3,1,2,3

Szereg szczegółowy to: 1, 2, 2, 3, 3, 4.

Tutaj opisałam jak liczyć kwartyle w szeregach szczegółowych.

Szereg rozdzielczy składa się z dwóch kolumn:

w pierwszej kolumnie znajdują się warianty badanej cechy$(x_{k})$,
w drugiej kolumnie liczba jednostek zbiorowości statystycznej, która posiada dany wariant cechy $(n_{k})$.

Na osobnej stronie opisałam (tutaj) jak tworzyć szeregi rozdzielcze krok po kroku jeżeli mamy podane dane.

Szeregi rozdzielcze dla cech mierzalnych dzielą się na:

szeregi punktowe – stosowane, gdy liczba wariantów cechy jest niewielka,
szeregi z przedziałami klasowymi – stosowane, gdy liczba wariantów badanej cechy jest duża.

Szereg punktowy – przykład

Liczba wizyt w teatrze	Liczba studentów
0	16
1	27
2	25
3	21
4	7
5	4

Szereg przedziałowy – przykład

Liczba dni nieobecności $x_{i}$	Liczba pracowników $n_{i}$
4 i mniej	100
5-9	150
10-14	200
15-19	130
20-24	120

Wzory

Co liczymy?	Szereg przedziałowy
średnia	$$\overline{x} = \frac{\sum x_{i} \ n_{i}}{n}$$
wariancja	$$s^{2} = \frac{1}{N} \sum_{i=1}^{k} (\tilde{x} – \overline{x})^{2} \cdot n_{i}$$
dominanta	$$D_{0} = x_{0} + \frac{n_{0}-n_{-1}}{(n_{0}-n_{-1})+(n_{0}-n_{+1})}\cdot h_{0}$$
mediana	$$Q_{2} = x_{0Q2} + (N_{Q_{2}}-n_{isk-1}) \cdot \frac{h_{Q_{2}}}{n_{Q_{2}}}$$

Przykład 1 – szereg szczegółowy

Co liczymy?	Szereg przedziałowy
średnia	$$\overline{x_{a}} = \frac{\sum_{i=1}^{N} x_{i}}{N}$$
wariancja	$$s^{2} = \frac{1}{N} \sum_{i=1}^{k} (x_{i} – \overline{x})^{2}$$
dominanta	Najczęściej powtarzająca się wartość
mediana	Środkowa wartość

Zadanie.
Wartości temperatur (w stopniach C) zaobserwowanych w dniu 18 lipca 2009 r. o godzinie 12.00 w miastach wojewódzkich były następujące:
19, 24, 27, 27, 28, 29, 28, 29, 26, 19, 22, 25, 23, 25, 28, 26.
Na podstawie powyższych informacji należy obliczyć średnią arytmetyczną, wariancję, dominantę, medianę.

Na początku przyporządkujmy wartości rosnąco: 19, 19, 22, 23, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29.

Średnia arytmetyczna (zwykła) wynosi:

$$\overline{x_{a}} = \frac{\sum_{i=1}^{N} x_{i}}{N} = \frac{19+…+29}{16} = \frac{405}{16} = 25,31$$

Wariancja wynosi:

$$s^{2} = \frac{1}{N} \sum_{i=1}^{k} (x_{i} – \overline{x})^{2} = \frac{(19-25,31)^{2}+…+(29-25,31)^{2}}{16} = \frac{153,44}{16} \approx 9,59$$

Średnia temperatura 18 lipca 2009 r. o godzinie 12:00 w miastach wojewódzkich wynosiła $25,31^{\circ}$ C.
Dominanta
$D=28$.
Wśród miast wojewódzkich dominowały te, w których temperatura 18 lipca 2009 r. o godzinie 12:00 wynosiła $28^{\circ}$ C.
Mediana
Szereg parzysty (n=16), więc: $$k = \frac{N}{2} = \frac{16}{2} = 8$$

$$M_{e} = \frac{x_{k} + x_{k+1}}{2} = \frac{x_{8}+x_{9}}{2} = \frac{26+26}{2} = 26$$

W połowie miast wojewódzkich temperatura 18 lipca 2009 r. o godzinie 12:00 była nie wyżza niż $26^{\circ}$ C, a w połowie nie niższa niż $26^{\circ}$ C.

Szereg punktowy

Co liczymy?	Szereg przedziałowy
średnia	$$\overline{x_{a}} = \frac{\sum x_{i}\cdot n_{i}}{N}$$
wariancja	$$s^{2} = \frac{1}{N} \sum_{i=1}^{k} (x – \overline{x})^{2} \cdot n_{i}$$
dominanta	Najczęściej powtarzająca się wartość
mediana	Środkowa wartość

Przykład – szereg punktowy

Rozważmy następujące dane z tabelki:

Liczba wizyt w teatrze	Liczba studentów
0	16
1	27
2	25
3	21
4	7
5	4

Policzmy średnią arytmetyczną, wariancję, medianę i dominantę.

Średnia
Korzystamy ze wzoru:
$$\overline{x_{a}} = \frac{\sum x_{i}\cdot n_{i}}{N}$$Do powyższej tabelki dokładamy kolumnę z danymi z mianownika, tzn.:

Liczba wizyt w teatrze	Liczba studentów	$x_{i}\cdot n_{i}$
0	16	0
1	27	27
2	25	50
3	21	63
4	7	28
5	4	20
$\sum$	–	188

Zatem:

$$\overline{x} = \frac{0 \cdot 16 + … + 5 \cdot 4}{16+…4} = \frac{188}{100} = 1,88$$

Wariancja
Korzystamy ze wzoru:
$$s^{2} = \frac{1}{N} \sum_{i=1}^{k} (x – \overline{x})^{2} \cdot n_{i}$$

Tworzymy tabelkę, dodając kolumnę potrzebną do policzenia $s^{2}$:

Liczba wizyt w teatrze	Liczba studentów	$x_{i}\cdot n_{i}$	$(x – \overline{x})^{2} \cdot n_{i}$
0	16	0	56,5504
1	27	27	20,9088
2	25	50	0,36
3	21	63	26,3424
4	7	28	31,4608
5	4	20	38,9376
$\sum$	–	–	174,56

Zatem:
$$s^{2} = \frac{174.56}{100} = 1,7456$$

Mediana

Mamy łącznie $n=100$ elementów, więc pozycję mediany wyliczymy ze wzoru:
$$N_{Q_{2}} = \frac{n+1}{2} = \frac{101}{2} = 50,5$$

Mediana będzie średnią arytmetyczną 50. i 51. elementu.
Tworzymy kolumnę z wartościami skumulowanymi aby móc ocenić gdzie leży 50. i 51. element:

Liczba wizyt w teatrze	Liczba studentów	Wartości skumulowane
0	16	16
1	27	43
2	25	68
3	21	89
4	7	96
5	4	100

Widzimy, że elementy 1 do 16 to 0, 17 do 43 to 1, 44 do 68 to 2, więc szukany 50. I 51. Element to 2 i 2.
Zatem:
$$M_{e} = \frac{x_{50}+x_{51}}{2} = 2$$

Dominanta
Dominanta jest równa 1, gdyż jest to element o największej liczebności.

Szereg rozdzielczy – wzory

Co liczymy?	Szereg przedziałowy
średnia	$$\overline{x} = \frac{\sum x_{i} \ n_{i}}{n}$$
wariancja	$$s^{2} = \frac{1}{N} \sum_{i=1}^{k} (\tilde{x} – \overline{x})^{2} \cdot n_{i}$$
dominanta	$$D_{0} = x_{0} + \frac{n_{0}-n_{-1}}{(n_{0}-n_{-1})+(n_{0}-n_{+1})}\cdot h_{0}$$
mediana	$$Q_{2} = x_{0Q2} + (N_{Q_{2}}-n_{isk-1}) \cdot \frac{h_{Q_{2}}}{n_{Q_{2}}}$$

Przykład – szereg rozdzielczy

Wysokość wydatków na pieczywo (w zł) podniesionych w grudniu 2009 r. przez 200 losowo wybranych gospodarstw domowych z Konina kształtowała się następująco:

Wydatki (w zł)	30-40	40-50	50-60	60-70	70-80	80-90	90-100
Liczba gospodarstw	12	25	37	62	34	22	8

Źródło: Dane umowne
W oparciu o powyższe informacje należy policzyć średnią ważoną, odchylenie standardowe i dominantę.

Tworzymy tabelkę:

Wydatki w zł $(x_{i})$	Liczba gospodarstw $(n_{i})$	$x_{i}’$	$x_{i}\cdot n_{i}$	Wartość skumul.	$x_{i} – \overline{x}$	$(x_{i} – \overline{x})^{2} \cdot n_{i}$
30-40	12	35	420	12	-28,95	10057,2
40-50	25	45	1125	37	-18,95	8977,5
50-60	37	55	2035	74	-8,95	2963,7
60-70	62	65	4030	136	1,05	68,2
70-80	34	75	2550	170	11,05	4151,4
80-90	22	85	1870	192	21,05	9748,2
90-100	8	95	760	200	31,05	7712,8
$\sum$	200	–	12790	–	–	43679,0

Średnia arytmetyczna ważona wynosi:

$$\overline{x_{a}} = \frac{\sum_{i=1}^{k} x’_{i} \cdot n_{i}}{N} = \frac{12790}{200} = 63,95$$

czyli:
Przeciętne wydatki na pieczywo poniesione w grudniu 2009 r. przez losowo wybrane gospodarstwa domowe wynosiły 63,95 zł.

Odchylenie standardowe:

$$s(x) = \sqrt{\frac{\sum_{i=1}^{k} (x’_{i} – \overline{x})^{2} \cdot n_{i}}{N}} = \sqrt{\frac{43679}{200}} = 14,78$$

czyli:
Wydatki na pieczywo w grupie losowo wybranych gospodarstw domowych odchylały się od wydatków średnich przeciętne o 14,78 zł.

Dominanta:

$$D = x_{0} + \frac{n_{0}-n_{-1}}{(n_{0}-n_{-1})+(n_{0}-n_{+1})}\cdot h_{0} = $$ $$=60 + \frac{62-37}{(62-37)+(62-34)}\cdot 10 = 64,72$$

czyli:
Wśród losowo wybranych gospodarstw dominowały te, które w grudniu 2009 r. przeznaczyły na pieczywo 64,72 zł.

Dokładne obliczenia dominanty w szeregu rodzielczym przedziałowym opisałam tutaj.

A tutaj opisałam, jak obliczyć kwartyle w szeregu przedziałowym.

Bibliografia:

Maksimowicz-Ajchel Alicja, Wstęp do statystyki: Metody opisu statystycznego, Warszawa, Wydawnictwo Uniwersytetu Warszawskiego, 2007, ISBN 978-83-235-0267-8
Stanisławek Jędrzej, Podstawy statystyki, Warszawa, Oficyna Wydawnicza Politechniki Warszawskiej, 2010, ISBN 978-83-7207-882-7

11+

Martyna Szczygieł

Ucz się matematyki za darmo

Z dowolnego miejsca, bez płacenia za korepetycje i stresu przy tablicy