Rozdíl mezi centrální tendencí a rozptylem

Rozdíl mezi centrální tendencí a rozptylem
Rozdíl mezi centrální tendencí a rozptylem

Video: Rozdíl mezi centrální tendencí a rozptylem

Video: Rozdíl mezi centrální tendencí a rozptylem
Video: GCSE Biology - What Is The Difference Between Light And Electron Microscopes? #6 2024, Červenec
Anonim

Centrální tendence versus rozptyl

V deskriptivní a inferenční statistice se k popisu souboru dat používá několik indexů odpovídajících jeho centrální tendenci, rozptylu a šikmosti: tři nejdůležitější vlastnosti, které určují relativní tvar distribuce souboru dat.

Co je ústřední tendence?

Centrální tendence označuje a lokalizuje střed distribuce hodnot. Průměr, modus a medián jsou nejčastěji používané indexy při popisu centrální tendence souboru dat. Pokud je soubor dat symetrický, pak se medián i průměr souboru dat vzájemně shodují.

V případě souboru dat se průměr vypočítá tak, že se vezme součet všech hodnot dat a ten se vydělí počtem dat. Například hmotnosti 10 osob (v kilogramech) jsou změřeny na 70, 62, 65, 72, 80, 70, 63, 72, 77 a 79. Pak může být průměrná hmotnost deseti osob (v kilogramech) vypočítané následovně. Součet vah je 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Průměr=(součet) / (počet údajů)=710 / 10=71 (v kilogramech). Rozumí se, že odlehlé hodnoty (datové body, které se odchylují od normálního trendu) mají tendenci ovlivňovat průměr. V přítomnosti odlehlých hodnot tedy samotný průměr neposkytne správný obrázek o středu souboru dat.

Medián je datový bod nalezený přesně uprostřed souboru dat. Jedním ze způsobů, jak vypočítat medián, je seřadit datové body ve vzestupném pořadí a poté najít datový bod uprostřed. Pokud například jednou objednáte, předchozí datový soubor vypadá takto: 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Proto je (70+72)/2=71 uprostřed. Z toho je vidět, že medián nemusí být v souboru dat. Medián není ovlivněn přítomností odlehlých hodnot. Medián tedy poslouží jako lepší měřítko centrální tendence v přítomnosti odlehlých hodnot.

Režim je nejčastěji se vyskytující hodnotou v sadě dat. V předchozím příkladu se hodnoty 70 a 72 obě vyskytují dvakrát, takže oba jsou režimy. To ukazuje, že v některých distribucích existuje více než jedna modální hodnota. Pokud existuje pouze jeden režim, soubor dat je považován za unimodální, v tomto případě je soubor dat bimodální.

Co je rozptyl?

Rozptyl je množství dat o centru distribuce. Rozsah a standardní odchylka jsou nejběžněji používané míry rozptylu.

Rozsah je prostě nejvyšší hodnota mínus nejnižší hodnota. V předchozím příkladu je nejvyšší hodnota 80 a nejnižší hodnota je 62, takže rozsah je 80-62=18. Rozsah však neposkytuje dostatečný obrázek o rozptylu.

Pro výpočet směrodatné odchylky se nejprve vypočítají odchylky hodnot dat od průměru. Střední kvadratická hodnota odchylek se nazývá standardní odchylka. V předchozím příkladu jsou příslušné odchylky od průměru (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 a (79 – 71)=8. Součet čtverce odchylky jsou (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Standardní odchylka je √(366/10)=6,05 (v kilogramech). Pokud není soubor dat výrazně zkreslený, lze z toho vyvodit závěr, že většina dat je v intervalu 71±6,05 a je tomu skutečně tak v tomto konkrétním příkladu.

Jaký je rozdíl mezi centrální tendencí a rozptylem?

• Centrální tendence odkazuje a lokalizuje střed distribuce hodnot

• Rozptyl je množství dat v centru datové sady.

Doporučuje: