Průměr vs. medián vs. režim
Průměr, medián a modus jsou primární míry centrální tendence používané v deskriptivní statistice. Navzájem se zcela liší a liší se i případy, kdy se používají k sumarizaci dat.
Mean
Aritmetický průměr je součet hodnot dat dělený počtem hodnot dat, tj.
[latex]\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_{1}+x_{2} +x_{3}+…+x_{n}}{n}[/latex]
Pokud data pocházejí z prostoru vzorků, nazývá se to výběrový průměr ([latex]\bar{x} [/latex]), což je popisná statistika vzorku. Ačkoli je to nejběžněji používaná popisná míra pro vzorek, nejedná se o robustní statistiku. Je velmi citlivý na odlehlé hodnoty a oscilace.
Vezměte si například průměrný příjem občanů konkrétního města. Protože jsou všechny hodnoty dat sečteny a poté rozděleny, příjem extrémně bohaté osoby významně ovlivňuje průměr. Proto střední hodnoty nejsou vždy dobrým vyjádřením dat.
V případě střídavého signálu se proud procházející prvkem periodicky mění z kladného směru do záporného směru a naopak. Pokud vezmeme průměrný proud procházející prvkem za jedinou periodu, dostane 0, což znamená, že prvkem neprošel žádný proud, což samozřejmě není pravda. Proto ani v tomto případě není aritmetický průměr dobrým měřítkem.
Aritmetický průměr je dobrým ukazatelem, když jsou data rovnoměrně rozložena. Pro normální rozdělení je průměr roven modu a mediánu. Má také nejnižší rezidua při zvažování střední kvadratické chyby; proto je nejlepším popisným měřítkem, když je požadováno reprezentovat datovou sadu jediným číslem.
Median
Hodnoty prostředního datového bodu po seřazení všech datových hodnot ve vzestupném pořadí jsou definovány jako medián datové sady. Medián je 2. kvartil, 5. decil a 50. percentil.
• Pokud je počet pozorování (datových bodů) lichý, pak medián je pozorování přesně uprostřed seřazeného seznamu.
• Pokud je počet pozorování (datových bodů) sudý, pak je medián průměrem dvou středních pozorování v seřazeném seznamu.
Medián rozděluje pozorování do dvou skupin; tj. skupina (50 %) hodnot vyšších a skupina (50 %) hodnot nižších než je medián. Mediány se specificky používají ve zkreslených distribucích a představují data mnohem lépe než aritmetický průměr.
Režim
Režim je nejčastěji se vyskytující číslo v sadě pozorování. Režim souboru dat se vypočítá zjištěním frekvence každého prvku v sadě.
• Pokud se žádná hodnota nevyskytuje více než jednou, pak soubor dat nemá žádný režim.
• Jinak každá hodnota, která se vyskytuje s nejvyšší frekvencí, je režimem souboru dat.
V sadě může existovat více než 1 režim; režim tedy není jedinečnou statistikou souboru dat. V rovnoměrném rozdělení existuje jeden režim. Režim diskrétního rozdělení pravděpodobnosti je bod, kde funkce hmotnosti pravděpodobnosti dosáhne svého nejvyššího bodu. Vykreslováním z výše uvedených interpretací můžeme říci, že globální maxima jsou režimy.
Zvažte použití všech tří opatření na následující soubor dat.
DATA: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15
Průměr=(1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25=8,12
Medián=9 (13. prvek)
Režim=9 (frekvence 9=5)
Jaký je rozdíl mezi průměrem, mediánem a režimem?
• Aritmetický průměr je součet hodnot (pozorování) dělený počtem pozorování. Není to robustní statistika a silně závisí na povaze normální distribuce v rámci uvažované distribuce. Jediná odlehlá hodnota může způsobit významný posun v průměru, což dává relativně zavádějící hodnoty. Pojem lze rozšířit na geometrický průměr, harmonický průměr, vážený průměr a tak dále.
• Medián je střední hodnota souboru pozorování a je relativně méně ovlivněna odlehlými hodnotami. Může poskytnout dobrý odhad jako souhrnná statistika ve vysoce zkreslených případech.
• Režim je nejběžnější pozorovací hodnoty v souboru dat. Je-li rozdělení kladně zkoseno, modus leží vlevo od mediánu, a pokud je záporně zkoseno, modus leží vpravo od mediánu.
• Pokud je kladně vychýlen, střední hodnota odpovídá mediánu; pokud je záporně zkosený, střední hodnota je vlevo od mediánu.
• V normálním rozdělení jsou všechny tři, průměr, modus a medián stejné.