Regrese vs korelace
Ve statistice je důležité určit vztah mezi dvěma náhodnými proměnnými. Umožňuje předpovídat jednu proměnnou vzhledem k ostatním. Regresní analýza a korelace se používají v předpovědích počasí, chování finančních trhů, navazování fyzických vztahů pomocí experimentů a v mnohem reálnějších scénářích.
Co je regrese?
Regrese je statistická metoda používaná k vykreslení vztahu mezi dvěma proměnnými. Při shromažďování dat mohou často existovat proměnné, které jsou závislé na jiných. Přesný vztah mezi těmito proměnnými lze stanovit pouze pomocí regresních metod. Určení tohoto vztahu pomáhá pochopit a předvídat chování jedné proměnné vůči druhé.
Nejběžnější aplikací regresní analýzy je odhadnout hodnotu závislé proměnné pro danou hodnotu nebo rozsah hodnot nezávislých proměnných. Například pomocí regrese můžeme stanovit vztah mezi cenou komodity a spotřebou na základě dat shromážděných z náhodného vzorku. Regresní analýza vytváří regresní funkci souboru dat, což je matematický model, který nejlépe odpovídá dostupným datům. To lze snadno znázornit bodovým grafem. Graficky je regrese ekvivalentní nalezení nejvhodnější křivky pro daný soubor dat. Funkce křivky je regresní funkce. Pomocí matematického modelu lze pro danou cenu předpovědět poptávku po komoditě.
Regresní analýza je proto široce používána v predikci a prognózování. Používá se také k navazování vztahů v experimentálních datech, v oblastech fyziky, chemie a mnoha přírodních věd a technických oborů. Pokud je vztah nebo regresní funkce lineární funkcí, pak je proces známý jako lineární regrese. V bodovém grafu může být znázorněna jako přímka. Pokud funkce není lineární kombinací parametrů, pak je regrese nelineární.
Co je korelace?
Korelace je mírou síly vztahu mezi dvěma proměnnými. Korelační koeficient kvantifikuje míru změny jedné proměnné na základě změny druhé proměnné. Ve statistice je korelace spojena s konceptem závislosti, což je statistický vztah mezi dvěma proměnnými.
Pearsonův korelační koeficient nebo jen korelační koeficient r je hodnota mezi -1 a 1 (-1≤r≤+1). Je to nejběžněji používaný korelační koeficient a platí pouze pro lineární vztah mezi proměnnými. Jestliže r=0, žádný vztah neexistuje, a jestliže r≥0, vztah je přímo úměrný; tj. hodnota jedné proměnné roste s růstem druhé. Jestliže r≤0, vztah je nepřímo úměrný; tj. jedna proměnná klesá, zatímco druhá roste.
Vzhledem k podmínce linearity lze také použít korelační koeficient r ke stanovení přítomnosti lineárního vztahu mezi proměnnými.
Jaký je rozdíl mezi regresí a korelací?
Regrese udává formu vztahu mezi dvěma náhodnými proměnnými a korelace udává stupeň síly vztahu.
Regresní analýza vytváří regresní funkci, která pomáhá extrapolovat a předpovídat výsledky, zatímco korelace může poskytnout pouze informaci o tom, jakým směrem se může změnit.
Přesnější lineární regresní modely jsou dány analýzou, pokud je korelační koeficient vyšší. (|r|≥0,8)