Lineární vs logistická regrese
Při statistické analýze je důležité identifikovat vztahy mezi proměnnými, kterých se studie týká. Někdy to může být jediným účelem analýzy samotné. Jedním ze silných nástrojů používaných ke stanovení existence vztahu a identifikaci vztahu je regresní analýza.
Nejjednodušší formou regresní analýzy je lineární regrese, kde vztah mezi proměnnými je lineární. Ze statistického hlediska ukazuje vztah mezi vysvětlující proměnnou a proměnnou odezvy. Například pomocí regrese můžeme stanovit vztah mezi cenou komodity a spotřebou na základě dat shromážděných z náhodného vzorku. Regresní analýza vytvoří regresní funkci souboru dat, což je matematický model, který nejlépe odpovídá dostupným datům. To lze snadno znázornit bodovým grafem. Graficky je regrese ekvivalentní nalezení nejvhodnější křivky pro daný soubor dat. Funkce křivky je regresní funkce. Pomocí matematického modelu lze předpovědět použití komodity pro danou cenu.
Regresní analýza je proto široce používána v predikci a prognózování. Používá se také k navazování vztahů v experimentálních datech, v oblastech fyziky, chemie a v mnoha přírodních vědách a technických oborech. Pokud je vztah nebo regresní funkce lineární funkcí, pak je proces známý jako lineární regrese. V bodovém grafu může být znázorněna jako přímka. Pokud funkce není lineární kombinací parametrů, pak je regrese nelineární.
Logistická regrese je srovnatelná s vícerozměrnou regresí a vytváří model pro vysvětlení dopadu více prediktorů na proměnnou odezvy. Při logistické regresi by však proměnná konečného výsledku měla být kategorická (obvykle rozdělená; tj. dvojice dosažitelných výsledků, jako je smrt nebo přežití, ačkoli speciální techniky umožňují modelovat více kategorizovaných informací). Spojitá výsledná proměnná může být transformována na kategorickou proměnnou, která má být použita pro logistickou regresi; sbalení spojitých proměnných tímto způsobem se však většinou nedoporučuje, protože snižuje přesnost.
Na rozdíl od lineární regrese směrem k průměru nemusejí být prediktorové proměnné v logistické regresi nuceny být lineárně propojeny, běžně distribuovány nebo mít stejný rozptyl uvnitř každého shluku. Výsledkem je, že vztah mezi prediktorovými a výslednými proměnnými pravděpodobně nebude lineární funkcí.
Jaký je rozdíl mezi logistickou a lineární regresí?
• Při lineární regresi se předpokládá lineární vztah mezi vysvětlující proměnnou a proměnnou odezvy a pomocí analýzy jsou nalezeny parametry vyhovující modelu, aby se získal přesný vztah.
• Lineární regrese se provádí pro kvantitativní proměnné a výsledná funkce je kvantitativní.
• Při logistické regresi mohou být použitá data buď kategorická nebo kvantitativní, ale výsledek je vždy kategorický.