korelácia

Čo je to korelácia:

Korelácia znamená podobnosť alebo vzťah medzi dvoma vecami, ľuďmi alebo myšlienkami . Je to podobnosť alebo rovnocennosť, ktorá existuje medzi dvoma rôznymi hypotézami, situáciami alebo objektmi.

V oblasti štatistiky a matematiky sa korelácia týka miery medzi dvoma alebo viacerými súvisiacimi premennými.

Termín korelácia je ženské meno, ktoré pochádza z latinského korelačného vzťahu.

Slovo korelácia môže byť nahradená synonymami ako sú: vzťah, rovnica, spojitosť, korešpondencia, analógia a spojenie.

Koeficient korelácie

V štatistike Pearsonov korelačný koeficient (r), ktorý sa tiež nazýva korelačný koeficient produkt-moment, meria vzťah medzi dvoma premennými v rámci tej istej metrickej stupnice.

Funkciou korelačného koeficientu je určiť intenzitu vzťahu, ktorý existuje medzi známymi súbormi údajov alebo informácií.

Hodnota korelačného koeficientu sa môže pohybovať medzi -1 a 1 a získaný výsledok definuje, či je korelácia záporná alebo pozitívna.

Pre interpretáciu koeficientu je potrebné vedieť, že 1 znamená, že korelácia medzi premennými je perfektná kladná a -1 znamená, že je perfektne negatívna . Ak je koeficient rovný 0, znamená to, že premenné nezávisia od seba.

V štatistike je tiež Spearmanov korelačný koeficient, ktorý nesie toto meno na počesť štatistika Charlesa Spearmana. Funkcia tohto koeficientu je meranie intenzity vzťahu medzi dvoma premennými, či sú lineárne alebo nie.

Spearmanova korelácia slúži na vyhodnotenie, či intenzita vzťahu medzi dvoma analyzovanými premennými môže byť meraná monotónnou funkciou (matematická funkcia, ktorá zachováva alebo invertuje vzťah počiatočného rádu).

Výpočet Pearsonovho korelačného koeficientu

Metóda 1) Výpočet Pearsonovho korelačného koeficientu s použitím kovariancie a štandardnej odchýlky.

kde

S _XY je kovariancia;

S _x a S _y predstavujú štandardnú odchýlku premenných x a y.

V tomto prípade výpočet zahŕňa prvé zistenie kovariancie medzi premennými a štandardnú odchýlku každého z nich. Potom sa kovariancia delí násobením štandardných odchýlok.

Vyhlásenie už často poskytuje buď štandardné odchýlky premenných, alebo kovarianciu medzi nimi, len použitím vzorca.

Metóda 2) Výpočet Pearsonovho korelačného koeficientu s nespracovanými údajmi (bez kovariancie alebo štandardnej odchýlky).

Touto metódou je najpriamejší vzorec:

Napríklad, za predpokladu, že máme údaje s n = 6 pozorovania dvoch premenných: hladina glukózy (y) a vek (x), výpočet sa riadi nasledujúcimi krokmi:

Krok 1) Vytvorte tabuľku s existujúcimi údajmi: i, x, y a pridajte prázdne stĺpce pre xy, x² a y²:

Krok 2: Vynásobte x a y, aby ste vyplnili stĺpec "xy". Napríklad v riadku 1 budeme mať: x1y1 = 43 × 99 = 4257.

Krok 3: Zvýšte hodnoty stĺpca x a zaznamenajte výsledky do stĺpca x². Napríklad v prvom riadku budeme mať x ₁ 2 = 43 × 43 = 1849.

Krok 4: Urobte to isté ako v kroku 3, teraz pomocou stĺpca y a zaznamenajte štvorec hodnôt v stĺpci y². Napríklad v prvom riadku budeme mať: y ₁ 2 = 99 × 99 = 9801.

Krok 5: Získajte súčet všetkých čísel stĺpcov a výsledok umiestnite do päty stĺpca. Napríklad súčet stĺpca Age X je rovný 43 + 21 + 25 + 42 + 57 + 59 = 247.

Krok 6: Na získanie korelačného koeficientu použite vyššie uvedený vzorec:

Máme teda:

Spearmanov korelačný koeficient

Výpočet Spearmanovho korelačného koeficientu je trochu odlišný. Preto potrebujeme usporiadať údaje v nasledujúcej tabuľke:

1. Po vytvorení dvoch párov údajov ich musíme uviesť do tabuľky. Napríklad:

2. V stĺpci "Ranking A" budeme klasifikovať pozorovania, ktoré sú v "Date A" rastúcim spôsobom, pričom "1" je najnižšia hodnota v stĺpci, en (celkový počet pozorovaní), najvyššia hodnota v stĺpci "Date A ". V našom príklade je to:

3. Robíme to isté, aby sme dostali stĺpec "Ranking B", teraz pomocou pozorovaní v stĺpci "Data B":

4. V stĺpci "d" uvádzame rozdiel medzi týmito dvoma hodnoteniami (A - B). Tu nezáleží na signáli.

5. Zvýšte každú z hodnôt v stĺpci "d" a zapíšte do stĺpca d²:

6. Pridajte všetky údaje zo stĺpca "d²". Táto hodnota je Σd². V našom príklade Σd2 = 0 + 1 + 0 + 1 = 2

7. Teraz používame Spearmanov vzorec:

V našom prípade sa n rovná 4, keďže sa pozrieme na počet riadkov údajov (čo zodpovedá počtu pozorovaní).

8. Nakoniec údaje v predchádzajúcom vzorci nahradíme:

Lineárna regresia

Lineárna regresia je vzorec používaný na odhad možnej hodnoty premennej (y), keď sú známe hodnoty iných premenných (x). Hodnota "x" je nezávislá alebo vysvetľujúca premenná a "y" je závislá premenná alebo odozva.

Lineárna regresia sa používa na overenie, ako sa hodnota "y" môže meniť ako funkcia premennej "x". Riadok obsahujúci hodnoty kontroly rozptylu sa nazýva lineárna regresná priamka.

Ak má vysvetľujúca premenná "x" jednu hodnotu, regresia sa nazýva jednoduchá lineárna regresia .