Standartinė įvertinimo paklaida ir jos interpretacija

16 gruodžio, 2009

Regresijos tiesės patikimumo matas yra standartinė įvrtinimo paklaida. Ji žymima S_e ir jos interpretacija panaši į standartinio vidutinio nuokrypio interpretaciją, t.y. S_e yra dispersijos, arba išsibarstymo matas. Standartinė įvertinimo paklaida nusako stebėjimų išsibarstymą apie regresijos tiesę. Formulė, aprašanti standartinę įvetinimo paklaidą, taip pat primena standartinio nuokrypio formulę:

S_e=\sqrt{\frac{\sum_{i=1}^n(Y_i-Y')^2}{n-2}};

čia Y_i – priklausomo kintamojo reikšmės, Y’ – reikšmės, gautos iš regresijos lygties, n – stebėjimų skaičius.

Aišku, kad kuo mažesnė paklaida, tuo arčiau regresijos tiesės yra išsibarstę stebėjimai. Jeigu S_e=0, tai visi stebėjimai yra išsidėstę tiesėje (idealus atvejis).

Pavyzdys, Paskaičiuokime standartinę įvertinimo paklaidą pagal šios lentelės duomenis:

Ūkis 1 2 3 4 5 6 7
Arklių skaičius 74 18 51 23 66 30 58
Karvių skaičius 85 15 62 30 80 43 76

Sudarykime lentelę:

X Y Y’=-138,36+40,91X (Yi-Y’) (Yi-Y’)(Yi-Y’)
14 442 434,38 7,62 58,0644
14 429 434,38 -5,38 21,9444
12 348 352,56 -4,56 20,7936
10 273 270,74 2,26 5,1076

Susumavę individualių paklaidų kvadratus pagal visus stebėjimus, gausime

\sum_{i=1}^n(Y_i-Y')^2=112,91.

Tuomet standartinė įvertinimo paklaida bus:

S_e=\sqrt{\frac{112,91}{2}}=7,51.

Taigi matome, kaip išsibarstę stebėjimai apie regresijos tiesę. Mano manymu, tai nėra didelė paklaida, todėl stebėjimai yra pakankamai arti tiesės.

Apytiksliai prognozavimo intervalai

16 gruodžio, 2009

Standartinės įvertinimo paklaidos naudojamos intervalam, į kuriuos su tam tikru patikimumu patenka stebimos reikšmės, apskaičiuoti. Tokie intervalai vadinami apytiksliais prognozavimo intervalais ir yra pasikliautinųjų intervalų analogai.  Pavyzdžiui, prognozuojamas lenkų pradinių mokyklų mokinių skaičius 1929m.m., apskaičiuotas iš regresijos lygties, yra Y’=-138,36+40,91*16=516,2, nes žinoma, kad tais metais buvo 16 mokyklų. Standartinė įvertinimo paklaida S=7,51. Galime apskaičiuoti 68% apytikslį prognozavimo intervalą. Viršutinė intervalo riba yra

Y’+1S=516,2+7,51=523,71.

Apatinė intervalo riba

Y’-1S=508,69.

Galima tvirtinti, kad pradinių lenkų mokyklų mokinių skaičius su 68% patikimumu patenka į intervalą [508,69;523,71].

Iš tikrųjų, šie rezultatai ne visai korektiški. Norint gauti korektiškus rezultatus, apytikslį prognozavimo intervalą reikia skaičiuoti taip:

[Y’-t*S;Y’+t*S];        (1)

čia t – Stjudento kriterijaus su n-2 laisvės laipsnių ir pasirinktu reikšmingumo lygmeniu \alpha kritinė reikšmė. Pasirenkame \alpha=0,90, t.y. ieškome 90% apytiklio prognozavimo intervalo. Reikšmė t gaunama iš Stjudento pasiskirstymo lentelių, esant 2 laisvės laipsniams atitinkamame stulpelyje. Ji lygi 2,90, taigi viršutinė intervalo riba:

Y’+tS=516,2+2,920*7,51=538,13.

Apatinė riba:

Y’-tS=516,2-2,920*7,51=494,27.

Taigi 90% apytikslis prognozavimo intervalas yra [494,27;538,13].

Taigi matome, kad jeigu reikia bet kokio patikimumo, ir esant normaliajam pradinių duomenų pasiskirstymui ir didelėms imtims, reikia skaičiuoti pagal (1) formulę.

Logistinės regresijos modelis

9 gruodžio, 2009

Tarkime, kad kategorinis kintamasis įgyja dvi rekšmes: 0 ir 1. Bet kokį dvireikšmį kintamąjį galime taip perkoduoti. Esant fiksuotoms (neatsitiktinėms) nepriklausomų kintamųjų reikšmėms X_1=x_{1i},...,X_k=x_{ki} tiesinės daugialypės regresijos modelis atrodo taip:

Y_i=a+b_1x_{1i}+b_2x_{2i}+...+b_kx_{ki}+e_i;  (1)

čia Y_i yra atditiktinis dydis, galintis įgyti 0 arba 1 su tikimybėmis P(Y_i=1)=p_i,P(Y_i=0)=1-p_i,o e_i yra atsitiktinė paklaida. Iš pradžių išsiaiškinsime, kodėl dvireikšmiam kintamajam prognozuoti netinka tiesinė regresija. Visų pirma, netenkinamos tiesinės regresijos prielaidos. Iš tikrųjų, Y_i įgyja tik dvi reikšmes. Todėl e_i taip pat gali įgyti tik dvi reikšmes (netenkinama normalumo prielaida). Žinome, kad tiesinėje regresijoje prognozuojamas priklausomo kintamojo vidurkis. Kadangi EY_i=p_i, tai prognozuotume tikimybę, su kuria Y_i įgyja reikšmę 1. Bet dešinioji (1) lygybės pusė gali įgyti ir neigiamas reikšmes, taip pat reikšmes, didesnes už vientą. Tai prieštarauja tikimybės apibrėžimui.

Logistinės regresijos modelis yra

p_i=\frac{exp{z(\vec{x_i})}}{1+exp{z(\vec{x_i})}},  z(\vec{x_i})=a+b_1x_{1i}+...+b_kx_{ki}.

Išreiškiame:

\frac{p_i}{1-p_i}=exp{a+b_1x_{1i}+b_2x_{2i}+...+b_kx_{ki}}=exp{z(\vec{x_i})},

ln\frac{p_i}{1-p_i}=a+b_1x_{1i}+b_2x_{2i}+...+b_kx_{ki}=z(\vec{x_i}).

Tikimybių santykis \frac{p_i}{1-p_i} vadinamas galimybe (galimybės įvertinimu) įvykti įvykiui Y_i=1. Įvykio Y=1 galimybė įvykti yra didesnė už 1 tada ir tik tada, kai P(Y=1)>P(Y=0).

Galimybės logaritmas ln\frac{p_i}{1-p_i}=z(\vec{x_i}) nuo kintamųjų reikšmių x_{1i},...,x_{ki} priklauso tiesiškai. Be to, jis gali įgyti reikšmes iš intervalo (-\infty,+\infty). Todėl šiuo atveju taikant (1) modelį nekyla problemos, kad prognozuojamoji reikšmė nepateks į leistinų reikšmių intervalą. Kai z(\vec{x_i}) įgyja labai mažas reikšmes, tai p_i artimas nuliui. Kai z(\vec{x_i}) įgyja dideles reikšmes, tai p_i artimas vienetui. Kai z(\vec{x_i})=0, tai p_i=0,5.

Pavyzdžiui, jeigu p_i=0,25, tai \frac{p_i}{1-p_i}=1/3, t.y. galime sakyti, kad galimybė Y_i įgyti reikšmę 1, o ne 0, vertina kaip 1 ir 3 santykis.

Pavyzdžiui, galimybė 0,8 (t.y 8:10) reiškia, kad tikėtiniau, jog Y=0, o ne Y=1. Tuo tarpu, galimybė 3,5 (t.y 35:10) rodo, kad daug tikėtiniau, jog Y=1, nei Y=0.

Komentaras.Logistinė regresija tinka galiojant gana bendroms prielaidoms: kintamieji X_1,...X_k nebūtinai turi būti normalieji. Nereikalaujama normaliai pasiskirsčiusių paklaidų.

Duomenų tikimas faktorinei analizei

7 gruodžio, 2009

Taikydami faktorinę analizę, ieškome stebimų kintamųjų panašumų. Žinoma, jeigu kintamieji nekoreliuoti, tai ir panašumų nėra. Todėl nekoreliuotiems kintamiesiems faktorinė analizė neturi prasmės. Vadinasi, visų pirma trime įsitikinti, ar stebimi kintamieji tarpusavyje koreliuoja.

Pradiniai faktorinės analizės duomenys – stebėjimų koreliacijų (arba kovariacijų) matrica. Iš jos pavidalo matyti, kurie kintamieji nepriklausomi nuo likusiųjų. Šie kintamieji negrupuojami, t.y faktiškai sudaro atskirus faktoriu. Todėl juos iš faktorinės analizės pradinių kintamųjų sąrašo verta pašalinti.

Jeigu taikant Bartleto sferiškumo kriterijų p-reikšmė p \geq \alpha , tai turimiems duomenims faktorinė analizė netaikytina; čia \alpha – pasirinktasis reikšmingumo lygmuo.

Ar kintamieji (kartu ir duomenys) tinka faktorinei analizei, įvertina Kaizerio-Mejerio-Olkino (KMO) matas. Šis matas – empirnių koreliacijos koeficientų didumų ir dalinių koreliacijos koeficientų didumų palyginamasis indeksas. Jis skaičiuojams pagal formulę:

KMO=\frac{\sum\sum_{i\neq j}r_{ij}}{\sum\sum_{i\neq j}r_{ij}+\sum\sum_{i\neq j}r'_{ij}};

čia r_{ij} – kintamųjų X_{i} ir X_j koreliacijos koeficientas, r'_{ij}X_i ir X_j dalinės koreliacijos koeficientas. Jei KMO mato reikšmė maža, tai nakrinėjamų kintamųjų faktorinė analizė nerezultatyvi. Iš tiesų maža KMO mato reiikšmė rodo, kad kintmųjų porų koreliacija nėra paaiškinama kitais kintamaisiais.

Naudojama tokia KMO reikšmių gradacija iš akies: 0,9<KMO – faktorinė analizė puikiai tinka, 0,8<KMO \leq 0,9 – gerai tinka, 0,7<KMO \leq0,8 – tinka patenkinama, 0,6<KMO \leq0,7 – tinka pakenčiamai, 0,5<KMO \leq 0,6 – tinka blogai, KMO<0,5 – faktorinė analizė nepriimtina.

Kiekvieno kintamojo stebėjimų tinkamumo matą galima apskaičiuoti pagal formulę:

MSA_i=\frac{\sum_{i\neq j}r_{ij}}{\sum_{i\neq j}r_{ij}+\sum_{i\neq j}r'_{ij}}.

Kintamuosius, kuriems MSA_i rekšmės mažos, verta iš faktorinės analizės pašalinti.

PVZ. Reklamos agentūra, norėdama sužinoti, kokiom naujojo produkto “Auksinė žuvelė“ charakteristikoms pirkėjas teikia priklausomybę, atliko tyrimą. 50 pirkėjų pagal 7 balų skalę turėjo įvertinti tokias charakteristikas: skonį (SKN), armotą (ARM), energetinę vertę (ENV), gerą kainą (KAI), tinkamumą užkandai (UŽK). Domenų koreliacijų matrica pateikta lentelėje.

SKN ARM ENV KAI UŽK
SKN 1 0,46 0,14 0,07 0,18
ARM 0,46 1 0,12 0,19 0,16
ENV 0,14 0,12 1 0,25 0,44
KAI 0,07 0,19 0,25 1 0,39
UŽK 0,18 0,16 0,44 0,39 1

Apskaičiavę KMO, gauname: KMO = 0,606 . Vadinasi duomenų aibė pakenčiamai tinka faktorinei analizei.

Taigi, pirmiausiai reikia patikrinti, ar tinka duomenys faktorinei analizei, o poto jau taikyti pačią faktorinę analizę ir ieškoti bendrų faktorių, kurie paaiškintų tarpusavio koreliaciją.

Kelios kombinatorikos formulės

30 lapkričio, 2009

Norėdami sužinoti, kiek elementariųjų įvykių sudaro A ir \Omega, neišsiversime be kombinatorikos formulių.

  1. Junginiai, gaunami n objektų išrikiavus į eilę, vadinami kėliniais. Jų skaičius n!. Keliais skirtingais būdais n objektų glima išrikiuoti į eilę? n!=1*2*3*…*n.
    Naudodami šią formulę, galime spręsti tokio tipo uždavinius: kiek skirtingų eilių galima sudaryti iš n objektų? Keliais skirtingais būdais ant n kėdžių galima susodinti n žmonių? Atsakymas būtų toks: pirmasis objektas gali užimti n pozicijų, antrąjam lieka (n-1) pozicija, trečiajam – (n-2) ir pan., paskutiniam – 1.
  2. Junginiai, gauti iš n objektųišrinkus k skirtingų atsižvelgiant į jų išrinkimo tvarką, vadinami gretiniais be pasikartojimo. Keliais skirtingais būdais iš n objektų galima išrinkti k objektų (pakliuvimo į išrinktųjų grupę eilė svarbi)? A_{n}^{k}=\frac{n!}{(n-k)!}=n(n-1)...(n-k+1).
  3. Junginiai, gauti iš n objektų išrinkus k skirtingų neatsižvelgiant į jų išrinkimo tvarką, vadinami deriniais be pasikartojimo.Kliais skirtingais būdais iš n objektų galima išrinkti k objektų (pakliuvimo į išrinktųjų grupę eilė nesvarbi)? {n\choose k}=\frac{n!}{k!(n-k)!}=\frac{n(n-1)...(n-k+1)}{k!}=C_{n}^{k}.
    Pakliuvimo į grupę eilės nesvarba reikškia, kad svarbi tik atrinktosios grupės sudėtis, bet nesvarbu, ar objektas į grupę pateko pirmas ar antras.

Pavyzdys. Iš 20 studentų grupės reikia sudaryti 15 studentų grupę, kuri vyks į seminarą Austrijoje. Kiek skirtingų grupių galima sudaryti?

Naudojame derinius be pasikartojimo. {20\choose 15}={20\choose 5}= \frac{20*19*18*17*16}{5*4*3*2*1}=15504.

Taigi naudodami šias formule, galime spręsti įvairius tikimybinius uždavinius. Dažnai sprendimuose naudojame įvairias šių formulių kombinacijas.

Maknemaro kriterijus priklausomoms dvireikšmėms populiacijoms

30 lapkričio, 2009

Tarkime apklaustųjų nuomonė kokiu nors klausimu vertinama iki pokalbio su jais ir po pokalbio. Tiriamas dvireikšmis kintamasis (nuostata, gebėjimai, ir pan.) matuojamas du kartus (iki poveikio ir po jo). Dažnai tokio tipo uždaviniuose dvireikšmio kintamojo reikšmės koduojamos + , -, arba taip, ne. Nulinė hipotezė teigia, kad populiacijos dalis, kuriai matuojamo kintamojo reikšmė pasikeis iš + į -, lygi daliai, kuriai kintamojo reikšmė pasikeis iš – į +. Duomenų aibė užrašoma lentele:

Prieš Po
+ Suma
+ a b a+b
_ c d c+d
Suma a+c b+d a+b+c+d

Iš viso pakeitusių nuomonę respondentų yra b+c. Jeigu teisinga nulinė hipotezė, kad pakeitusių nuomonę iš + į – respondentų skaičius sutampa su pakeitusių nuomonę iš – į + respondentų skaičiumi, tai e_{12}=e_{21}=(b+c)/2.  Kadangi mus domina tik tie respndentai, kurie keitė nuomonę, tai skaičiuojant statistiką tik jų duomenys ir naudojami. Užrašoma tokia statistika:

\chi^2=\frac{(|b-c|-1)^2}{b+c}.

Tarkime, reikšmingumo lygmuo lygus \alpha. ei statistikos reikšmė didesnė už \chi^2 skirstinio su (2-1)(2-1)=1 laisvės laipsniu \chi^2 lygmens kritinę reikšmę, tai hipotezę reiktų atmesti. Priešingu atveju nulinės hipotezės atmesti nėra pagrindo.

Pavyzdys. Prieš ir po dviejų pretendentų į prezidentus (pono L ir pono V) TV debatų atsitiktinai buvo apklausta 500 TV žiūrovų, už ką jie ruošiasi balsuoti. Apklausos rezultatai pateikti lentele:

Prieš debatus Po debatų
Už L Už V Iš viso
Už L 269 36 305
Už V 21 174 195
Iš viso 290 210 500

Ar debatai pagausino kurio nors kandidato potencialių rinkėjų būrį?

Statistinė hipotezė. Nulinė hipotezė H_{0} teigia, kad simpatizuojančių kandidatams L ir V žiūrovų dalys populiacijoje liko nepakitusios. Alternatyva H_{1} teigia, kad dalis remiančių vieną iš kandidatų po debatų padidėjo (o remiančių kitą kandidatą, sumažėjo). Taigi

H_{0}: p_{12}=p_{21},

H_{1}: p_{12} \neq p_{21}.

Čia p_{12} yra dalis žiūrovų, kurie prieš TV debatus ruošėsi balsuoti už kandidatą L, o po TV debatų – už  V; p_{21} – dalis žiūrovų, kurie prieš TV debatus ruošėsi balsuoti už kandidatą V, o po TV debatų – už  L.

Apskaičiuokime statistiką:

\chi^2=\frac{(|b-c|-1)^2}{b+c}=3,439.

Tarkime, kad reikšmingumo lygmuo \alpha=0,01. Tuomet, iš lentelių randame \chi_{0,01}^2(1)=6,635. Kadangi, 3,49<6,635, tai nulinę hipotezę atmesti nėra pagrindo. Vadinasi, TV debatai kandidatų rėmėjų skaičiaus pokyčiams įtakos neturėjo.

Komentaras. Matome, kad nors per debatus kandidatai pritraukė šiek tiek naujų rinkėjų, tačiau tiek pat jų ir atgrasė.

Atsitiktinio dydžio dispersija

29 lapkričio, 2009

Kaip žinome, vidurkis parodo vidutinę atsitiktinio reikšmę. Dispersija aprašo jo sklaidą apie vidurkį. Iš tikrųjų, dispersija yra ne kas kita, kaip antrasis centrinis momentas. Taigi atsitiktinio dydžio X dispersija DX=E ( X - EX )^2 . SKaičiavimams patogiau naudoti formulę:

DX=EX^2-(EX)^2 .

Pirmas dėmuo yra kvadrato vidurkis, o antrasis – vidurkio kvadratas. Diskrečiųjų ir absoliučiai tolydžiųjų dydžių dispersija skaičiuojama pagal formules:

DX=x_{1}^2p_1+x_{2}^2p_{2}+x_{3}^2p_{3}+...-(x_{1}p_{1}+x_{2}p_{2}+x_{3}p_{3}+...)^2  ,

ir DX=\int_{-\infty}^{\infty}x^2p(x)dx-(\int_{-\infty}^{\infty}xp(x)dx)^2;

čia p(x) – tankis.

Kaip ir vidurkis, dispersija yra skaičius. Suformuluokime kelias atsitiktinių dydžių, turinčių baigtines dispersijas, kai kurias savybes:

  1. Dispersija visuomet neneigiama: DX\geq 0 .
  2. Konstantos dispersija visada lygi nuliui: DX = 0.
  3. Konstantą pakėlus kvadratu galima iškelti prieš dispersijos ženklą: DCX=C^2DX.
  4. D(X+Y)=DX+DY+2E(X-EX)(Y-EY).
  5. Jeigu X ir Y nepriklausomi atsitiktiniai dydžiai, tai D(X+Y)=DX+DY.

Pavyzdys. Tarkime, kad atsitiktinis dydis X turi tokį skirstinį:

X -1 0 1
P 0,3 0,4

0,3

Raskime DX. Tam dar reikia ir EX rasti. Tuomet EX = (-1)*0,3+0*0,4+1*0,3=0, DX=(-1)^2*0,3+0^2*0,4+1^2*0,3-0^2=0,6.

Taigi, dažnis naudojamas dažniau už vidurkį, Tačiau yra ir kvadratinis nuokrypis, kuris naudojamas dažniau už dažnį. (Kvadratinė šaknis iš dispersijos vadinama teoriniu standartiniu nuokrypiu). Taip yra todėl, kad jį lengviau interpretuoti. Jis rodo, kiek vidutiniškai reikšmės nukrypsta nuo vidurkio.

 

Atsitiktinio dydžio vidurkis

27 lapkričio, 2009

Aprašomojoje statistikoje nagrinėjamas empirinis vidurkis :

\overline x = \frac{1}{n}\sum_{j=1}^n\ (x_j) .

Panagrinėkime teorinį atsitiktinio dydžio vidurkį. Tarkime, kad turime skirstinį X :

X x1 x2 x3

P

p1 p2 p3

Čia X – atsitiktinio dydžio reikšmės, P – reikšmių įgijimo tikimybės. Tuomet X vidurkis EX yra atsitiktinio dydžio X reikšmių ir jų įgijimo tikimybių sandaugų suma.

EX = x_1 *p_1 + x_2*p_2 + x_3*p_3 +... .

Jeigu atsitiktinis dydis turi tankį p(x) , tai EX apibrėžiamas kaip integralas :

\int_{-\infty}^{\infty} xp(x)dx .

Pagrindinės vidurkių savybės:

  1. Konstantos vidurkis lygus pačiai konstantai : EC = C .
  2. Konstantą galima iškelti prieš vidurkio ženklą : ECX = CEX .
  3. Sumos vidurkis lygus vidurkių sumai : E(X + Y) = EX + EY .
  4. Jeigu X ir Y nepriklausomi, tai EXY = EXEY .
  5. Jeigu a \leq X\geq b , tai a \leq EX\geq b .
  6. |EX|\leq E|X| .

Pvz. Paskaičiuokime atsitiktinio dydžio vidurkį, kai duotas tankis. Tarkime, kad atsitiktinis dydis X , kurio tankis yra:

p(x) = 1, kai  x \in \lbrack 2, 3\rbrack ; ir 0, kitu atveju.

Tuomet EX = \int_{-\infty}^{\infty} xp(x)dx = \int_{2}^{3} x*1dx = 2,5 .

Komentaras. Matome, kad vidurkis yra skaičius. Jis gali būti ir teigiamas, ir neigiamas, ir trupmeninis. Kaip visi žinome, vidurkis žymi vidutinę atsitiktinio dydžio reikšmę.

 

Kovariacija ir koreliacijos koeficientas

19 lapkričio, 2009

Kovariacija ir koreliacijos koeficientas – tai skaitinės charakteristikos, įvertinančios dviejų atsitiktinių dydžių tiesinę nepriklausomybę.

Atsitiktinių dydžių X ir Y kovariacija cov(X,Y) = E(X-EX)(Y-EY).

Skaičiuojant, patogiau naudoti formulę: cov(X,Y) = EXY – EXEY .

Kovariacija yra skaičius, kuris gali būti ir teigiamas ir neigiamas. Svarbiausios kovariacijos savybės yra dvi:

  1. Jeigu X ir Y yra nepriklausomi, tai cov(X,Y) = 0 .
  2. |cov(X,Y)| \leq \sqrt{DXDY} .

Pirma savybė išplaukia iš vidurkio savybių, antroji – iš Helderio nelygybės.

Du atsitiktiniai dydžiai, kurių kovariacija lygi nuliui, vadinami nekoreliuotaisiais. Iš šio apibrėžimo išplaukia, kad jei jeigu dydžiai koreliuoja, tai jie yra priklausomi, jeigu dydžiai nekoreliuoja, jie gali būti ir priklausomi ir nepriklausomi.  Universalesnis matas nei kovariacija yra koreliacijos koeficientas.

Atsitiktinių dydžių X ir Y koreliacijos koeficientas \rho (X,Y) = \frac{cov(X,Y)}{\sqrt{DXDY}} = \frac{EXY-EXEY}{\sqrt{DXDY}} .

Koreliacijos koeficiento savybės:

  1. Jeigu a ir b yra konstantos, tai \rho( aX + bY ) = \rho ( X , Y) .
  2. Koreliacijos koeficientas yra skaičius, kintantis intervale nuo -1 iki 1 : -1 \leq \rho ( X , Y ) \leq 1 .
  3. Koreliacijos koeficientas \rho ( X , Y ) = \pm 1 tada ir tik tada, kai egzistuoja konstantos a \neq 0 ir b tokios, kad Y = aX + b .

Koreliacijos koeficientas nematuoja netiesinės priklausomybės. Jeigu dviejų kintamųjų koreliacijos koeficientas lygus 0, tai tie kintamieji yra statistiškai nepriklausomi.

Pavyzdys. Tegul atsitiktiniai dydžiai Z ir X yra nepriklausomi, EX = 0, EZ = 0 ir Y = ZX . Matome, kad X ir Y yra stipriai priklausomi dydžiai. Tačiau Z ir x^{2} yra nepriklausomi, todėl cov (X ,Y) = EX^2Z-EXEY = EX^2EZ – 0*EY = 0 . Taigi X ir Y nekoreliuoja.

Iš tikrųjų, iš to, kad dviejų kintamųjų koreliacijos koeficientas nelygus nuliui, galima daryti tik tokią išvadą, jog egzistuoja statistinis ryšys, o ne koks nors priežastingumas (t.y., X nebūtinai veikia Y, nors X ir Y yra statistiškai susiję).

Uždavinys, taikant Voldo – Volfovico kriterijų

19 lapkričio, 2009

Spręskime tokį uždavinį. Tarkime norime ištirti ar brangių žvakučių ir pigių degimo laikas skiriasi. Tarkime, darydami eksperimentą, fiksavome žvakučių degimo laiką. Gavome tokius duomenis :

Pigios 25 27 23 28 22 20

 

Brangios 31 26 30 24 29 21 33

Kad nustatytume, koks kriterijus geriausiai tinka šiam uždaviniui, apskaičiuokime kiekvienos imties medianas ir dispersijas. Tegul  X – yra pigių žvakučių degimo laikas, Y – brangių žvakučių degimo laikas. Sudarykime jų variacines eilutes:

I : 20, 22, 23, 25, 27, 28

II : 21, 24, 26, 29, 30, 31, 33

Apskaičiuojame vidurkius: EX = (20+22+23+25+27+28)/6 = 24. Analogiškai gauname, kad EY = 27,71 .

Tuomet dispersijos : DX = 9,36 ir DY = 17,9 .

Pažiūrėkime, kam lygios šių dviejų nepriklausomų skirstinių medianos. M_{d1} = 24 , M_{d2} = 29.

Matome, kad nors medianos skiriasi, tačiau sklaidos charakteristikos (dispersijos) taip pat gana skiriasi. Todėl, mano manymu, šiuo atveju geriau tinka Voldo – Volfovico kriterijus.  Išspręskime šį uždavinį pagal šį kriterijų. Šiuo atveju kriterijaus statistika bus serijų skaičius.

Statistinė hipotezė bus:

H_{0} :  kintamųjų skirstiniai vienodi,

H_{1} : kintamųjų skirstiniai nėra vienodi.

Iš nepriklausomų dviejų skirstinių sudarome jungtinę variacinę eilutę ir imtį.

Var. Eil. 20 21 22 23 24 25 26 27 28 29 30 31 33
Imtis 1 2 1 1 2 1 2 1 1 2 2 2 2

Šiuo atveju serijų skaičius r = 8, n_{1} = 6 , n_{2} = 7 . Iš lentelių randame kritinę reikšmę, atitinkančią n_{1} ir n_{2} : p = 3.  Kadangi r = 8 > 3 = p, tai nulinės hipotezės atmesti negalime, darome išvadą, kad skirstiniai vienodi. Vadinasi žvakučių degimo laikas nesiskiria.

Jeigu spręstume kitokiu būdu ( pagal kitą kriterijų ) visko gali būti, kad gautume kitą atsakyma, nes tai buvo mano subjektyvus požiūris, kad geriau taikyti būtent Voldo – Volfovico kriterijų.