Download presentation
Presentation is loading. Please wait.
1
Mitmetasandiline lineaarne regressioon
Mihkel Solvak Riigiteaduste Instituut Tartu Ülikool
2
Tavaline lineaarne regressioon
3
Tavaline lineaarne regressioon
4
Tavaline lineaarne regressioon
d1 d2
5
Tavaline lineaarne regressioon
d1 d2
6
Tavaline lineaarne regressioon
d1 d2
7
Tavaline lineaarne regressioon
8
Tavaline lineaarne regressioon
Sellisel regressioonil on rida eeldusi Kaks neist on eriti relevantsed hierarhilise andmestruktuuri juures: Keskmiste sõltumatus (mean independence) Vigade mittekorreleeritus ehk inimkeeli juhtumite sõltumatus
9
Mitmene lineaarne regressioon- eeldused (I)
Keskmiste sõltumatus: y= β0+ β1X1 + β2X2 +… +βnXn+ε Vea ε keskmine ei sõltu x-de väärtustest Vea ε keskmine on null Teisisõnu, regressioonimudelis on korrektsed tunnused Vaid siis on konstant ja koefitsiendid kallutamata Eelduse rikkumise tagajärjed on: kallutatud parameetrid
10
Mitmene lineaarne regressioon- eeldused (II)
Juhtumite sõltumatus: y= β0+ β1X1 + β2X2 +… +βnXn+ε Viga ε ei ole juhtumite vahel korreleeritud Lihtsamalt öeldes – juhtumid on sõltumatud Eelduse rikkumise tagajärjed on: OLS on ebaefektiivne seose kirjeldamisel Liiga väikesed standardvead
11
MLM Juhtumite sõltumatuse eelduse rikkumine tähendab:
Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust Standardvead on liiga väikesed Olulisuse nivoo eksitab (nn alpha inflation), tekib suurem I tüüpi vea tegemise tõenäosus
12
MLM H0 on tõene H0 on vale Lükkate H0 tagasi I tüüpi viga Kõik hästi
Ei lükka H0 tagasi II tüüpi viga
13
MLM Juhtumite sõltumatuse eelduse rikkumine tähendab:
Juhtumist saadav info kattub või on dubleeritud teiste juhtumite infoga ehk kogu saadav info on väiksem olukorrast, kus juhtumid on juhuslikult valitud “Efektiivne” juhtumite arv on väiksem tegelikust juhtumite arvust Standardvead on liiga väikesed Olulisuse nivoo eksitab (nn alpha inflation), tekib suurem I tüüpi vea tegemise tõenäosus Sõltuvust tekitava faktori väljajätmine annab valesti spetsifitseeritud mudeli (nn omitted variable bias)
14
MLM Lahendused: Kaasata sõltuvust tekitav faktor mudelisse
y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+ε kus W1 on teise tasandi tunnus
15
Miks MLM?
16
Miks MLM? Üldine seos x ja y vahel
17
Miks MLM? Grupisisene seos x ja y vahel Üldine seos x ja y vahel
18
Miks MLM? Gruppideülene seos x ja y vahel
Grupisisene seos x ja y vahel Üldine seos x ja y vahel
19
MLM Lahendused: Kaasata sõltuvust tekitav faktor mudelisse
y= β0+ β1X1 + β2X2 + β3W1 … +βnXn+ε kus W1 on teise tasandi tunnus Mudeldada andmete tekke protsessi viisil, mis võtab juhtumite sõltuvust arvesse Ehk mitmetasandiliselt
20
Kuidas sõltuvus tekkida võib
Korduvad mõõtmised Eksperimendid Paneeluuringud Aegread Klasterdatud vaatlused (sõltuvus, mis tekkinud füüsilisest, geograafilisest või sotsiaalsest lähedusest)
21
Mitmetasandiline analüüs
Hierarhiad andmetes leiab iga nähtuse puhul: Tark õpilane õpib paremini tugevama tasemega koolis kui sama tark õpilane nõrgema tasemega koolis (lapsed klastritena koolides) Rikas inimene vaeses riigis näeb maailma teismoodi kui rikas inimene rikkas riigis (inimesed klastritena riikides) Sama haigusega patsiendi ravi on edukam ühes haiglas kui teises (patsiendid klastritena haiglates)
22
Mitmetasandiline analüüs
Klastrid viitavad erinevatele tasanditele, mille abil maailma kirjeldada saab ehk “indiviidi” tasandil ja mingi klastri tasandil Analüüsides vaid ühte tasandit ja lisades info teistelt tasanditel agregeerides või disagregeerides tekib: Sõltuvus andmetes Kontseptuaalne segadus põhjuslikkuse analüüsimisel: Nn ökoloogiline eksitus (ecological fallacy) Nn individualistlik eksitus (individualist fallacy)
23
Miks MLM? Gruppideülene seos x ja y vahel
Grupisisene seos x ja y vahel Üldine seos x ja y vahel
24
Miks MLM - analüüsitasand
(Merlo et al J. Epidemiology and Community Health)
25
Miks MLM - analüüsitasand
(Merlo et al J. Epidemiology and Community Health)
26
Miks MLM - analüüsitasand
(Merlo et al J. Epidemiology and Community Health)
28
Miks MLM - analüüsitasand
Ühendame indiviidi ja linnaosa informatsiooni (Merlo et al J. Epidemiology and Community Health)
29
ICC= varn /(varn + vari)
MLM Variatsioon eelmisel graafil oli: Kõikide indiviidide väärtused üldise keskmise suhtes Kõikide gruppide keskmised üldise keskmise suhtes (varn) Kõikide indiviidide väärtused nende grupi keskmise suhtes (vari) Koguvariatsiooni saame lahutada indiviidi ja grupi osadeks. Intraklassi korrelatsioon näitab kui suur osa koguvariatsioonist on põhjustatud teise tasandi ühikute poolt (grupp, linnaosa jne) ICC= varn /(varn + vari)
30
MLM Kui ICC on suur, siis peegeldab see midagi teise tasandi ühikute kohta: Koosseisust tingitud efektid – teise tasandi ühikud erinevad selles, mis vahekorras esimese tasandi ühikuid nad sisaldavad Kontekstist tulenevad efektid – efektid mida ei saa taandada esimese tasandi ühikute koosseisule teise tasandi ühikute sees
31
MLM Kui ICC on väike, siis: Pääseb ehk õnneks MLM-ist!
Grupi tasandi efektid ei pruugi olla olematud, vaid teie valitud teise tasandi ühikud ei kattu tegelikult nende füüsiliste, geograafiliste või sotsiaalsete erisustega, mis grupeerivad indiviide/vaatlusi
32
MLM Lahendus on mitmetasandiline modelleerimine (multi-level modelling) aka HLM (hierarchical linear modelling), LLM (linear mixed models), mixed models (või mixed effects models) Hinnatakse indiviiditasandi sõltumatute tunnuste mõju indiviidi tasandi sõltuvale tunnusele konteksti/grupi mõju: indiviidi tasandi sõltuvale tunnusele indiviidi tasandi sõltumatute tunnuste efektidele sõltuvale tunnusele (nn cross-level interaction)
33
MLM Mitmetasandiline lineaarne modelleerimine võtab andmete klastreid arvesse: lastes vabaliikmel (keskmised) ja sirge tõusul (IV ja DV suhe) varieeruda kõrgema tasandi ühikute lõikes varieerumine saavutatakse koheldes indiviidi tasandi vabaliiget ja sirge tõusu kui sõltuvaid tunnuseid järgmisel analüüsitasandil (kõrgem tasandi omadus (kool) võib seletada madalamal tasandil täheldatud varieerumist seostes (õpilane)) Suur eelis: saab lisada sõltumatuid tunnuseid igal tasandil
34
Mida MLM teeb Yij=βoj + β1jXij+εij
MLM alustab samuti lineaarsest seosest kahe tunnuse vahel: Yij=βoj + β1jXij+εij Yij – on sõltuva tunnuse väärtus esimese tasandi juhtumil ehk indiviid i sõltuva tunnuse väärtus grupis j Xij – on esimese tasandi prediktor βoj - on grupi j vabaliige β1j - on sõltuva tunnuse ja esimese tasandi prediktori vaheline seos (sirge tõus) grupis j εij - on esimese tasandi valemi ennustusviga
35
Mida MLM teeb Yij=βoj + β1jXij+εij βoj =γ00+ γ01Wj+u0j
MLM alustab samuti lineaarsest seosest kahe tunnuse vahel: Yij=βoj + β1jXij+εij Kuid astub sammu edasi ennustades esimese taseme kahe tunnuse vahelist seost kirjeldavaid parameetreid omakorda teise taseme tunnustega: βoj =γ00+ γ01Wj+u0j β1j =γ10+ γ11Wj+u1j
36
Mida MLM teeb (I) βoj =γ00+ γ01Wj+u0j
Ennustame esimese tasandi vabaliiget teise tasandi tunnustega: βoj =γ00+ γ01Wj+u0j γ00 – üldine vabaliige, ehk keskmine vabaliige (intercept) üle kõikide gruppide kui prediktorid=0 γ01 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese tasandi vabaliikme (DV) vahel Wj – teise tasandi prediktor u0j – vabaliikme ennustusviga, e. grupi vabaliikme kõrvalekalle üldisest vabaliikmest, teisisõnu, grupi j unikaalne efekt vabaliikmele
37
Mida MLM teeb (II) β1j =γ10+ γ11Wj+u1j
Ennustame esimese tasandi koefitsienti teise tasandi tunnustega: β1j =γ10+ γ11Wj+u1j γ10 – üldine vabaliige, ehk keskmine sirge tõus (slope) üle kõikide gruppide kui prediktorid =0 γ11 – üldine koefitsient (sirge tõus) teise tasandi prediktori ja esimese tasandi koefitsiendi (DV) vahelise seose kohta u1j – sirge tõusu ennustusviga, grupi sirge tõusu kõrvalekalle üldisest tõusust, teisisõnu grupi j unikaalne efekt tõusule
38
Yij= γ00+γ01Wj+γ10Xij+γ11WjXij+u0j+u1jXij+εij
MLM Nüüd saame asendada: βoj =γ00+ γ01Wj+u0j β1j =γ10+ γ11Wj+u1j Yij=βoj + β1jXij+εij Yij= γ00+γ01Wj+γ10Xij+γ11WjXij+u0j+u1jXij+εij γ01Wj - teise tasandi koefitsient (γ10) korda teise tasandi prediktor (Wj) γ10Xij - teise tasandi koefitsient (γ10) korda esimese tasandi prediktor(Xij) γ11WjXij- teise tasandi koefitsient (γ11), korda teise tasandi prediktori (Wj), korda esimese tasandi prediktori (Xij) u0j+u1jXij+εij - asendatud valemi juhusliku vea osa
39
MLM Esimene mudel on ainult vabaliikmega mudel (tühi mudel, empty model): milline on keskmine erinevus gruppide vahel sõltuvas tunnuses Teises mudelis lisatakse esimese tasandi prediktor vabaliikmega mudelile (esimese tasandi mudel) Kolmandas mudelis lisatakse teise tasandi prediktor (teise tasandi mudel)
40
MLM - eeldused Meie vaadeldud esimese tasandi ühikud esindavad teise tasandi ühikutes olevat esimese tasandi ühikute populatsiooni (klasterdamata valim teise tasandi ühikute sees) Vaadeldud teise tasandi ühikud on esinduslik valim teise tasandi ühikute populatsioonist Muus osas tavalised lineaarse regressiooni eeldused (v.a. juhtumite sõltumatus)
41
MLM - spetsifitseerimisotsused
Kui palju konteksti tunnuseid lisada? Mida teooria ütleb? Kas mudel ei lähe liiga “keerukaks”? Kas kõrgema tasandi ühikuid saab mõista juhuvalimina? Kas ikka kasutada MLM-i? Ignoreerida teise tasandi ühikuid Kasutada teise ühiku tunnuseid esimese ühiku tunnustena Korrigeerida standardvigu (clustered, robust s.e.)
42
MLM - spetsifitseerimisotsused
Mida fikseerida, mida mitte? Yij=βoj + β1jXij+εij Mida teooria ütleb? Kas mudel ei lähe liiga “keerukaks”? Kas tõlgendamine ei lähe liiga keerukaks? Ainult fikseeritud efektidega mudelid ei arvesta klastrite sisu Juhuslike mõjudega mudelid (random coefficient models) Kui βoj sõltub grupist, siis on tegemist nn random intercept mudeliga Kui β1j sõltub grupist, siis on tegemist nn random slope mudeliga Viimase all mõeldakse ka reeglina mudeleid kus nii βoj kui β1j sõltuvad grupist
43
MLM – praktilised probleemid
Gruppide arv N ja gruppide suurus nj Põletavam probleem kui tavalises OLS-is Gruppide arv N: Kui väiksem kui 10, siis kasutage juba fikseeritud efekte (Snijders & Bosker 2012) Gruppide suurus nj : Isegi ühe juhtumiga grupid võimalikud, kui ülejäänud grupid suuremad (Snijders & Bosker 2012) Tuntuim reegel on vähemalt N=20 gruppi ja vähemalt nj =30 grupi suurused Ehk “20/30” reegel Mida keerulisem mudel, seda suurem valim vajalik
44
MLM Allikaid: R. Bickel. Multilevel analysis for applied research: It’s just regression! Guilford Press, 2007. T. Snijders & R. Bosker. Multilevel analysis: An introduction to basic and advanced multilevel modeling. Sage, 2012. J. Hox. Multilevel analysis: Techniques and applications. Routledge, 2010. B. Tabachnick & L. Fidell. Using Multivariate Statistics. Pearson, 2007.
Similar presentations
© 2024 SlidePlayer.com Inc.
All rights reserved.