Presentation is loading. Please wait.

Presentation is loading. Please wait.

MODELUL DE REGRESIE.

Similar presentations


Presentation on theme: "MODELUL DE REGRESIE."— Presentation transcript:

1 MODELUL DE REGRESIE

2 Regresia – scurt istoric al termenului
Sir Francis Galton( ) – spirit enciclopedic al perioadei victoriene, este cel care a introdus termenii de regresie şi corelaţie statistică Originea regresiei ca metodă statistică se află în studiile sale de genetică aplicată în studiul plantelor- 1877 Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că există o legătură liniară între diametrele acestor boabe şi diametrele boabelor recoltate de la noile plante. El a numit iniţial panta acestei drepte “coefficient of reversion”, schimbîndu-i apoi numele în “coefficient of regression”. Termenul de regresie provine de la descoperirile sale în domeniul eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi aşază mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor proveniţi din taţi foarte înalţi se apropie mai mult de înălţimea medie decît înălţimea taţilor.

3 Modele Un model este o reprezentare a unui anumit fenomen
Model matematic - o reprezentare matematică a unui fenomen De cele mai multe ori un model descrie legăturile existente între două sau mai multe variabile În general, sînt două clase de modele: Modele deterministe Modele probabiliste

4 Modele deterministe Modele probabiliste
Exprimă o relaţie exactă între variabile Teoretic, eroarea de previziune este nulă Exemplu: Principiul al doilea al mecanicii newtoniene: F = m.a Modele probabiliste Componenta deterministă Componenta aleatoare Eroarea de previziune este nenulă Componenta aleatoare poate fi datorată factorilor obiectivi, ce nu sînt incluşi în model Exemplu: Volumul vînzărilor=10 * Cheltuielile cu publicitatea + Componenta aleatoare

5 Tipuri de modele probabiliste
Modele de regresie Modele de corelatie Alte modele 7

6 Regresia – metodă de modelare a legăturilor dintre variabile
În general, orice fenomen este rezultatul acţiunii unuia sau mai multor factori Exprimarea matematică: Variabile independente (variabile exogene/explicative) Variabila dependentă (variabila endogenă) Variabila reziduală

7 Exemplu: Legea lui Keynes privind legătura dintre venit şi consum
Suma cheltuită pentru consum depinde de: mărimea venitului pe de o parte alte obiective în funcţie de circumstanţe (de exemplu investiţiile) alte nevoi subiective „O persoană este dispusă de regulă şi în medie să îşi crească consumul pe măsura creşterii venitului dar nu în aceeaşi măsură” Modelul de regresie: C=+V+ , unde 0<<1 .

8 Ipotezele modelului de regresie (Ipotezele Gauss-Markov)
1. Normalitatea Valorile Y sînt normal distribuite pentru orice X Erorile sînt normal distribuite cu medie zero E(εi)=0 i 2. Homoscedasticitatea (dispersie constantă) 3. Necorelarea erorilor E(εi εk)=0 (i<>k) 4. Liniaritatea 5. Variabilele sînt măsurate fără eroare (caracter nestochastic)

9 În general modele pot fi linearizate.
Forma funcţională Ipoteza de linearitate nu este atât de restrictivă pe cât pare. Aceasta se referă la felul în care parametrii intră în ecuaţie, nu neapărat la relaţia între variabilele x şi y. În general modele pot fi linearizate. y=a+bx y=a+bz, z=ex y=a+br, r=1/x y=a+bq, q=ln(x) y=  xβ  ln(y)=+ln(x) Forma generală: f(yi)= +g(xi)+i Contra exemplu: nu poate fi transformat în model liniar.

10 Modele ce pot fi linearizate

11 E()=  0+ 1x +  = (0 +) + 1x + (-)
Ipoteza că media erorilor este zero: E(i)=0 i, este naturală atâta timp cât  este văzută ca suma efectelor individuale, cu semne diferite. Dacă media erorilor este diferită de zero, ea poate fi considerată ca o parte sistematică a regresiei: media erorilor fiind acum nulă. Ipoteza de homoscedasticitate: Var(i)=2 constantă i Se consideră un model care descrie consumul unor gospodării în funcţie de venitul acestora. În acest caz, consumul gospodăriilor mari pot varia mult mai mult faţă de consumul gospodăriilor cu venituri mici. Deci ipoteza de homoscedasticitate nu este respectată. E()=  0+ 1x +  = (0 +) + 1x + (-)

12 Exemplu de încălcare a ipotezei de homoscedasticitate

13 Necorelarea erorilor: E(ij)=0 ij
Această ipoteză nu implică faptul că yi şi yj sunt necorelate, ci faptul că deviaţiile observaţiilor de la valorile lor aşteptate sunt necorelate. Ipoteza de normalitate a erorilor i N(0,2) Este o ipoteză de lucru, tehnică, ce permite obţinerea unor estimatori “buni”. Dacă ipotezele precedente sînt respectate, vom obţine estimatori B.L.U.E. (Best Linear Unbiased Estimators)

14 Ipotezele de normalitate şi homoscedasticitate
91

15 Variaţia erorilor în jurul dreptei de regresie
Valorile y sînt normal distribuite în jurul dreptei de regresie. Pentru fiecare valoare x, dispersia în jurul dreptei de regresie este constantă. f(e) Y X2 X1 X Dreapta de regresie

16 Clasificarea modelelor de regresie
1 Variabilă 2+ Variabile explicativă de regresie explicative Simple Multiple Non- Non- Linear Linear Linear Linear 24

17 Tipuri de modele de regresie
Legătură liniară directă Legătură neliniară Legătură liniară inversă Absenţa vreunei legături

18 Modelul de regresie liniară simplă

19 Modelul lui Keynes la nivelul economiei SUA

20 Regresia folosind EXCEL
Accesăm meniul TOOLS>DATA ANALYSIS>REGRESSION

21 Corelograma(Scatter plot)
Graficul punctelor de coordonate (Xi,Yi), i=1,n.

22 Modelul de regresie liniară simplă
Pe baza corelogramei este rezonabil să presupunem că media variabilei Y depinde de X printr-o relaţie liniară: Atunci modelul de regresie liniară simplă este dat de relaţia următoare: intercept (termenul constant) Variabila de perturbaţie Variabila independentă (explicativă) Variabila dependentă(răspuns) Panta dreptei de regresie

23 Media şi dispersia variabilei dependente
Dacă presupunem că media şi dispersia lui  sînt 0 şi 2, atunci media lui Y pentru o valoare particulară a lui X este dată de relaţia: Dispersia lui Y pentru o valoare particulară a lui X este dată de relaţia:

24 La nivelul populaţiei regresia se reduce la exprimarea mediei condiţionate a lui Y:
unde 1 are semnificaţia unui coeficient de elasticitate: arată modificarea lui Y la o modificare cu o unitate a lui x. De asemenea, variabilitatea lui Y pentru o valoare particulară x este determinată de dispersia variabilei reziduale, 2. Există o distribuţie a valorilor lui Y pentru fiecare x şi dispersia acestei distribuţii este constantă pentru orice x.

25 Distribuţia condiţionată a lui Y
Dreapta de regresie Y X

26 Modelul de regresie liniară la nivelul populaţiei
Y Y X Valoarea observată i 1 i i = Eroarea i X 1 i YX (E(Y)) X Valoarea observată

27 Modelul de regresie liniară la nivelul eşantionului
Yi = Valoarea estimată a lui Y pentru observaţia i Xi = Valoarea lui X pentru observaţia i = Estimatorul termenului liber 0 = Estimatorul pantei 1

28 Estimarea parametrilor modelului de regresie
Metoda celor mai mici pătrate(M.C.M.M.P.) – Ordinary Least Squares(O.L.S.) Presupunem că avem n perechi de observaţii (x1, y1), (x2, y2), …, (xn, yn). Ideea este să minimizăm distanţa dintre valorile estimate şi valorile reale Ne reamintim că deci

29 Ilustrare grafică 52

30 Condiţiile de minim: Simplificînd, obţinem sistemul de ecuaţii normale

31 Estimatorii modelului de regresie

32 Notaţii Valoarea estimată: Valoarea reziduală(reziduul):

33 Estimatorul dispersiei modelului
Dacă notăm suma pătratelor erorilor de regresie atunci un estimator al varianţei variabilei reziduale este

34 Proprietăţile estimatorilor modelului de regresie

35 Nedeplasarea estimatorilor OLS
Presupunem că modelul de regresie la nivelul populației este liniar y = b0 + b1x + ε Fie {(xi, yi): i=1, 2, …, n un eșantion de n observații. Atunci putem formula modelul de regresie la nivelul eșantionului yi = b0 + b1xi + εi Presupunem E(ε|x) = 0 și atunci E(εi|xi) = 0 Presupunem că există variație în xi

36 Pentru a discuta despre deplasarea estimatorilor, aceștia trebuie exprimați în funcție de parametrii din populație

37 Nedeplasarea lui

38 Nedeplasarea estimatorilor
Estimatorii OLS pentru b1 și b0 sînt nedeplasați Demonstrația caracterului de estimator nedeplasat depinde de 4 ipoteze – dacă oricare din aceste ipoteze nu este îndeplinită, atunci nedeplasarea nu este neapărat adevărată

39 Dispersia estimatorilor OLS
Presupunem Var(ε|x) = s2 (Homoskedasticity) Var(ε|x) = E(ε2|x)-[E(ε|x)]2 E(ε|x) = 0, deci s2 = E(ε2|x) = E(ε2) = Var(ε) Astfel s2 este dispersia necondiționată, numită dispersia erorilor s este abaterea standard a erorilor Rezultă: E(y|x)=b0 + b1x și Var(y|x) = s2

40 Cazul homoskedastic y f(y|x) . E(y|x) = b0 + b1x . x1 x2

41 Cazul heteroskedastic
f(y|x) y . . E(y|x) = b0 + b1x . x1 x2 x3 x

42 Dispersia estimatorilor OLS

43 Dispersia estimatorilor OLS
Dispersia pantei modelului de regresie este direct proporțională cu dispersia erorilor Cu cît dispersia lui xi este mai mare, cu atît dispersia pantei este mai mică Cu cît volumul eșantionului este mai mare, cu atît dispersia pantei este mai mică

44 Estimarea dispersiei erorilor
Nu cunoaștem dispersia erorilor, s2, întrucît nu observăm de fapt erorile εi Valorile observate sînt reziduurile modelului de regresie, ei Putem folosi reziduurile pentru a estima dispersia erorilor

45 Estimarea dispersiei erorilor

46 Distribuţia estimatorului pantei de regresie
All Possible Sample Slopes Sample 1: 2.5 Sample 2: 1.6 Sample 3: 1.8 Sample 4: : : Very large number of sample slopes Sampling Distribution S ^ 1 ^ 1 105

47 Eroarea standard a estimatorilor
Erorile standard vor fi folosite la testarea semnificaţiei parametrilor modelului de regresie

48 Testul t pentru panta dreptei de regresie(slope)
Valoarea critică: Caz particular:

49 Exemple de acceptare a ipotezei

50 Exemple de respingere a ipotezei

51 Testul t pentru termenul liber(intercept)
Valoarea critică:

52 Intervale de încredere pentru parametrii modelului
Pentru termenul liber(intercept) Pentru panta dreptei de regresie(slope) unde este estimatorul dispersiei modelului.

53 Teorema Gauss-Markov Estimatorii obţinuţi prin metoda celor mai mici pătrate sînt B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai mică decît cei obţinuţi prin MCMMP.

54 Exemplu-consumul ca funcţie de venit
Panta dreptei de regresie este pozitivă, deci există o legătură directă între consum şi venit. În plus, dacă venitul creşte cu o unitate,consumul va creşte cu 0.91 unități. Doar panta dreptei de regresie este semnifcativ diferită de zero. P-value – probabilitatea ipotezei ca parametrul estimat să fie egal cu zero; dacă P-value este mai mic decît pragul de semnificaţie atunci respingem această ipoteză.

55 Analiza varianţei pentru modelul de regresie
Dacă între X şi Y nu există nici o legătură, atunci putem face predicţii privind valoarea medie a lui Y pentru orice valoare a lui X Dacă există o legătură între X şi Y, în ce măsură cunoaşterea valorilor lui X poate explica abaterea variabilei dependente de la media sa? Abaterea totala = abaterea explicata + Abaterea reziduala

56 Descompunerea variaţiei
Y SSE =(Yi - Yi )2 _ Yi = β^0 + β^1Xi SST = (Yi - Y)2 _ SSR = (Yi - Y)2 _ Y X Xi

57 ANOVA pentru regresie SST = SSR + SSE
SST = Total Sum of Squares Măsoară variaţia valorilor observate Yi în jurul mediei Y _ SSR = Regression Sum of Squares Măsoară variaţia explicată de modelul de regresie SSE = Error Sum of Squares Măsoară variaţia ce poate fi atribuită altor factori, diferiţi de variabila explicativă X

58 Coeficientul de determinaţie R2
Este o măsură a proporţiei varianţei explicate de model R2 este afectat de creşterea numărului de parametri; de aceea pentru modele cu multi parametri se calculează R2 ajustat, care are aceeaşi interpretare.

59 Exemplu-consumul ca funcţie de venit
Modelul explică 99.7% din variaţia consumului Standard Error :

60 Observaţii R2 este adesea folosit pentru a alege cel mai bun model din punctul de vedere al varianţei explicate. Comparaţiile de acest fel trebuie făcute între modele de aceeaşi natură.

61 Foarte important!! Pentru modele de regresie fără termen liber, de tipul R2 nu mai are semnificaţia de proporţie a varianţei explicate. Exemplu: considerăm două astfel de modele Deşi ar părea că modelul al doilea este mai performant, nu sînt argumente pentru a susţine această ipoteză

62 Coeficientul de determinaţie şi coeficientul de corelaţie liniară
Y r = +1 R2 = 1, Y r = -1 ^ Y = b + b X i 1 i ^ Y = b + b X i 1 i X X R2 = .8, r = +0.9 Y Y R2 = 0, r = 0 ^ ^ Y = b + b X Y = b + b X i 1 i i 1 i X X

63 k-numărul de parametrii ai modelului
Tabelul ANOVA k-numărul de parametrii ai modelului Testul este folosit la verificarea validităţii modelului. Un model este valid dacă proporţia varianţei explicate prin model este semnificativă. Ipoteza nulă pentru testul F in cazul acesta este cea de model nevalid.

64 ANOVA

65 Predicţia folosind modelul de regresie
1. Tipuri de predicţii Estimări punctuale Estimări pe intervale de încredere 2. Care e obiectul predicţiei? Media populaţiei E(Y) pentru o valoare particulară a lui X Valoarea individuală (Yi) pentru o valoare particulară a lui X

66 Ce prezicem 115

67 Interval de încredere pentru media lui Y

68 Factori care afectează lungimea intervalului de încredere
1. Nivelul de încredere (1 - ) Creşterea nivelului de încredere duce la creşterea intervalului de încredere 2. Dispersia datelor (σ) Creşterea dispersiei duce la creşterea intervalului de încredere 3. Volumul eşantionului Creşterea volumului eşantionului duce la micşorarea intervalului de încredere 4. Distanţa lui Xp faţă de mediaX Creşterea acestei distante duce la creşterea intervalului de încredere

69 Distanţa lui Xp faţă de mediaX
Dispersie mai mare decît la X1 The closer to the mean, the less variability. This is due to the variability in estimated slope parameters. X 118

70 Interval de predicţie pentru valori particulare
122

71 Predicţia The error in predicting some future value of Y is the sum of 2 errors: 1. the error of estimating the mean Y, E(Y|X) 2. the random error that is a component of the value of Y to be predicted. Even if we knew the population regression line exactly, we would still make  error. 123

72 Intervale de încredere pentru predicție
124


Download ppt "MODELUL DE REGRESIE."

Similar presentations


Ads by Google