فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393

فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393
فاطمه بهمن زیاری ، مریم امینی مدل های خطی بهمن1393

بد مشخصه سازي توزيع خطا

فرض هاي رگرسيون آنچه که در ابتدا براي انجام هر رگرسيون بايستي در نظر گرفته شود فرض هاي زيربنايي است که تحليل ها براساس آن ها انجام مي پذيرد. فرض هاي زيربنايي براي يک الگوي رگرسيون به صورت زير است : 1) جمله ي خطا ε داراي ميانگين صفر است . 2) جمله ي خطا ε داراي واريانس ثابت است . 3) جمله ي خطا ε ناهمبسته اند . 4) جمله ي خطا ε داراي توزيع نرمال است .

راه هاي تشخيص نرمال بودن
1. آزمون الف : Anderson-Darling test ب :Ryan-Joiner normality test جKolmogorov-Smirnov normality test: 2. نمودارها الف: هيستوگرام ب:q-q-plot ج: p – p -plot

تست هاي اندرسون و کلموگروف
اين تست ها تابع توزيع تجربي که از روي داده ها به دست مي آيند را با تابع توزيع نرمال مقايسه مي کند. اگر تفاوت مشاهده شده از حد مطلوب (معين شده) بيشتر باشد فرض H0 يعني نرمال بودن رد خواهد شد

هنگام بررسي نرمال بودن خطاها ما فرض صفر مبتني بر اينکه توزيع خطا‌ها نرمال است را در سطح خطاي 5% تست مي‌کنيم. بنابراين اگر آماره آزمون بزرگتر مساوي 0.05 بدست آيد، در اين صورت دليلي براي رد فرض صفر مبتني بر اينکه خطا‌ها نرمال است، وجود نخواهد داشت. به عبارت ديگر توزيع خطا‌ها نرمال خواهد بود.

کاربرد تست هاي معرفي شده
آزمون هاي اندرسون - دارلينک و کلموگروف بر اساس تابع توزيع تجربي ساخته مي شوند و آزمون ريان بر اساس رگرسيون و همبستگي. هر سه آزمون زماني که غير نرمال بودن به خاطر چولگي باشد به خوبي کار مي کنند.

اگر مشکل غيرنرمال بودن از کشيدگي باشد(دم توزيع ضخيم تر يا باريک تر باشد)معمولا در اولويت اول از تست اندرسون استفاده مي شود.

دلايلي که خطاها نرمال نمي شوند:
الف –توزيع چند تکه اي باشد يعني توزيع چند تا مد داشته باشد.

ب- داده ي پرت داشته باشيم .
ج- بسته به ساختار داده ها هم مي تواند توزيع نرمال نباشد و چوله به راست يا چپ باشد.

مشکلاتي که پيش مي آيد؟ از آنجايي که در محاسبه ي آماره هاي t وF براي آزمون هاي رگرسيون و همچنين در محاسبه ي فواصل اطمينان، از فرض نرمال بودن خطاها استفاده مي کنيم لذا انحراف هاي بزرگ از توزيع نرمال مي تواند روي صحت و اعتبار نتايج بدست آمده تاثيرزيادي بگذارد. علاوه بر اين در صورتي که خطاها از توزيع هاي با دنباله هاي باريک تر يا پهن تر از توزيع نرمال پيروي کنند ، ممکن است برازش کمترين توان هاي دوم نسبت به تغيير کوچکي در داده ها حساس باشد . اگر نرمال نبودن خطاها ناشي از داده هاي پرت باشد دقت پايين مي آيد توان آزمون کم و طول فاصله اطمينان زياد مي شود و به تبع آن خطاي نوع دوم هم افزايش مي يابد.

در صورتي که متغيرهاي توصيفي يعني Xها نرمال باشند مشکل زيادي در برآوردها به وجود نمي آيد و اعتبار آزمون از بين نمي رود اما ديگر آزمون ما most power full نيست. در اين صورت مي توانيم به آزمون most power full برسيم به شرط اينکه يا از روش رگرسيون ناپارامتري استفاده کنيم يا از تبديلاتي روي Xها استفاده کنيم که آزمون ما most power full شود.

استفاده از آمارهاي ناپارامتري تشخيص توزيع پارامتري مناسب
براي پيدا کردن تبديل بهينه در حال حاضر از روش BOX-COX استفاده مي شه که بر اساس معياري که داره، تبديل بهينه يا همون لامبدا و پيدا مي کنه و با به توان رسوندن داده ها به مقدار لامبدا سعي در نرمال کردن توزيع داده ها داره. گرچه اين روش بسيار ساده است و نتايج قابل فهمي داره اما اين روش معايبي داره که عبارتند از: 1- داده ها بايستي مثبت باشند (بزرگتر از صفر) 2- در برخي موارد نمي تواند تبديلي براي نرمال کردن داده ها پيدا کند رفع مشکل تبديل استفاده از آمارهاي ناپارامتري تشخيص توزيع پارامتري مناسب

تبديل

COX – BOX اين تبديل بر اساس معياري که داره، تبديل بهينه يا همون λ را پيدا مي کنه و با به توان رسوندن داده ها به مقدار λ سعي در نرمال کردن توزيع داده ها داره. گرچه اين روش بسيار ساده است و نتايج قابل فهمي داره اما اين روش معايبي داره که عبارتند از: 1- داده ها بايستي مثبت باشند (بزرگتر از صفر) 2- در برخي موارد نمي تواند تبديلي براي نرمال کردن داده ها پيدا کند.

توزيع داده ها را Trancat ميکنيم تا به توزيع نرمال برسيم.
استفاده از تبديل معني دار (تبديل هاي لگاريتم و ريشه دوم و وارون)

استفاده از آمارهاي ناپارامتري
براي تست هاي آماري که در آن داده ها نرمال نيستند. آمار هاي ناپارامتري استفاده مي شود. آزمون هاي ناپارامتري در مقايسه با آزمون هاي پارامتري از توان تشخيصي کمتري برخوردارند. (مانند آزمون من – ويتني و آزمون کروسکال و واليس) اگر نمونه بزرگ باشد، طبق قضيه حد مرکزي حتي اگر جامعه نرمال نباشد مي توان از آزمون هاي پارامتريک استفاده نمود استفاده از ميانه در آزمون ها به جاي ميانگين استفاده از آمارهاي ناپارامتري

تشخيص توزيع پارامتري مناسب
توزيع هاي منعطف توزيع Skew Normal : از توزيع نرمال منعطف تر هستند. 2. توزيع Skew t: هم از توزيع نرمال منعطف تراست هم از توزيع t. تشخيص توزيع پارامتري مناسب

براي اين که بدانيم کدام توزيع ها براي داده هايي که داريم مناسب تر است از معيارهاي BIC/AIC/DIC استفاده مي کنيم. DIC)Deviance information criterion(= - 2 Iog L+ C AIC و BIC هم فقط در مقدار C با هم متفاوت هستند به همين دليل هر چه کمتر باشند بهتر است.

DIC Normal Skew-normal Student t Skew-t

QUESTION ?

منابع: Deviance information criterion Wikipedia, the free encyclopedia
A new class of multivariate skew distributions with applications to Bayesian regression modelsSujit K. SAHU, Dipak K. DEY and Marcia D. BRANCO Deviance information criterion Wikipedia, the free encyclopedia Normality test From Wikipedia, the free encyclopedia Jump

فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393

Similar presentations

Presentation on theme: "فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393

Similar presentations

Presentation on theme: "فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393"— Presentation transcript:

Similar presentations

About project

Feedback