فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393

Slides:



Advertisements
Similar presentations
Queue theory.
Advertisements

Logic Block Architectures. 2 Crosspoint Solution  Requires the use of large amounts of programmable interconnect −  suffer from area-inefficiency 
Stranded Costs مقدمه 1 - آشنايی با پديده های غيرخطی ( ياد آوری و تکميل ) 2 - مبانی رياضی ( مهم )
سازگاري فرايندهاي يادگيري Consistency of Learning Processes ارائه دهنده : الهام باوفای حقیقی استاد درس : آقای دکتر شيري دانشگاه امير كبير دانشكده ‌ مهندسي.
دستور العمل نحوه محاسبه امتیاز مقالات ISI اعضای هیأت علمی دانشگاه صنعتی اصفهان بر اساس تعداد استنادات در پايگاه اسكاپوس شهریور ماه 1388 نفیسه دهقان.
1 آزمايشگاه سيستم های هوشمند ( Domain-specific Architecture.
Computer Programming برنامه سازی کامپيوتر1 مدل های رياضی مهندسی يعنی کاربرد علوم مختلف (رياضی، فيزيک) در حل مسائل کاربردی مدل های رياضی برای پيش بينی رفتار.
مهندسی نرم افزار مبتنی بر عامل
ارائه روشي براي شناسايي کاراکترهاي دستنويس، برپايه شبکه LVQ.
بنام خدا معرفي روشهاي اصلاح شده در بهينه سازي کولوني مورچه ها و پيشنهاد يک local optimization.
ارائه درس روباتيکز Extended Kalman Filter فريد ملازم استاد مربوطه دکتر شيري دانشگاه امير کبير – دانشکده کامپيوتر و فناوري اطلاعات.
نام و نام خانوادگي : فريد ملازم 1 آزمايشکاه سيستم هاي هوشمند ( موضوع ارائه Process and Deployment Design.
1 آزمايشگاه سيستم های هوشمند ( ارزيابي معماري نرم افزار.
ارائه کننده: آلاء شريعتی
مديريت پروژه‌هاي فناوري اطلاعات فرآيند مديريت پروژه-مرحله برنامه‌ريزي تخصيص منابع.
تعميم در يادگيري مبتني بر نمونه ها
نقشه‌برداري و مكان‌يابي همزمان به کمک الگوريتم ژنتيک
دسته بندی نیمه نظارتی (2)
روابط مجموعه ها سلیمی. دکتر سلیمانی. نظریه فازی در سال 1965 بوسیله یک دانشمند ایرانی بنام پروفسور لطفی زاده معرفی گردید. گرچه این نظریه در ابتدا با.
1 فصل دوم تبديلات. 2 فصل دوم سرفصل مطالب مقدمه ضرب بردارها دستگاه ‌ هاي مختصات دوران ‌ ها مختصات همگن دوران ‌ ها و انتقال ‌ ها تبديلات تركيبي همگن تبديل.
1/19 Informed search algorithms Chapter 4 Modified by Vali Derhami.
سيستم خبره مرکب ( ترکيب پيشرو و پسرو ) زماني که يک فرضيه احتمالي براي جواب داشته باشيم، روش backward مي تواند خيلي کاراتر و مناسبتر باشد. اگر هيچ احتمال.
1 فصل سوم سينماتيك مستقيم. 2 محتواي فصل   تعريف مجموعه فازي   تابع عضويت   نمايش مجموعه هاي فازي   برش آلفا   متغيرهاي زباني   ساخت مجموعه.
آشنايي با سيستم اعداد.
Image Enhancement in the
Cost- Effectiveness Analysis
اصول روان سنجی و روان آزمویی
1 قانون تشابه. 2 مشخصه هاي يك پمپ سانتريفوژ شامل هد، دبي، راندمان و توان با رابطه زير به هم مربوطند : كه در اين رابطه H هد پمپ، Q دبي، g شتاب جاذبه و.
مطالعات تحليلي مشاهده اي
نظریه رفتار برنامه ريزي شده Theory of Planned Behavior
بنام خدا زبان برنامه نویسی C (21814( Lecture 12 Selected Topics
آرايه ها و ساختارها.
ANOVA: Analysis Of Variance
ANOVA: Analysis Of Variance
نمايش معادلات فضاي حالت توسط فرمهاي كانوليكال
Quick Sort مرتب سازي سريع.
تجزیه و تحلیل تصمیم گیری
تکنیک دیماتل DEMATEL: decision making trial and evaluation laboratory.
تلفيق اطلاعات سنسوري به منظور حرکت
دکتر حسين بلندي/ دکتر سید مجید اسماعیل زاده / دکتر بهمن قربانی واقعی
تبدیل فوریه (Fourier Transform)
نمايش اعداد در کامپيوتر چهار عمل اصلي
طراحی شبکه های توزیع برق مدرن
Similarity transformation
بسمه الله الرحمن الرحيم
ادامه فصل سوم ....
درخت جستجوی دودویی درخت جستجوي دودويي: درخت دودويي صفر نود يا بيشتر
به نام خدا برنامه ارزيابي خارجي کيفيت (هماتولوژی- سرولوژی)
ادامه فصل سوم ....
سيستمهاي اطلاعات مديريت
مدلسازي تجربي – تخمين پارامتر
هیدرولیک جریان در کانالهای باز
فيلتر كالمن معرفي : فيلتر كالمن تخمين بهينه حالت‌ها است كه براي سيستم‌هاي ديناميكي با اختلال تصادفي در سال 1960 بزاي سيستم‌هاي گسسته و در سال 1961 براي.
گروه كارشناسي ارشد مديريت فنآوري اطلاعات(واحد الكترونيكي تهران)
عمليات آهنگري.
نظریه رفتار برنامه ريزي شده Theory of Planned Behavior
به نام خدا برنامه ارزيابي خارجي کيفيت (هماتولوژی- سرولوژی)
با تشکر از دکتر جواد سلیمی
بسم الله الرحمن الرحیم هرس درخت تصمیم Dr.vahidipour Zahra bayat
فصل ششم مدارهای ترتیبی.
مدلسازي تجربي – تخمين پارامتر
مثال : فلوچارتي رسم كنيد كه دو عدد از ورودي دريافت كرده بزرگترين عدد
توزیع میانگین نمونه سعید موسوی.
گزارش کار آزمايشگاه مکانيک خاک
گروه كارشناسي ارشد مديريت فنآوري اطلاعات(واحد الكترونيكي تهران)
مباني كامپيوتر و برنامه سازي Basics of Computer and Programming
مباني كامپيوتر و برنامه سازي Basics of Computer and Programming
Dislocation multiplication
تخمين پارامترها - ادامه
انواع تحقيقات و روش هاي تحقيق دكترسيدمحسن حسيني ارسنجاني انواع تحقيقات و روش هاي تحقيق دكترسيدمحسن حسيني ارسنجاني.
Presentation transcript:

فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393 فاطمه بهمن زیاری ، مریم امینی مدل های خطی 1 بهمن1393

بد مشخصه سازي توزيع خطا

فرض هاي رگرسيون آنچه که در ابتدا براي انجام هر رگرسيون بايستي در نظر گرفته شود فرض هاي زيربنايي است که تحليل ها براساس آن ها انجام مي پذيرد. فرض هاي زيربنايي براي يک الگوي رگرسيون به صورت زير است : 1) جمله ي خطا ε داراي ميانگين صفر است . 2) جمله ي خطا ε داراي واريانس ثابت است . 3) جمله ي خطا ε ناهمبسته اند . 4) جمله ي خطا ε داراي توزيع نرمال است .

راه هاي تشخيص نرمال بودن 1. آزمون الف : Anderson-Darling test ب :Ryan-Joiner normality test جKolmogorov-Smirnov normality test: 2. نمودارها الف: هيستوگرام ب:q-q-plot ج: p – p -plot

تست هاي اندرسون و کلموگروف اين تست ها تابع توزيع تجربي که از روي داده ها به دست مي آيند را با تابع توزيع نرمال مقايسه مي کند. اگر تفاوت مشاهده شده از حد مطلوب (معين شده) بيشتر باشد فرض H0 يعني نرمال بودن رد خواهد شد

هنگام بررسي نرمال بودن خطاها ما فرض صفر مبتني بر اينکه توزيع خطا‌ها نرمال است را در سطح خطاي 5% تست مي‌کنيم. بنابراين اگر آماره آزمون بزرگتر مساوي 0.05 بدست آيد، در اين صورت دليلي براي رد فرض صفر مبتني بر اينکه خطا‌ها نرمال است، وجود نخواهد داشت. به عبارت ديگر توزيع خطا‌ها نرمال خواهد بود.

کاربرد تست هاي معرفي شده آزمون هاي اندرسون - دارلينک و کلموگروف بر اساس تابع توزيع تجربي ساخته مي شوند و آزمون ريان بر اساس رگرسيون و همبستگي. هر سه آزمون زماني که غير نرمال بودن به خاطر چولگي باشد به خوبي کار مي کنند.

اگر مشکل غيرنرمال بودن از کشيدگي باشد(دم توزيع ضخيم تر يا باريک تر باشد)معمولا در اولويت اول از تست اندرسون استفاده مي شود.

دلايلي که خطاها نرمال نمي شوند: الف –توزيع چند تکه اي باشد يعني توزيع چند تا مد داشته باشد.

ب- داده ي پرت داشته باشيم . ج- بسته به ساختار داده ها هم مي تواند توزيع نرمال نباشد و چوله به راست يا چپ باشد.

مشکلاتي که پيش مي آيد؟ از آنجايي که در محاسبه ي آماره هاي t وF براي آزمون هاي رگرسيون و همچنين در محاسبه ي فواصل اطمينان، از فرض نرمال بودن خطاها استفاده مي کنيم لذا انحراف هاي بزرگ از توزيع نرمال مي تواند روي صحت و اعتبار نتايج بدست آمده تاثيرزيادي بگذارد. علاوه بر اين در صورتي که خطاها از توزيع هاي با دنباله هاي باريک تر يا پهن تر از توزيع نرمال پيروي کنند ، ممکن است برازش کمترين توان هاي دوم نسبت به تغيير کوچکي در داده ها حساس باشد . اگر نرمال نبودن خطاها ناشي از داده هاي پرت باشد دقت پايين مي آيد توان آزمون کم و طول فاصله اطمينان زياد مي شود و به تبع آن خطاي نوع دوم هم افزايش مي يابد.

در صورتي که متغيرهاي توصيفي يعني Xها نرمال باشند مشکل زيادي در برآوردها به وجود نمي آيد و اعتبار آزمون از بين نمي رود اما ديگر آزمون ما most power full نيست. در اين صورت مي توانيم به آزمون most power full برسيم به شرط اينکه يا از روش رگرسيون ناپارامتري استفاده کنيم يا از تبديلاتي روي Xها استفاده کنيم که آزمون ما most power full شود.

استفاده از آمارهاي ناپارامتري تشخيص توزيع پارامتري مناسب براي پيدا کردن تبديل بهينه در حال حاضر از روش BOX-COX استفاده مي شه که بر اساس معياري که داره، تبديل بهينه يا همون لامبدا و پيدا مي کنه و با به توان رسوندن داده ها به مقدار لامبدا سعي در نرمال کردن توزيع داده ها داره. گرچه اين روش بسيار ساده است و نتايج قابل فهمي داره اما اين روش معايبي داره که عبارتند از: 1- داده ها بايستي مثبت باشند (بزرگتر از صفر) 2- در برخي موارد نمي تواند تبديلي براي نرمال کردن داده ها پيدا کند رفع مشکل تبديل استفاده از آمارهاي ناپارامتري تشخيص توزيع پارامتري مناسب

تبديل

COX – BOX اين تبديل بر اساس معياري که داره، تبديل بهينه يا همون λ را پيدا مي کنه و با به توان رسوندن داده ها به مقدار λ سعي در نرمال کردن توزيع داده ها داره. گرچه اين روش بسيار ساده است و نتايج قابل فهمي داره اما اين روش معايبي داره که عبارتند از: 1- داده ها بايستي مثبت باشند (بزرگتر از صفر) 2- در برخي موارد نمي تواند تبديلي براي نرمال کردن داده ها پيدا کند.

توزيع داده ها را Trancat ميکنيم تا به توزيع نرمال برسيم. استفاده از تبديل معني دار (تبديل هاي لگاريتم و ريشه دوم و وارون)

استفاده از آمارهاي ناپارامتري براي تست هاي آماري که در آن داده ها نرمال نيستند. آمار هاي ناپارامتري استفاده مي شود. آزمون هاي ناپارامتري در مقايسه با آزمون هاي پارامتري از توان تشخيصي کمتري برخوردارند.  (مانند آزمون من – ويتني و آزمون کروسکال و واليس) اگر نمونه بزرگ باشد، طبق قضيه حد مرکزي حتي اگر جامعه نرمال نباشد مي توان از آزمون هاي پارامتريک استفاده نمود استفاده از ميانه در آزمون ها به جاي ميانگين استفاده از آمارهاي ناپارامتري

تشخيص توزيع پارامتري مناسب توزيع هاي منعطف توزيع Skew Normal : از توزيع نرمال منعطف تر هستند. 2. توزيع Skew t: هم از توزيع نرمال منعطف تراست هم از توزيع t. تشخيص توزيع پارامتري مناسب

براي اين که بدانيم کدام توزيع ها براي داده هايي که داريم مناسب تر است از معيارهاي BIC/AIC/DIC استفاده مي کنيم. DIC)Deviance information criterion(= - 2 Iog L+ C AIC و BIC هم فقط در مقدار C با هم متفاوت هستند به همين دليل هر چه کمتر باشند بهتر است.

DIC Normal 2750.6 Skew-normal 2658.1 Student t 2742.1 Skew-t 2387.4

QUESTION ?

منابع: Deviance information criterion Wikipedia, the free encyclopedia A new class of multivariate skew distributions with applications to Bayesian regression modelsSujit K. SAHU, Dipak K. DEY and Marcia D. BRANCO Deviance information criterion Wikipedia, the free encyclopedia Normality test From Wikipedia, the free encyclopedia Jump