دانشگاه صنعتی امیرکبیر Instructor : Saeed Shiry & Bishop Ch. 1

Slides:



Advertisements
Similar presentations
Generative Models Thus far we have essentially considered techniques that perform classification indirectly by modeling the training data, optimizing.
Advertisements

Neural networks Introduction Fitting neural networks
VC theory, Support vectors and Hedged prediction technology.
G53MLE | Machine Learning | Dr Guoping Qiu
Polynomial Curve Fitting BITS C464/BITS F464 Navneet Goyal Department of Computer Science, BITS-Pilani, Pilani Campus, India.
AB 11 22 33 44 55 66 77 88 99 10  20  19  18  17  16  15  14  13  12  11  21  22  23  24  25  26  27  28.
Support Vector Machines
Lecture 14 – Neural Networks
Pattern Recognition and Machine Learning
SVM for Regression DMML Lab 04/20/07. SVM Recall Two-class classification problem using linear model:
Optimal Adaptation for Statistical Classifiers Xiao Li.
Kernel Methods and SVM’s. Predictive Modeling Goal: learn a mapping: y = f(x;  ) Need: 1. A model structure 2. A score function 3. An optimization strategy.
SVMs Finalized. Where we are Last time Support vector machines in grungy detail The SVM objective function and QP Today Last details on SVMs Putting it.
Minimal Neural Networks Support vector machines and Bayesian learning for neural networks Peter Andras
SVM (Support Vector Machines) Base on statistical learning theory choose the kernel before the learning process.
Statistical Learning Theory: Classification Using Support Vector Machines John DiMona Some slides based on Prof Andrew Moore at CMU:
Optimization Theory Primal Optimization Problem subject to: Primal Optimal Value:
CSCI 347 / CS 4206: Data Mining Module 04: Algorithms Topic 06: Regression.
Introduction Mohammad Beigi Department of Biomedical Engineering Isfahan University
Where We’re At Three learning rules  Hebbian learning regression  LMS (delta rule) regression  Perceptron classification.
1 Logistic Regression Adapted from: Tom Mitchell’s Machine Learning Book Evan Wei Xiang and Qiang Yang.
Machine Learning Seminar: Support Vector Regression Presented by: Heng Ji 10/08/03.
Support vector machines for classification Radek Zíka
Jeff Howbert Introduction to Machine Learning Winter Regression Linear Regression.
Data Mining Practical Machine Learning Tools and Techniques Chapter 4: Algorithms: The Basic Methods Section 4.6: Linear Models Rodney Nielsen Many of.
CS Statistical Machine learning Lecture 18 Yuan (Alan) Qi Purdue CS Oct
VECTORS (Ch. 12) Vectors in the plane Definition: A vector v in the Cartesian plane is an ordered pair of real numbers:  a,b . We write v =  a,b  and.
SUPPORT VECTOR MACHINES. Intresting Statistics: Vladmir Vapnik invented Support Vector Machines in SVM have been developed in the framework of Statistical.
Biological Inspiration for Artificial Neural Networks Nick Mascola.
Foundational Issues Machine Learning 726 Simon Fraser University.
Nonlinear Adaptive Kernel Methods Dec. 1, 2009 Anthony Kuh Chaopin Zhu Nate Kowahl.
Machine Learning Supervised Learning Classification and Regression
CEE 6410 Water Resources Systems Analysis
Machine Learning & Deep Learning
به نام خدا هوالعليم.
Linear Regression (continued)
Neural Networks for Machine Learning Lecture 1e Three types of learning Geoffrey Hinton with Nitish Srivastava Kevin Swersky.
Regularized risk minimization
Machine Learning. Support Vector Machines A Support Vector Machine (SVM) can be imagined as a surface that creates a boundary between points of data.
Overview of Supervised Learning
An Introduction to Support Vector Machines
An Introduction to Support Vector Machines
Pawan Lingras and Cory Butz
FUNDAMENTALS OF MACHINE LEARNING AND DEEP LEARNING
Multi-layer perceptron
Feature Engineering Studio Special Session
Convolutional Neural Networks
Neural Networks Advantages Criticism
یادگیری بر پایه نمونه Instance Based Learning Instructor : Saeed Shiry
دسته بندی با استفاده از مدل های خطی
Lesson 5.7 Predict with Linear Models The Zeros of a Function
دانشگاه صنعتی امیرکبیر
Machine Learning Week 3.
Machine Learning. Support Vector Machines A Support Vector Machine (SVM) can be imagined as a surface that creates a boundary between points of data.
Machine Learning. Support Vector Machines A Support Vector Machine (SVM) can be imagined as a surface that creates a boundary between points of data.
Lecture Notes for Chapter 4 Artificial Neural Networks
Sigmoid and logistic regression
Classification Boundaries
Linear Transformations
Support Vector Machines and Kernels
Other Classification Models: Support Vector Machine (SVM)
Based on slides by William Cohen, Andrej Karpathy, Piyush Rai
Neural networks (1) Traditional multi-layer perceptrons
Machine Learning Support Vector Machine Supervised Learning
Based on slides by William Cohen, Andrej Karpathy, Piyush Rai
Based on slides by William Cohen, Andrej Karpathy, Piyush Rai
Based on slides by William Cohen, Andrej Karpathy, Piyush Rai
Based on slides by William Cohen, Andrej Karpathy, Piyush Rai
Linear Transformations
Support Vector Machines 2
Presentation transcript:

دانشگاه صنعتی امیرکبیر Instructor : Saeed Shiry & Bishop Ch. 1 یادگیری ماشین Instructor : Saeed Shiry & Bishop Ch. 1

یادگیری با ناظر در یادگیری با ناظر مجموعه ای از داده های آموزشی بصورت زیر تهیه میشود: که در آن یک زوج ورودی و خروجی را تشکیل می دهد. Xi بردار ورودی است و Yi خروجی متناظر با آن است. هدف از یادگیری پیدا کردن تابعی مثل است به نحوی که:

انواع اصلی مسئله یادگیری با ناظر Regression classification رگراسیون: وقتی که تابع هدف بصورت پیوسته باشد مسئله یادگیری یک مسئله رگراسیون خواهد بود. مثل یادگیری رابطه قیمت و مساحت خانه ها دسته بندی (classification) : وقتی که y بتواند تعداد محدودی مقدار گسسته بگیرد مسئله یادگیری یک مسئله دسته بندی خواهد بود. مثل: آیا خانه مورد نظر یک آپارتمان است؟

روشهای مطرح سه نوع روش را برای مسئله های رگراسیون و دسته بندی بررسی خواهیم نمود. Linear models for regression and classification. Multi-layer neural networks. Support vector machines. Kernel methods.

مثالی از رگراسیون فرض کنید داده های زیر جمع آوری شده است و می خواهیم تابع f: X Y را برا توصیف رابطه ورودی و خروجی بیابیم.

بایاس کردن سیستم یادگیر یادگیری تابع f یک مسئله ill posed problem است زیرا توابع زیادی وجود دارند که می توانند به عنوان پاسخ انتخاب شوند. در اینجا لازم است که یک فرض در مورد ماهیت تابعی که به دنبال آن هستیم انجام دهیم. به این کار بایاس کردن سیستم یادگیر می گویند. برای مثال می توان این تابع را خطی فرض کرد. باید توجه داشت که هیچ سیستم یادگیری نمی تواند بدون داشتن بایاس کار کند.

تعیین پارامترهای تابع حتی با تعیین نوع تابع ( تعیین مدل) نیز تعداد زیادی انتخاب وجود خواهد داشت. در واقع برای یک رابطه خطی f=ax+b بازای هر مقدار a,b یک خط می توان رسم نمود. که باید بهترین تابع از بین آنها انتخاب شوند.

ایجاد سازگاری بین مدل و داده برای تعیین بهترین پارامترها باید آنها را طوری انتخاب نمود که اختلاف بین مدل M و داده های D حداقل شوند. برای این کار یک رابطه خطا تعیین میشود و پارامترهائی که کمترین خطا را بوجود می آورند به عنون پارامترهای مدل انتخاب میشوند. رابطه خطا را به روش های گوناگون می توان تعریف نمود.

مدل های چند جمله ای اگر رابطه بین ورودی و خروجی غیر خطی باشد می توان از مدلهای مرتبه بالاتر استفاده نمود. این مدل رابطه غیر خطی با X ولی رابطه خطی با w خواهد داشت.

تعیین ضرایب مدل چند جمله ای در این حالت نیز یک عبارت خطا تعریف شده و برای تعیین بهترین پارامترهای مدل از رابطه خطا نسبت به پارامترها مشتق گرفته میشود تا ضرایبی که کمترین خطا را تولید میکنند تعیین شوند. tn= target value Set Equal to Zero در این حالت تعداد M+1 معادله وجود خواهند داشت که با حل آنها به ضرایب پاسخ بهینه w* دست پیدا خواهیم نمود.

تاثیر تعداد جملات (M) در نوع پاسخ Poor Representation Over fit Best fit

Over fitting با افزایش M تابع بکار رفته در مدل پیچیده تر میشود و این امکان وجود خواهد داشت که با پیچیده تر شدن مدل، تابع روی داده های آموزشی Over fit شده و علیرغم اینکه خطای بین داده های آموزشی و تابع بسیار کاهش می یابد تابع نتواند در مورد داده های مشاهده نشده عملکرد خوبی داشته باشد.

قدرت تعمیم یکی از ویژگی های مهم مدل یادگرفته شده قدرت تعمیم آن است. قابلیت تعمیم مشخص میکند که مدل با چه دقتی می تواند داده های جدید را توصیف نماید. برای نشان دادن اینکه آیا مدل یادگرفته شده قادر است داده های جدید را هم بخوبی توصیف نماید از مجموعه داده دیگری که داده آزمایشی خوانده میشود استفاده میشود. این داده ها به مدل یادگرفته شده ارائه شده و خطای مدل اندازه گیری میشود. برای اندازه گیری این خطا از معیار زیر که کارائی بهتری دارد استفاده میشود.

نتایج داده های آزمایشی در شکل مقابل خطای حاصل از مدل های مختلف برای داده های آموزشی و همچنین داده های آزمایشی نشان داده شده است. همانطور که مشاهده میشود مدلی که کمترین خطای آموزش را داشته است دچار over fitting شده و با از دست دادن قدرت تعمیم خطای ازمایشی زیادی را بوجود آورده است. جالب است که توجه شود مدل مرتبه 8 و مرتبه 3 عملکرد های تقریبا یکسانی دارند.

توجه به ضرایب با بررسی دقیق تر پارامترهای مدل می توان به رفتار نوسانی آن در هنگام over fitting پی برد.

افزایش تعداد داده های آموزشی شکل های زیر رفتار سیستم را در مقابل تغییر داده های آموزشی نشان می دهد. برای یک مدل با پیچیدگی یکسان با افزایش تعداد داده های آموزشی مسئله over fitting کمتر ظاهر می شود. تعداد داده معمولا باید 5 تا 10 برابر تعداد پارامترهای مدل باشد.

Regularization برای غلبه بر مشکل over fitting در هنگام استفاده از روش کمترین خطا اضافه کردن جمله رگولاسیون به عبارت خطا می باشد. همانطور که دیدیم هنگام بروز over fitting ضرایب چند جمله ای خیلی بزرگ می شدند. حال اگر مدل هائی که دارای ضرایب بزرگ هستند به نوعی جریمه شوند سیستم یادگیر از انتخاب آنها پرهیز خواهد نمود. جمله جریمه مناسب به عنوان ترم رگولاسیون به عبارت خطا اضافه میشود. ضریب اهمیت نسبی جمله رکولاسیون را مشخص میکند.

تاثیر رگولاسیون شکل و جداول زیر عملکرد مثال قبلی را با مقدار M=9 ولی برای مقادیر مختلف رگولاسیون نشان میدهد.

رگراسیون در ابعاد بالا در ابعاد بالا بجای خط از ابر صفحه Hyperplane استفاده میشود. روش تعرف و استفاده از عبارت خطا مشابه حالت یک بعدی است.

تست الگوریتم ها یادگیری مجموعه داده موجود به دو دسته تست و آموزشی تقسیم میشود. بر اساس داده آموزشی مدل یاد گرفته میشود سپس با استفاده از داده های آموزشی مدل یادگرفته شده ارزیابی میگردد.

مراحل طراحی یک سیستم یادگیر