Download presentation
Presentation is loading. Please wait.
Published byCharlotte Willis Modified over 6 years ago
1
دانشگاه صنعتی امیرکبیر Instructor : Saeed Shiry
Mixture of Experts Instructor : Saeed Shiry
2
مقدمه ایده اصلی در این است که نواحی مختلف ورودی با یادگیرهای مختلفی پوشش داده شوند.
3
روش سه روش در ادامه مورد بحث قرار خواهند گرفت.
Mixtures of linear regression models Mixtures of logistic regression models Mixture of experts model
4
Maximum Likelihood Estimation
قبل از ادامه بحث مقدماتی در مورد MLE ارائه میشود: Likelihood = Probability (Data | Model) Maximum likelihood: Best estimate is the set of parameter values which gives the highest possible likelihood. در واقع میخواهیم بهترین مدلی را پیدا کنیم که باعث بوجود آمدن داده شده است. در یک تابع درستنمائی داده ثابت فرض شده و بدنبال بهترین مدل ( در حقیقت بهترین پارامترهای یک مدل از پیش فرض شده) هستیم. Likelihood Function
5
مثال Suppose the following are marks in a course 55.5, 67, 87, 48, 63
Marks typically follow a Normal distribution whose density function is Now, we want to find the best , such that
6
مثال Suppose we have data about heights of people (in cm)
185,140,134,150,170 Heights follow a normal (log normal) distribution but men on average are taller than women. This suggests a mixture of two distributions
7
A Mixture Distribution
8
Maximum Likelihood Estimation
در عمل مسئله انتخاب بهترین مدل به مسئله انتخاب بهترین پارامتر برای مدل از پیش فرض شده تقلیل داده میشود. چرا؟ لذا قصد داریم پارمتری مثل p را که احتمال تولید داده توسط مدل را حداکثر میکند بدست آوریم. پارامتر p را maximum likelihood estimator مینامند. برای پیدا کردن مقدار ماکزیمم میتوان از مشتق گیری استفاده نمود.
9
Example of MLE Now, choose p which maximizes L(p). Instead we will maximize l(p)= LogL(p)
10
Two Important Facts If A1,,An are independent then
The log function is monotonically increasing. x · y ! Log(x) · Log(y) Therefore if a function f(x) >= 0, achieves a maximum at x1, then log(f(x)) also achieves a maximum at x1.
11
Properties of MLE There are several technical properties of the estimator but lets look at the most intuitive one: As the number of data points increase we become more sure about the parameter p
12
Properties of MLE r is the number of data points. As the number of data points increase the confidence of the estimator increases.
13
Matlab commands [phat,ci]=mle(Data,’distribution’,’Bernoulli’);
[phi,ci]=mle(Data,’distribution’,’Normal’);
14
راه حل مسئله Problem: Approach: Describe data with Mixture Model(MM)
Decide on MM, e.g. Gauss distribution Mix of two Estimate parameters
15
Gaussian Mixture Model (GMM)
Assume that the dataset is generated by two mixed Gaussian distributions Gaussian model 1: Gaussian model 2: If we know the memberships for each bin, estimating the two Gaussian models is easy. How to estimate the two Gaussian models without knowing the memberships of bins?
16
Review Stochastically independent Bayes’ rule Logarithm Expectation
17
Types of classification data
K-means: Data set is incomplete, but we complete it using a specific cost function. Data set is complete. EM: data set is incomplete, but we complete it using posterior probabilities (a “soft” class membership).
18
Motivation Likelihood of parameter Θ given data X:
Maximize expectation of L by tweaking Θ: Analytically hard Use “Expectation Maximization” method and algorithm A.P.Dempster, et al 1977: “Maximum likelihood from incomplete data via the EM algorithm” General statement of the algorithm Prove convergence Coin the term ”EM algorithm”
19
EM as A Bound Optimization
EM algorithm in fact maximizes the log-likelihood function of training data Likelihood for a data point x Log-likelihood of training data
20
EM as A Bound Optimization
EM algorithm in fact maximizes the log-likelihood function of training data Likelihood for a data point x Log-likelihood of training data
21
EM as A Bound Optimization
EM algorithm in fact maximizes the log-likelihood function of training data Likelihood for a data point x p1 = p(1) = p(z1 = 1) and p2 = p(2) = p(z2 =1) 1=(µ1, 1) and 2=(µ2, 2)
22
Data Likelihood Remember: We have unlabeled data X = {x1 x2 … xR}
We know there are k classes We know P( 1) P( 2) P( 3) … P( k) We don’t know μ1 μ2 .. μk We can write P( X | μ1…. μk) = P( data | μ1…. μk)
23
EM algorithm: log-likelihood increases with each step
10 20 30 40 -930 -920 -910 -900 -890 -880 -870
24
Maximize GMM Model
25
The simplest data to model: a set of 1–d samples
26
Fit this distribution with a Gaussian
27
How find the parameters of the best-fitting Gaussian?
Posterior probability Likelihood function Prior probability Evidence By Bayes rule mean std. dev. data points
28
How find the parameters of the best-fitting Gaussian?
Posterior probability Likelihood function Prior probability Evidence mean std. dev. data points Maximum likelihood parameter estimation:
29
Derivation of MLE for Gaussians
Observation density Log likelihood Maximisation
30
Basic Maximum Likelihood Estimate (MLE) of a Gaussian distribution
Mean Variance Covariance Matrix
31
Basic Maximum Likelihood Estimate (MLE) of a Gaussian distribution
Mean Variance For vector-valued data, we have the Covariance Matrix
32
EM Algorithm for GMM Let memberships to be hidden variables
EM algorithm for Gaussian mixture model Unknown memberships: Unknown Gaussian models: Learn these two sets of parameters iteratively
33
Start with A Random Guess
Random assign the memberships to each point
34
Start with A Random Guess
Random assign the memberships to each point Estimate the means and variance of each Gaussian model
35
E-step Fixed the two Gaussian models
Estimate the posterior for each data point
36
EM Algorithm for GMM Re-estimate the memberships for each point
37
M-Step Fixed the memberships Re-estimate the two model Gaussian Q
38
EM Algorithm for GMM Re-estimate the memberships for each point
Re-estimate the models
39
At the 5-th Iteration Red Gaussian component slowly shifts toward the left end of the x axis
40
At the10-th Iteration Red Gaussian component still slowly shifts toward the left end of the x axis
41
At the 20-th Iteration Red Gaussian component make more noticeable shift toward the left end of the x axis
42
At the 50-th Iteration Red Gaussian component is close to the desirable location
43
At the 100-th Iteration The results are almost identical to the ones for the 50-th iteration
53
Control Group Anemia Group
54
Mixtures of linear regression models
میتوان با تعبیر احتمالاتی رگراسیون خطی آنرا بعنوان ابزاری در مدلهای پیچیده تر احتمالاتی بکار برد. تعداد k عدد مدل رگراسیون خطی را در نظر بگیرید که هر یک ضرایب wk خود را دارند. در بسیاری مسایل عملی برای در نظر گرفتن واریانس نویز از پارامتر دقت β استفاده میشود که برای همه K مدل یکسان در نظر گرفته میشود. برای مقدار هدف t میتوان دسته بندی کننده ها را با ضریب πk با هم ترکیب نمود: θ مجموعه تمام پارامترهای قابل تنظیم در مدل است نظیر w, π, β
55
Mixtures of linear regression models
برای مجموعه ای از داده های آموزشی {φn, tn} مقدار log likelihood این تابع را میتوان بصورت زیر نوشت: که در آن t = {t1, , tN}T بردار هدف است. برای ماکزیمم کردن مقدار فوق میتوان از روش EM استفاده نمود. یک متغیر باینری پنهان بصورت Z = {zn} در نظر گرفته میشود. znk ∈ {0, 1} برای یک داده ورودی n همه مقادیر k = 1, , K صفر هستند بجز یکی که نشان میدهد کدام عضو باعث بوجود آمدن داده شده است.
56
مدل گرافیکی ترکیب مدل های رگراسیون خطی فوق را میتوان بصورت مدل گرافیکی زیر نشان داد: تابع بصورت زیر درخواهد آمد:
57
الگوریتم EM الگوریتم EM ابتدا یک مقدار اولیه برای پارامترهای مدل یعنی θold انتخاب میکند. در مرحله E از این پارامترها برای محاسبه مقادیر احتمال ثانویه و یا سهم هر مدل k در داده n استفاده میشود از این مقدار برای محاسبه Expectation استفاده میشود.
58
مرحله Maximation در مرحله M مقدار Q(θ, θold) نسبت به θ حداکثر میشود در حالیکه γnk ثابت نگه داشته میشود. برای بهینه سازی نسبت به پارامتر πk باید شرط برقرار باشد. از اینرو از ضریبی با نام ضریب لاگرانژ استفاده میشود. برای ماکزیمم کردن نسبت به پارامتر wk مدل kام مقدار تابع Q بر اساس این پارامتر بصورت زیر نوشته میشود. که این رابطه مشابه شکل استانداردمجموع مربعات خطاست. وجود ضریب باعث میشود تا این رابطه بصورت weighted least squares تبدیل شود.
59
مرحله Maximation با مشتق گیری از رابطه فوق خواهیم داشت
که بصورت ماتریسی زیر قابل نمایش است. با حل این رابطه خواهیم داشت
60
مرحله Maximation برای ماکزیمم کردن مقدار Q بر حسب پارامتر β داریم
که با مشتق گیری آن خواهیم داشت.
61
مثالی از اجرای الگوریتم بر روی داده
نتیجه اعمال مدل بر روی یک داده مقدار میانگین دو مدل بتدریج در شکلهای بالا بر داده ها تنظیم میشود. در شکل پائین مقدار احتمال ثانویه مربوط به هرداده نشان داده شده است.
62
Mixtures of logistic models
از آنجائیکه مدل لاجستیک رگراسیون یک توزیع شرطی برای تابع هدف تعیین میکند استفاده از آن در مدل مخلوط تواناتر از رگراسیون خطی است.این توزیع برای تعداد k مدل بصورت زیر است: برای مجموعه داده مقدار درست نمائی برابر است با برای ماکزیمم کردن رابطه فوق از روشEM از یک متغیر نهان استفاده میشود:
63
اجرای الگوریتم EM ابتدا مقدارθold مقدار دهی اولیه میشود. سپس در مرحله E با استفاده از این مقدار برای هر مدل مقدار احتمال ثانویه زیر بازای هر داده ورودی محاسبه میشود: در مرحله M با استفاده از مقادیر فوق log likelihood داده برحسب θ محاسبه میگردد.
64
مرحله M ماکزیمم کردن نسبت به πk با استفاده از ضریب لاگرانژ انجام میشود تا برقرار گردد. نتیجه رابطه زیر خواهد بود: ماکزیمم کردن نسبت به w با استفاده از روش تکراری reweighted least squares(IRLS) algorithm انجام میشود.
65
مثال در شکل سمت چپ دو کلاس مختلف با رنگ های آبی و قرمز مشخص شده اند. رنگ زمینه احتمال تعلق هر نقطه به دسته مربوطه را نشان میدهد. در شکل از یک مدل لاجستیک برای جدا سازی داده استفاده شده است. در شکل سمت راست ترکیبی از دومدل لاجستیک اعمال شده است.
66
Mixtures of experts برا ی افزایش کارائی مدل های مخلوط میتوان ضریب ترکیب را بصورت ترکیبی از ورودیها در نظر گرفت. این روش mixture of experts model نامیده میشود و ضرایب πk(x) توابع gating و pk(t|x) خبره (expert) نامیده میشوند. در این حالت نیز روابط زیر باید صادق باشد: درحالتیکه خبره ها رگراسیون خطی و یا لاجستیک باشند میتوان از EM برای یافتن مدل استفاده کرد.
67
Mixtures of experts μ Ellipsoidal Gating function g1 g2 g3
Gating Network x μ1 μ2 μ3 Expert Network Expert Network Expert Network x x x
68
Hierarchical mixture of experts
مدل خطی قبلی برای ترکیب کردن خبره ها محدودیت های عملی زیادی دارد از اینرو از یک مدل سلسله مراتبی برای اینکار استفاده میشود. این مدل شبیه یک مدل احتمالاتی از درخت تصمیم عمل میکند. این روش از الگوریتم back-propagation سریعتر است. برای مسایل online هم استفاده شده است.
69
Hierarchical mixture of experts
Linear Gating function
70
محدودیت های مدل مخلوط و الگوریتم EM
در این روش فرض شده است که ویژگی ها ازهم مستقل باشند. علاوه بر آن الگوریتم EM ممکن است که در مینمیم محلی گیر کند. برای آموزش این روش راه حل بسته ای وجود ندارد. برای یک داده واحد مدل های مخلوط متفاوتی بدست می آیند که باعث میشود تعبیر راه حل مشکل شود. برای مسایل گسسته همیشه مناسب نیستند.
71
انتخاب تعداد خبره ها یک راه ساده برای انتخاب تعداد خبره ها، ایجاد یک تابع هزینه است که به تعداد پارامترهای مدل و همچنین log-likelihood بستگی داشته باشد. از آنجائیکه با افزایش پارامترهای استفاده شده در مدل، مقدار log-likelihood نیز افزایش می یابد باید تابع هزینه تعادلی بین تغییر این دو مقدار بوجود آورد. یک تابع معمول تابع description length است. The effective number of parameters in the model Maximum likelihood estimate of parameters for m mixture components Number of data points
Similar presentations
© 2024 SlidePlayer.com Inc.
All rights reserved.