Presentation is loading. Please wait.

Presentation is loading. Please wait.

(C) סיון טל 1 גילוי מידע וזיהוי תבניות תרגול מס. 5 Principal Component Analysis חזרה על שיטות שערוך לא פרמטריות.

Similar presentations


Presentation on theme: "(C) סיון טל 1 גילוי מידע וזיהוי תבניות תרגול מס. 5 Principal Component Analysis חזרה על שיטות שערוך לא פרמטריות."— Presentation transcript:

1 (C) סיון טל 1 גילוי מידע וזיהוי תבניות תרגול מס. 5 Principal Component Analysis חזרה על שיטות שערוך לא פרמטריות

2 2 The curse of dimensionality ביצועיה של מערכת לומדת לזיהוי תבניות מושפעת לרוב באופן משמעותי ( ולעתים אף דרסטי ) ממספר המימדים של נקודת דגימה. לדוגמה : בשיטת ההיסטוגרמות, שבה מחלקים את תחום המדגם ל -M תאים וסופרים את נקודות המדגם שנופלות בכל תא. כאשר מרחב המדגם הוא d מימדי, יהיו תאים, ונצטרך מדגם גדול יותר כדי לקבל הערכה אפקטיבית של ההתפלגות. גודל המדגם הנדרש גדל אקספוננציאלית עם המימדיות. גם סיבוכיות זמן עלולה להיות מושפעת חזק מהמימדיות.

3 3 הקטנת המימדיות להקטנת המימדיות יש מחיר. עם נקטין את מספר התכוניות (features), נאבד מידע שעשוי לתרום להערכת ההתפלגות. בכל זאת, בהרבה מקרים נוכל לשפר את ביצועי המערכת ע ” י הקטנת המימדיות, תחת ההנחה כי מדגם הלמידה סופי. המטרה - להקטין את המימדיות כמה שיותר, ולאבד מידע רלבנטי כמה שפחות. נשים לב - יש תכוניות שתורמות יותר לסיווג, ויש כאלה שפחות. היום נראה שיטה אלגברית להקטין את המימדיות ע ” י איתור תכוניות שבהן השונות הגבוהה ביותר, והתמקדות בהן.

4 4 Principal Component Analysis המטרה : מיפוי של וקטורים במרחב d- מימדי ל - וקטורים במרחב M מימדי כאשר. ראשית, נשים לב כי ניתן לייצג וקטור d- מימדי כצירוף ליניארי של d וקטורים אורטונורמליים

5 5 כעת נניח כי אנחנו משמרים רק תת - קבוצה בגודל M של וקטורי הבסיס כך שאנחנו משתמשים רק ב -M מקדמים. את יתר המקדמים נחליף בקבועים כך שכל וקטור מקורב ע ” י ביטוי מהצורה : ביטוי זה מייצג הקטנת המימדיות, כי כל וקטור מקורי שיש לו d דרגות חופש מקורב ע ” י וקטור שיש לו M דרגות חופש. כעת נחזור לקבוצת המדגם שלנו. אנחנו שואפים לבחור וקטורי בסיס וקבועים כך ש - הוא קירוב טוב ביותר ל -, בממוצע על כל המדגם. את לא צריך לבחור - הוא נקבע ע ” י

6 6 השגיאה בוקטור כתוצאה מהקטנת המימדיות היא : נחפש את הקירוב שממזער את סכום ריבועי השגיאות, כלומר נמזער את הביטוי : ( השוויון האחרון - בשל האורטונורמליות של )

7 7 בחירת הקבועים אם נגזור את לפי נקבל : נשווה את הנגזרת ל -0 ונקבל : נותר לנו לבחור את וקטורי הבסיס

8 8 בחירת וקטורי הבסיס ראשית נציב היא מטריצת הקו - וואריאנס של וקטורי המדגם.

9 9 נותר לנו למצוא את קבוצת וקטורי הבסיס שתביא למינימום את ( תחת האילוץ שהוקטורים אורטונורמליים.) הפתרון אינו קל, ונביא כאן רק את התוצאה : המינימום מתקבל כאשר וקטורי הבסיס מקיימים כלומר, כאשר הם הוקטורים העצמיים של. העובדה ש - מטריצה ממשית וסימטרית, מאפשרת ל - להיות אכן קבוצה אורטונורמלית.

10 10 ע ” י הצבת הפתרון בביטוי עבור השגיאה נקבל : כדי לקבל שגיאה מינימלית עלינו לבחור את (d-M) האינדקסים שבהם הערכים העצמיים המינימליים, ואותם להשמיט.

11 11 האלגוריתם להקטנת המימדיות חשב את הוקטור הממוצע חשב את מטריצת הקו - וואריאנס חשב את הוקטורים העצמיים והערכים העצמיים בחר את M הוקטורים שהערכים העצמיים שלהם מקסימליים. ההטלה של הוקטורים על M הוקטורים הללו היא קבוצת וקטורים במרחב M- מימדי. קלט : קבוצת מדגם של וקטורים במרחב d- מימדי. פלט : קבוצה של וקטורים במרחב M- מימדי, שנותנת קירוב מקסימלי של קבוצת המדגם.

12 12 דוגמה :

13 13 נניח כי נתונה קבוצת מדגם של וקטורים במרחב d- מימדי, ואנחנו מפעילים PCA ומגלים כי יש g ערכים עצמיים גדולים באופן משמעותי מ - d-g האחרים. זה אומר לנו שניתן לייצג את המידע הנתון בקירוב טוב ע ” י הטלה של הוקטורים על הוקטורים העצמיים המתאימים ל -g הע ” ע הגדולים. מצאנו קורלציה בין g מרכיבים לבין d-g האחרים, ומצאנו שהמימדיות האפקטיבית של המידע היא g. בכל - אופן, PCA היא שיטה המוגבלת בשל היותה ליניארית. היא לא מסוגלת לאתר קורלציות לא לינאריות, ובמקרים שקיימות כאלה, שימוש בשיטה יוביל להערכה גבוהה מידי של המימדיות האפקטיבית של המידע.

14 14 דוגמה :

15 15 התאמת המידע לשימוש ב - PCA התכוניות השונות, שהן רכיבים של וקטור המדגם, יכולות להיות שונות מאוד זו מזו בטווח הערכים שהן מקבלות. לדוגמה : נניח כי אנו עוסקים בסיווג לויתנים, ווקטור הדגימה מכיל 2 רכיבים : 1 ) משקל בגרמים של לויתן במדגם ( נע בין 1,000,000 ל - 10,000,000). 2 ) מספר השיניים שלו ( 30 או 32). סביר להניח שאם נקטין את מספר המימדים ל - 1 ע ” י PCA, התכונית המתקבלת תייצג כמעט רק את המשקל, למרות שדווקא למספר השיניים עשויה להיות השפעה גדולה יותר. נהוג לנרמל את המידע ע ” י - כך שמכל תכונית נחסר את הממוצע ונחלק בסטיית התקן.

16 16 חזרה על שיטות לא פרמטריות רוצים לשערך את פונקצית צפיפות ההתפלגות, ללא כל הנחה מוקדמת על הצורה של הפונקציה. שתי שיטות משלימות : Parzen windows, K nearest neighbors. העיקרון הכללי של שתי השיטות : בהינתן מדגם נשערך את הצפיפות על - פי : כאשר הוא מס ’ נק ’ המדגם, הוא מס ’ הנקודות שנופלות בתוך תחום בעל נפח המכיל את

17 17 שלושה תנאים צריכים להתקיים כדי ש - תתכנס ל - כאשר : (1) (2) (3) תנאי (2) צריך להתקיים כמובן רק כאשר התנאים הם הכרחיים ומספיקים !

18 18 Parzen windows לכל ( גודל המדגם ) נגדיר את ( ומכאן גם את ), שילך ויקטן. היא פונקצית חלון, ו - היא למעשה פונקציה של מספר נקודות המדגם שנופלות בתוך חלון שמרכזו

19 19 ניתן גם לבחור פונקציות אחרות. בכל אופן יש לדאוג לכך ש - תקיים את תכונות פונקצית צפיפות. תנאי זה מתקיים אם פונקצית צפיפות, והיחס נשמר. בחירת גודל החלון היא גורם בעל השפעה חשובה על ההתפלגות המשוערכת. חלון גדול מידי יביא לפונקצית צפיפות מוחלקת (biased). נאבד פרטים רלבנטיים של ההתפלגות. חלון קטן מידי יביא לפונקציה עם הרבה “ רעש ”. הפונקציה תקבל ערכים “ מוגזמים ” סביב נק ’ המדגם וזניחים ביתר המקומות.

20 20 K nearest neighbors במקום לקבוע את גודל החלון ולספור כמה נקודות נופלות בתוכו, קובעים את מספר הנקודות, ונגדיל את החלון עד שמספר זה ייכנס. פונקצית הצפיפות המשוערכת תהיה : נותר רק לקבוע את ( פונקציה של ) ואת האופן שבו נרחיב את. זה יכול להיות היפר - קוביה, היפר - מעגל או כל צורה אחרת.


Download ppt "(C) סיון טל 1 גילוי מידע וזיהוי תבניות תרגול מס. 5 Principal Component Analysis חזרה על שיטות שערוך לא פרמטריות."

Similar presentations


Ads by Google