הכללה ואבחנה – הסקת מודלים של העולם

Slides:



Advertisements
Similar presentations
J. Daunizeau Institute of Empirical Research in Economics, Zurich, Switzerland Brain and Spine Institute, Paris, France Bayesian inference.
Advertisements

Bayesian inference Jean Daunizeau Wellcome Trust Centre for Neuroimaging 16 / 05 / 2008.
Parsimony Genome 559: Introduction to Statistical and Computational Genomics Elhanan Borenstein.
ETHEM ALPAYDIN © The MIT Press, Lecture Slides for 1 Lecture Notes for E Alpaydın 2010.
Deep Learning Bing-Chen Tsai 1/21.
Neural Network Models in Vision Peter Andras
Bayesian models for fMRI data
Pattern Recognition and Machine Learning
PSY 402 Theories of Learning Chapter 4 – Theories of Conditioning.
Chapter 15 Probabilistic Reasoning over Time. Chapter 15, Sections 1-5 Outline Time and uncertainty Inference: ltering, prediction, smoothing Hidden Markov.
Machine Learning: Connectionist McCulloch-Pitts Neuron Perceptrons Multilayer Networks Support Vector Machines Feedback Networks Hopfield Networks.
1 Graphical Models in Data Assimilation Problems Alexander Ihler UC Irvine Collaborators: Sergey Kirshner Andrew Robertson Padhraic Smyth.
An Introduction to Bayesian Inference Michael Betancourt April 8,
Computational Learning Theory PAC IID VC Dimension SVM Kunstmatige Intelligentie / RuG KI2 - 5 Marius Bulacu & prof. dr. Lambert Schomaker.
PSY 402 Theories of Learning Chapter 7 – Behavior & Its Consequences Instrumental & Operant Learning.
J. Daunizeau Wellcome Trust Centre for Neuroimaging, London, UK Institute of Empirical Research in Economics, Zurich, Switzerland Bayesian inference.
PSY 402 Theories of Learning Chapter 4 – Theories of Conditioning.
ECAgents: project funded by the Future and Emerging Technologies program (IST-FET) of the European Community under EU R&D contract IST1940. Bayesian model.
© 2013 by McGraw-Hill Education. This is proprietary material solely for authorized instructor use. Not authorized for sale or distribution in any manner.
© 2013 by McGraw-Hill Education. This is proprietary material solely for authorized instructor use. Not authorized for sale or distribution in any manner.
Midterm Review Rao Vemuri 16 Oct Posing a Machine Learning Problem Experience Table – Each row is an instance – Each column is an attribute/feature.
ECE 8443 – Pattern Recognition LECTURE 03: GAUSSIAN CLASSIFIERS Objectives: Normal Distributions Whitening Transformations Linear Discriminants Resources.
Probabilistic graphical models. Graphical models are a marriage between probability theory and graph theory (Michael Jordan, 1998) A compact representation.
PhD Committee J. Vanthienen (promotor, K.U.Leuven) J. Vandenbulcke
Copyright McGraw-Hill, Inc Chapter 5 Learning.
Theory and Research Neuman and Robson Ch. 2. What is Theory? “a statement of relationships between concepts” “a roadmap for organizing ideas and knowledge.
1 Computing Trust in Social Networks Huy Nguyen Lab seminar April 15, 2011.
CHAPTER 8 DISCRIMINATIVE CLASSIFIERS HIDDEN MARKOV MODELS.
1 Chapter 15 Probabilistic Reasoning over Time. 2 Outline Time and UncertaintyTime and Uncertainty Inference: Filtering, Prediction, SmoothingInference:
The Uniform Prior and the Laplace Correction Supplemental Material not on exam.
C. Kiesling, MPI for Physics, Munich - ACAT03 Workshop, KEK, Japan, Dec Jens Zimmermann, Christian Kiesling Max-Planck-Institut für Physik, München.
Occam's razor: states that the explanation of any phenomenon should make as few assumptions as possible, eliminating those that make no difference to any.
SUPERVISED AND UNSUPERVISED LEARNING Presentation by Ege Saygıner CENG 784.
A Method to Approximate the Bayesian Posterior Distribution in Singular Learning Machines Kenji Nagata, Sumio Watanabe Tokyo Institute of Technology.
©2010 Cengage Learning SLIDES FOR CHAPTER 8 COMBINATIONAL CIRCUIT DESIGN AND SIMULATION USING GATES Click the mouse to move to the next page. Use the ESC.
A Genetic Algorithm Analysis of N* Resonances Outline:- Analysis of N* contribution to  p → K +  How does using a Genetic Algorithm help? How much can.
J. Daunizeau ICM, Paris, France TNU, Zurich, Switzerland
CEE 6410 Water Resources Systems Analysis
Deep Feedforward Networks
Learning Chapter 9.
Chapter 5 Learning © 2013 by McGraw-Hill Education. This is proprietary material solely for authorized instructor use. Not authorized for sale or distribution.
Energy models and Deep Belief Networks
Discrimination learning: Introduction
Backpropagation in fully recurrent and continuous networks
Special Topics In Scientific Computing
קשב ולמידה – Attention and associability
neuromodulators; midbrain; sub-cortical;
تصنيف التفاعلات الكيميائية
Dynamic Causal Modelling (DCM): Theory
התניה אופרנטית II: מטרות והרגלים
Dynamic Causal Model for evoked responses in M/EEG Rosalyn Moran.
Generalized Belief Propagation
with Daniel L. Silver, Ph.D. Christian Frey, BBA April 11-12, 2017
The General Triangle C B A.
network of simple neuron-like computing elements
مدلسازي تجربي – تخمين پارامتر
Running example The 4-houses puzzle:
Pattern Recognition and Machine Learning
SPM2: Modelling and Inference
Chapter14-cont..
The General Triangle C B A.
Bayesian inference J. Daunizeau
Machine Learning: Lecture 6
Bayesian Inference in SPM2
Machine Learning: UNIT-3 CHAPTER-1
PSY 402 Theories of Learning Chapter 7 – Behavior & Its Consequences
Classical Conditioning Everyday
Neural Network Models in Vision
Bayesian Model Selection and Averaging
Instructor: Vincent Conitzer
Presentation transcript:

הכללה ואבחנה – הסקת מודלים של העולם מבוא ללמידה והתנהגות: התניה ומח שעור 10

נושאים הכללה ואבחנה – מה חיות יכולות ללמוד? תאוריות ותמיכה נסיונית: תאוריות של אלמנטים – הרחבה של R-W תאוריות קונפיגורליות – Pearce השאלות המרכזיות  חיפוש עקרון מנחה Occam’s razor והסקה לגבי מודל של latent causes: איך ניתן להסיק מתי להכליל ומתי להבחין? סיכום הקורס: מה היה לנו עד כה

חזרה לבעית ה-XOR חיות יכולות ללמוד בעיות לא לינאריות כמו למשל בעית XOR (negative patterning): A+ B+ ABo חוק הלמידה של R-W לא יכול (לינארי) פתרון פשוט: הוספת יחידות (elements) נוספות לצירופים השונים בעת הצגת AB: Vtotal = VA + VB + VAB למידה נפרדת עבור כל יחידה לאחר למידת האבחנה ליחידה AB יהיה ערך שלילי השווה ל-2R

תופעה בסיסית נוספת: עקומת הכללה באימון עם גירוי A, מבחן עם גירוי שונה ממנו במקצת יראה פחות CR: Generalization decrement מידת ההפחתה קשורה במידת הדמיון בין הגירוי החדש והגירוי המקורי אותו פתרון ב-RW: בעצם כל גירוי הוא גירוי המורכב מהרבה תתי-אלמנטים העוברים כל אחד התניה בנפרד. גירוי שונה במעט מכיל חלק מאותם אלמנטים אך לא את כולם  הפחתה של התגובה (=הערך המנובא) אבל: A+ ואח"כ מבחן עם AB גם גורר הפחתת הכללה...

בעיות נוספות עם elemental theories ניבוי: אבחנה יותר טובה כאשר ההבדלים בין הגירויים קטנים! נשווה למידה של A+;ABo ל- AC+; ACBo בצעד הראשון AC+, למידה על A ועל C בצעד השני ACBo – ניבוי כבר יותר גדול  טעות ניבוי גדולה יותר ויותר למידה של ערך שלילי ל-B באותה מידה: למידה של A+;ABCo איטית יותר מ-AB+;ABCo AC+ ACBo

נסיון נוסף לפתרון: תחרות על משאבי למידה נניח שיש פחות למידה על גירוי ככל שיש יותר גירויים: פותר את הבעיות הנ"ל אבל: אימון של A+/B+/C+ או AB+/BC+/CA+ במבחן עם ABC – איזו קבוצה תגיב יותר? מה R-W מנבא? בעצם: נראה שהעקרון המנחה הוא שלמידה של אבחנה בין גירויים תלויה בדמיון (similarity) ביניהם

Pearce – Configural theory גירוי שמוצג יכול לגרור הפעלה של מספר יחידות אבל: רק זו המייצגת בדיוק את הקונפיגורציה של הגירוי הנכחי לומדת בצעד הנכחי חוק עדכון error correcting הניבוי של V – בכל זאת ע"י כל היחידות כמו R-W רק מעדכן אסוסיאציה אחת חשוב: אקטיבציה של היחידות עפ"י דמיון S (כלומר – ה-CR נקבע ע"י מספר יחידות) ועוד כמה תוספות פחות אלגנטיות – כל גירוי הוא בעצם גירוי מורכב (בשביל הפחתת הכללה), גירוי עם עוצמה חזקה יותר מפעיל יותר יחידות (בשביל הצללה) וכו'.

Configural theory – תוצאות מסביר חסימה, הצללה, negative patterning וכו' מנבא הכללה סימטרית מ-AB ל-A כמו מ-A ל-AB ניבויים כמותיים ספציפיים: A+; ABo  ליחידה של A יש ערך גדול מ-R וליחידה של AB ערך שלילי. כך גם B לבד הוא אינהיביטורי (כי הצגתו מפעילה את AB). עתה אם יאמנו B+  מה הניבוי? מה הניבוי של R-W? מסביר את התוצאות שתאוריות elemental לא הסבירו אבל: לא מסביר summation (שלפעמים קורה). הסבר באמצעות context בעית 'קביעות' של קונפיגורציה – בכל נקודת זמן הגירוי יכול להראות שונה... התפוצצות קומבינטורית

הכללה – חוסר סימטריה אימון: A+ BC+ ABCo Rescorla/Wagner model Results (Redhead & Pearce 94) Pearce model

סכימה אימון: מבחן: Rescorla/Wagner model AB+ CD+ AC, BD (העברה/הכללה) A, B, C, D (אלמנטים) Results (Rescorla 03) Pearce model

Elemental vs. configural theories כל האלמנטים הפעילים נכנסים לאסוסיאציות עם ה-US דגש על מקרים בהם רואים סכימה של השפעות של גירויים נפרדים Configural – דגש על דמיון בין גירויים כמשפיע על קושי האבחנה ביניהם בכל צעד בניסוי נוצרת/מתעדכנת רק אסוסיאציה אחת בשתיהן: תפקיד מיוחד לחיזוק (לא מתפקד כגירוי רגיל) ניסויי מפתח עם פרדיקציות שונות (למשל לימוד של (A+,B+,C+,AB+,AC+,BC+,ABCo – כל מעבדה מקבלת תוצאות שמתאימות למודל שלה...

שאלות חשובות באילו מצבים נייצר יחידה קונפיגורלית נוספת (ומתי רק נסכום)? כאשר מוצג גירוי מסוים – כיצד תתבצע ההכללה לקונפיגורציות אחרות? איך לחלק את הלמידה בין היחידות השונות? תאוריות elemental ו-configural מציעות תשובות שונות אך... לא ברור (משיקולים תאורטים) את מי להעדיף וגם – אין תמיכה ניסויית חד משמעית באף אחת... ואף יש ניסויים שסותרים את שתיהן!

לאן הולכים מכאן? – Courville + Daw 2005 נדמה שכל מודל טוב בסיטואציות אחרות. מה העקרון שינחה אותנו? "Pluralitas non est ponenda sine necessitate” Plurality should not be posited without necessity – William of Occam (1349) לפי התער של אוקהם – יש לבחור את המודל הפשוט ביותר המסביר את התצפיות מימוש חישובי: הסקה בייסיאנית (תער אוקהם אוטומטי)

מודלים מחוללים (generative) של העולם R-W – מודל מחולל לינארי (כך גם ב-TD) חוק הלמידה: מציאת ה-w עם הנראות הגבוהה ביותר (maximum likelihood), מסבירים את התצפיות טוב ביותר Kalman filter – מתיחס ל-w כמשתנים חבויים (latent variables) דינמיים ומנסה להסיק אותם בצורה בייסיאנית הוספת יחידות קונפיגורליות בכדי לפתור בעיות לא לינאריות אבל: אילו יחידות להוסיף ומתי? סכימה מול אבחנה A B R אור, צליל וכו' מזון, שוק וכו' wA wB A B R wA wB AB wAB

מודל 'משתנים חבויים' A B R x1 x2 A B R החיה נחשפת לצעדים המוגרלים (זהים ב"ת) מאיזשהו מודל של העולם. המטרה: להסיק את המודל מהתצפיות sigmoid belief network (כל המשתנים בינריים) ממדלת יחד את הגירויים והחיזוקים x – גורמים חבויים – ממדלים קורלציות בין קבוצות ארועים בעולם לומדים לא רק משקולות אלא את מבנה המודל עצמו (כמה גורמים חבויים, בין מי למי החיצים) Courville, Daw, & Touretzky 2003, 2004

הסקת מבנה המודל באילו "יחידות קונפיגורליות" להשתמש לתאור העולם? vs vs A B R vs A B R vs A B R etc

Learning & prediction A B R למידה: P(w,M|data) ע"י חוק בייס (קביעת משקולות נראות לכל מודל w,M) ניבוי: המטרה – לדעת מתי יגיע חיזוק R (עפ"י כל המידע עד עכשיו, והגירויים בצעד הנכחי) P(R|stim,data)- ע"י מיצוע (marginalization) מעבר לכל המודלים האפשריים (ממושקל עפ"י סבירותם) והמשקולות מתיחס גם לשילובים של גורמים חבויים (explaining away) בסופו של דבר, דומה ל-Pearce כי גורם נחשב סביר אם תוצאותיו דומות למה שמוצג בצעד הנכחי Prior: prefers simple models (less weights – Laplace prior; smaller belief net (few units and connections, Geometric distribution).

פשטות מול דייקנות התפלגות א-פריורית מעדיפה מודלים פשוטים (מעט יחידות, מעט קשרים, משקולות קטנות) ככל שמתווסף מידע מהעולם ה-prior מאבד מחשיבותו ועוברים למודלים מסובכים (אך מדוייקים) יותר זהו סימן ההיכר של הסבר בייסיאני: tradeoff בין סיבוכיות המודל לנאמנותו לנתונים

סכימה אימון: מבחן: MAP model structure: AB+ CD+ AB, CD (הזוגות שאומנו) AC, BD (העברה/הכללה) A, B, C, D (אלמנטים) Bayesian model Results (Rescorla 03)

אי-סימטריה בהכללה MAP model structure: Results (Redhead & Pearce 94) Bayesian model Explains why similar stimuli are harder to discriminate: in order to discriminate there needs to be an inference of separate latent causes. more common elements → more accuracy for a model with one latent cause → baises complexity/fidelity tradeoff towards simplicity and delays acquisition.

התניה מסדר שני מול התניה אינהיביטורית פרוצדורות מאוד דומות: התניה מסדר שני: A+, שלב ב' – ABo התניה אינהיביטורית: A+, ABo אורך האימון משפיע על דפוס התוצאות Yin et al. 1994 – צעדים משולבים של A+, ABo מעט צעדים: B אקסיטטורי (מנבא חיזוק)  התניה מסדר שני הרבה צעדים: B אינהיביטורי (מנבא העדר חיזוק צפוי)

אז מה היה לנו? שלושה נדבכים בקורס: התנהגות מודלים חישוביים מח נסיון לקשור את כל הרמות  השפיע על הדגש, על בחירת הנושאים חזרה לרמת העל – איפה היער?

התנהגות: התניה הבעיה: איך בע"ח לומדים ניבוי (prediction) ושליטה (control)? השיטה: התנהגות מורכבת – ריבוי מנגנונים ואינטראקציות  תכנון ניסויים שיביאו לידי ביטוי אחד ויורידו למינימום השפעתם של אחרים. זהירות: דיכוטומיות שני סוגי התניה: 1. התניה קלאסית (ניבוי) 2. התניה אופרנטית (שליטה) דברים שהיו חשובים: - מה נלמד? (תכולת אינפורמציה – ערך, סוג חיזוק וכו') - באילו תנאים מתקיימת הלמידה? (סמיכות, הפתעה וכו') מושגים: ייצוג, אסוסיאציה, סמיכות, מפה קוגניטיבית Whatever is good to know is hard to learn – Greek proverb

מודלים חישוביים הבעיה: ניבוי והתנהגות אופטימלים, הסבר לתופעות התנהגותיות השיטה: מודלים תאוריים (R-W), מודלים נורמטיבים (RL, בייסיאנים) דברים שהיו חשובים: - מהם המגבלות (constraints) שההתנהגות מציבה? מהם האספקטים ההתנהגותיים/חישוביים שהמודל תופס ומאילו הוא מתעלם? איך המודלים מעצבים את המחקר הניסויי ? מושגים: value, forward model, cache, generative model למה value? – common currency בכדי להשוות תפוחים לתפוזים ולבחור דרך התנהגות אחת מודל קדימה – מודל של העולם Cache – קיצור דרך לחישוב ללא מודל של העולם Generative model – הסקה של latent causes ע"י חוק בייס All models are wrong, some models are useful – G. Box

מנגנונים מוחיים הבעיה: כיצד המח מממש למידה, ניבוי ושליטה (action selection)? השיטה: רישומים בחיה מתנהגת, הדמיות (fMRI, EEG, PET), פגיעות (lesions), פרמקולוגיה דברים שהיו חשובים: - הכללות: תפקיד כללי של אזור/נוירומודולטור - הבחנות: דיסוסיאציות בין תפקידים/אזורים/נוירומודולטורים מושגים: דופמין, Ach, גרעינים בזליים, אמיגדלה, קורטקס פרונטלי, היפוקמפוס, (סינפסות, רצפטורים) In theory, there is no difference between theory and practice, but not in practice. - Anonymous

מבט מגבוה התניה קלאסית א' – מתי מתרחשת למידה? 3 ניסויי מפתח  חוק R-W ולמידה בעזרת דופמין התניה קלאסית ב' – אקסיטטורי/אינהיביטורי אפטטיבי/אברסיבי (Konorski, fMRI של התניה אברסיבית, Kalman filter) התניה אופרנטית א' – Thorndike, Skinner, מודל Actor-Critic מוטיבציה ו-free operant – energizing vs directing, דופמין טוני התניה אופרנטית ב' – S-R מול R-O, devaluation – הרגלים והתנהגות מונחית מטרה, חישוב ע"י עץ או ע"י cache, שתי מע' במח קלאסית ואינסטרומנטלית – מגנון אחד או שניים? השמטה, PIT הכחדה – תאוריות שונות, אין מודלים למידה חבויה וסכיזופרניה – LI כמודל פרמקולוגי לשני קטבי ההפרעה קשב ואסוציאביליות – הפרדה בין ניבוי ללמידה (KF), אמיגדלה, Ach הכללה ואבחנה – למידה/הסקה של מודל של העולם

תודה רבה לכם!