Presentation is loading. Please wait.

Presentation is loading. Please wait.

Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in “Probabilistic Robotics” by Thrun et al. ב"הב"ה.

Similar presentations


Presentation on theme: "Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in “Probabilistic Robotics” by Thrun et al. ב"הב"ה."— Presentation transcript:

1 Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in “Probabilistic Robotics” by Thrun et al. ב"הב"ה

2 מוטיבציה אנו מחפשים תהליכים שבוחרים את הפעולות הנכונות. כאשר המצב נצפה בצורה חלקית ולא מלאה. דוגמא ( המשך מהתרגול הקודם ): רובוט שרודף אחרי מטרה שעלולה להעלם יכול לבחור בין תנועה לעבר המטרה לבין תנועה לכיוון פינה של האוביקט המסתיר ( כדי שהמטרה לא תעלם ). המטרה נעה ללא ידיעה שרודפים אחריה.

3 Value iteration תזכורת : אנו מנסים למקסם את התועלת הצפויה V: עבור אופק תכנון 1: עבור אופק תכנון T:

4 מה נשתנה ? הרעיון בתרגול הקודם היה שאנו רוצים לעבור למצב בעל הערך הגבוה ביותר. אבל במקרה שלנו אנו לא יודעים באיזה מצב הרובוט. אלא אנחנו מעריכים מה המצב : פונקציה זו נקראת אמונה belief.

5 Value iteration בחזרה ל אנו מנסים למקסם את התועלת הצפויה V: עבור אופק תכנון T: בעיה : אוסף ההיפוטזות באינטגרל הוא אינסופי !

6 דוגמא : התועלת במצבים השונים עם תכסיסים שמסימים את המשחק ( שני סיומים אפשריים ): תכסיס שלישי יאמר שאנו לא מסיימים את המשחק :

7 הוא בהסתברות גבוהה מחליף את המצב ובשאר המצבים : התכסיס

8 תצפיות ומדיניות : המדיניות מתאימה לכל ו תכסיס.

9 מה התועלת הצפויה מתכסיס מסוים ? האמונה היא : התועלת הצפויה מתכסיס מסוים היא :

10 איזה תכסיס נבחר ?

11 אסטרטגיות שולטות :

12 כעת נעבור למערכת שמבצעת תצפיות : נניח שזוהתה התצפית. אז ה belief שלנו יהיה : כאשר : ותועלת חדשה :

13 וערך :

14 אם עלינו לתת ערך לפני התצפית ניתן : במקרה שלנו :

15 שלב החיזוי : כעת עלינו לחזות מה יהיו התוצאות של פעולה אפשרית, נעדכן את ה belief: אם היינו יודעים שאנו במצב אז לפי הנתון : ובאופן כללי :

16 חיזוי הערך הערך הצפוי מפעולה מתקבל מהצבת ה belief החדש בנוסחא : במקרה שלנו :

17 אופק תכנון 2: אפשר לעשות אחת משתי פעולות הסיום ( שמפיקות תשלום ) או את פעולת המעבר בין מצבים שלה יש הפסד בטוח 1-:

18 האסטרטגיות :

19 מה יקרה אם גם המטרה מנסה להתחמק ? כדאי לעבור לתורת המשחקים !

20 קצת תורת המשחקים : משחק בצורה אסטרטגית : דוגמא " דילמת האסיר ": שיווי משקל נאש : צמד אסטרטגיות ( אחת לכל שחקן ) שבהינתן שאחד השחקנים לא משנה אסטרטגיה גם לשני לא כדאי לשנות את האסטרטגיה שבחר. אסטרטגיות מעורבות : השחקנים יכולים לבחור הסתברויות לכל מהלך. שחקן 2 מודהשחקן 2 לא מודה שחקן 1 מודה שחקן 1 לא מודה תועלת לשחקן 2 תועלת לשחקן 1

21 קצת תורת המשחקים : משחק בצורה רחבה : דוגמא פשוטה וסופית : שני שחקנים, לכל שחקן בתורו יש אפשרות לאחד משני תכסיסים אז אפשר לייצג את המשחק ע " י עץ בינארי. כאשר כל זוגיות עומק בעץ תקבע תור מי לקחת החלטה.

22 משחק חוזר הוא משחק שחוזר על עצמו פעמים רבות ומאפשר למידה והתאמה לתוצאות. אפשר להסתכל על משחק כעל תהליך בזמן שתלוי במצבים בהם השחקנים נמצאים. אם נניח שהפרשי הזמן קטנים אפשר להגדיר נגזרות של המשחק. במקרה שלנו הגיוני להגדיר משחק גזיר בצורה רחבה ולנתח אותו הסתכלו ב : http://www.cs.ubc.ca/~emtiyaz/Writings/EMTgame.pdf

23 reference Wikipedia http://www.cs.brown.edu/research/ai/pomdp /tutorial/


Download ppt "Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in “Probabilistic Robotics” by Thrun et al. ב"הב"ה."

Similar presentations


Ads by Google