Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה.

Slides:



Advertisements
Similar presentations
תוכנה 1 סמסטר א ' תשע " ב תרגול מס ' 7 * מנשקים, דיאגרמות וביטים * לא בהכרח בסדר הזה.
Advertisements

מבוא למדעי המחשב לתעשייה וניהול
1 Formal Specifications for Complex Systems (236368) Tutorial #4 Refinement in Z: data refinement; operations refinement; their combinations.
תרגילי חזרה. General Things to Remember Be careful to identify if we’re talking about gains or costs (because the search cost is always negative) Check.
פונקציונל פונקציה מספר פונקציונל דוגמאות לא פונקציונל פונקציונל.
שיעור 6# Bayesian networks
Presentation by Dudu Yanay and Elior Malul 1.  מה משותף לכל אלגוריתם המשתמש ב -Bucket Elimination: ◦ נתון מודל הסתברותי ורשת ביסיאנית מתאימה. ◦ נתונה.
מתמטיקה בדידה תרגול 3.
רקורסיות נושאי השיעור פתרון משוואות רקורסיביות שיטת ההצבה
Inverse kinematics (Craig ch.4) ב"ה. Pieper’s solution נתבונן ברובוט עם 6 מפרקי סיבוב כאשר שלושת הצירים של המפרקים האחרונים נחתכים. נקודת החיתוך נתונה.
חורף - תשס " ג DBMS, Design1 שימור תלויות אינטואיציה : כל תלות פונקציונלית שהתקיימה בסכמה המקורית מתקיימת גם בסכמה המפורקת. מטרה : כאשר מעדכנים.
תכנות תרגול 6 שבוע : חישוב e זוהי הנוסחא לחישוב e נראה כיצד לתרגם אותה לפונקציה n n.
עבודה סמינריונית Prelude to Ukkonen algorithm ON-LINE CONSTRUCTION OF SUFFIX TREES מגישים : עיד מוחמד טיבי פיראס.
מבוא להנדסת חשמל מעגל מסדר שני.
1 Formal Specifications for Complex Systems (236368) Tutorial #5 Refinement in Z: data refinement; operations refinement; their combinations.
בהסתברות לפחות למצא בעיה במודל PAC עבור בהסתברות ε הפונקציה f טועה מודל ONLINE 1. אחרי כל טעות הפונקציה משתפרת 2. מספר הטעיות קטן.
מסדי נתונים תשס " ג 1 תכנון סכמות – אלגוריתם פירוק לתבניות בצורת BCNF מסדי נתונים.
שאילת שאלות שאלת חקר המפתח למנעול 1. שאילת שאלות – שאלת חקר מה ניתן לשנות ? :  בתנאים : טמפ ' או לחץ או הכלים, או הציוד  בחומרים : איכות או כמות או.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
1 חלק XQuery :IV XML Query. 2 ביבליוגרפיה - DTD 3 ביבליוגרפיה – books.xml TCP/IP Illustrated Stevens W. Addison-Wesley Advanced Programming in.
תכנות תרגול 6 שבוע : תרגיל שורש של מספר מחושב לפי הסדרה הבאה : root 0 = 1 root n = root n-1 + a / root n-1 2 כאשר האיבר ה n של הסדרה הוא קירוב.
Tangent Bug יישום תומר באום Based on ch. 2 in “Principles of robot motion” By Choset et al. ב"הב"ה.
מבני בקרה מבוא לתכנות למנע " ס - שבוע מספר 3 - מאיר קומר - סמסטר ב ' - תשס " ו הסתעפות “ אם השמאל ואימנה ואם הימין ואשמאילה ”
Partially Observable Markov Decision Processes (POMDP) תומר באום Based on ch. 15 in “Probabilistic Robotics” by Thrun et al. ב"הב"ה.
תכנות תרגול 6 שבוע : הגדרת פונקציות return-value-type function-name(parameter1, parameter2, …) הגדרת סוג הערכים שהפונקציה מחזירה שם הפונקציהרשימת.
תחשיב הפסוקים חלק ג'. צורות נורמליות א. DF – Disjunctive Form – סכום של מכפלות. דוגמא: (P  ~Q  R)  (R  P)  (R  ~Q  ~P) הגדרה: נוסחה השקולה לנוסחה.
מודל ONLINE לומדמורה 1. כל ניתן לחישוב בזמן פולינומיאלי 2. אחרי מספר פולינומיאלי של טעיות ( ) הלומד לא טועה ז"א שווה ל- Littlestone 1988.
א " ב, מילים, ושפות הפקולטה למדעי המחשב אוטומטים ושפות פורמליות ( ) תרגיל מספר 1.
Motion planning via potential fields תומר באום Based on ch. 4 in “Principles of robot motion” By Choset et al. ב"הב"ה.
ערכים עצמיים בשיטות נומריות. משוואה אופינית X מציין וקטור עצמי מציינת ערך עצמי תואם לוקטור.
מבני בקרה לולאות. שאלה #1 שאלה ב' – תכתוב תוכנה הכותבת את תפריט הבאה Type 1 to find the area of a circle Type 2 to find the circumference of a circle.
1 תרגול : קודי קו בינאריים בסיסיים. 2 יצירת קוד קו יצירת הלמים לפי קוד קו מסנן בעל תגובה להלם h(t) ביטי כניסה X(t)Y(t) a1 a2 a3 a4 t Ts.
Kalman Filter תומר באום Based on ch. 8 in “Principles of robot motion” By Choset et al. ב"הב"ה.
CS Introduction to AI Tutorial 6 AB Questions Tutorial 6 AB Questions.
טיב פני שטח (טפ"ש) טיב פני שטח- רמת החלקות של המשטח.
אביב תשס " ה JCT תיכון תוכנה ד " ר ר ' גלנט / י ' לויאןכל הזכויות שמורות 1 פרק 11 Statecharts תכונות מתקדמות.
Data Structures, CS, TAU, Perfect Hashing 1 Perfect Hashing בעיה : נתונה קבוצה S של n מפתחות מתחום U השוואה ל - Hash : * טבלה קבועה (Hash רגיל - דינאמי.
אלכסנדר ברנגולץ דואר אלקטרוני: אלכסנדר ברנגולץ דואר אלקטרוני: פעולות מורפולוגיות.
1 Data Structures, CS, TAU, Perfect Hashing בעיה: נתונה קבוצה S של n מפתחות מתחום U השוואה ל- Hash : * טבלה קבועה (Hash רגיל - דינאמי) * רוצים זמן קבוע.
משטר דינמי – © Dima Elenbogen :14. הגדרת cd ו -pd cd - הזמן שעובר בין הרגע שראשון אותות הכניסה יוצא מתחום לוגי עד אשר אות המוצא יוצא מתחום.
מערכים עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר עד היום כדי לייצג 20 סטודנטים נאלצנו להגדיר int grade1, grade2, …, grade20; int grade1, grade2, …, grade20;
פתרון על ידי בעיות חיפוש בינה מלאכותית יעל נצר. סוכנים פותרי בעיות Reflex agents לא יכולים לתכנן קדימה Reflex agents עם מצב פנימי ( מודל עולם ) – קשה.
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א מודל הלמידה מדוגמאות Learning.
עקרון ההכלה וההדחה.
1 Formal Specifications for Complex Systems (236368) Tirgul Hazara.
מודל הלמידה מדוגמאות Learning from Examples קלט: אוסף של דוגמאות פלט: קונסיסטנטי עם פונקציה f ב- C ז"א קונסיסטנטי עם S ז"א.
Particle Filter תומר באום ב"ה. מוטיבציה אנו רוצים להעריך מצב של מערכת (מיקום,מהירות טמפרטורה וכו') בעזרת מדידות שנעשות בזמנים שונים. ( כמו טווח לנקודות.
1 מבוא למדעי המחשב סיבוכיות. 2 סיבוכיות - מוטיבציה סידרת פיבונאצ'י: long fibonacci (int n) { if (n == 1 || n == 2) return 1; else return (fibonacci(n-1)
Safari On-line books. מה זה ספארי ספארי זו ספריה וירטואלית בנושא מחשבים היא כוללת יותר מ כותרים כל הספרים הם בטקסט מלא ניתן לחפש ספר בנושא מסוים.
Points on a perimeter (Convex Hull) קורס – מבוא לעבוד מקבילי מבצעים – אריאל פנדלר יאיר ברעם.
1 מבוא למדעי המחשב backtracking. 2 מוטיבציה בעיית n המלכות: נתון: לוח שחמט בגודל. המטרה: לסדר על הלוח n מלכות כך שאף אחת לא תאיים על השנייה. דוגמא: עבור.
בקרה תומר באום ב"הב"ה. סוגי בקרה חוג פתוח Open-loop control : אנו מכוונים את הרובוט למצב הבא שהוא אמור להיות בו לפי מודל מסוים, כמו שעשינו בקינמטיקה הפוכה.
- אמיר רובינשטיין מיונים - Sorting משפט : חסם תחתון על מיון ( המבוסס על השוואות בלבד ) של n מפתחות הינו Ω(nlogn) במקרה הגרוע ובממוצע. ניתן לפעמים.
1 מבוא למדעי המחשב רקורסיה. 2 רקורסיה היא שיטה לפתרון בעיות המבוססת על העיקרון העומד ביסוד אינדוקציה מתמטית: אם ידועה הדרך לפתור בעיה עבור המקרים הבסיסיים.
Extensive Form Game. “Burn the Boats” לעיתים אנחנו שומעים את הביטוי “let’s burn the boats”. מה הכוונה ? –לוותר על אלטרנטיבה B –ובכך לא להותיר ברירה ולנסות.
Presentation by Gil Perry Supervised by Amos Fiat 1.
פיתוח מערכות מידע Class diagrams Aggregation, Composition and Generalization.
Present Progressive הווה ממושך משפטי שלילה. Present Progressive Present Progressiveיכול לתאר לנו שני מצבים : 1.פעולות שמתרחשות כרגע. 2.פעולה מתוכננת בעתיד.
1 חלק XQuery :IV XML Query. 2 ביבליוגרפיה - DTD 3 ביבליוגרפיה – books.xml TCP/IP Illustrated Stevens W. Addison-Wesley Advanced Programming in.
קשר לוגי : סיבה ותוצאה. במשפט – דוגמות קלות בגלל הגשם החלטנו לא לנסוע לטיול לחיפה. הרצון שלי להצליח הניע אותי להשקיע בלימודים. ציפורים נודדות בין יבשות.
אביב תשס " ה JCT תיכון תוכנה ד " ר ר ' גלנט / י ' לויאןכל הזכויות שמורות 1 פרק 5 תרשימי מצבים Statecharts למחלקות תגובתיות Reactive Classes הקדמה ודוגמא.
מספרים אקראיים ניתן לייצר מספרים אקראיים ע"י הפונקציה int rand(void);
מבוא למדעי המחשב סיבוכיות.
חיפוש לוקלי Local Search.
ממשקים - interfaces איך לאפשר "הורשה מרובה".
Marina Kogan Sadetsky –
הנעה חשמלית.
בחירת חומר גלם כתב: עמרי שרון.
A* and AO* Search Algorithm
Presentation transcript:

Markov Decision Processes (MDP) תומר באום Based on ch. 14 in “Probabilistic Robotics” By Thrun et al. ב"הב"ה

מוטיבציה עד עתה עסקנו באלגוריתמים לביצוע פעולות מסוימות. כעת עלינו לעסוק בתהליכים שבוחרים את הפעולות הנכונות. דוגמא : רובוט שרודף אחרי מטרה שעלולה להעלם יכול לבחור בין תנועה לעבר המטרה לבין תנועה לכיוון פינה של האוביקט המסתיר ( כדי שהמטרה לא תעלם ). המטרה נעה ללא ידיעה שרודפים אחריה.

תועלת מיידית : אנו מעוניינים לנתח כל דרך פעולה אפשרית מבחינת עלות - תועלת ולבחור את הדרך שתיתן לנו מצד אחד מקסימום תועלת ומצד שני מינימום עלות ( או זמן רדיפה ). זה מסובך. לכן ניסתכל על ערך אחד בלבד שייצג את היחס הזה ונקרא לו תועלת, למשל : אם המטרה נתפסה אחרת

התועלת המיידית היא ערך שיקבל השחקן אם יבחר כשהוא במצב כאשר : נתון ע " י המטריצה : הסתברות לעבור מהמצב למצב

מדיניות Policy מדיניות היא פונקציה שמתאימה אסטרטגיה בכל זמן לפי התצפית ואסטרטגיות הקודמות : כאשר : נתון ע " י המטריצה ההסתברות לעבור מהמצב למצב לפי האסטרטגיה אלו התצפיות

תועלת צפויה באופק תכנון T: תועלת צפויה בתהליך תוך T צעדים ( אופק תכנון T). אם אנו רוצים לעדכן את הבקרה שלנו ואנו יודעים מה הסתברות התוצאות האפשריות, ניתן למקסם את : כאשר הוא פקטור שמוריד משקל למאורעות רחוקים בזמן.

Value iteration בניית מדיניות ע " י אנו מנסים למקסם את התועלת הצפויה V: עבור אופק תכנון 1: עבור אופק תכנון T:

פונ ' הערך עם אופק 2 עם אופק 7

Additional reference Wikipedia All images are taken from Wikipedia