Presentation is loading. Please wait.

Presentation is loading. Please wait.

01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק הוקי - אויר : מגישים עירן חוף אמיר ווינשטוק : מנחה.

Similar presentations


Presentation on theme: "01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק הוקי - אויר : מגישים עירן חוף אמיר ווינשטוק : מנחה."— Presentation transcript:

1 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק הוקי - אויר : מגישים עירן חוף אמיר ווינשטוק : מנחה שי מנור הטכניון - מכון טכנולוגי לישראל TECHNION - ISRAEL INSTITUTE OF TECHNOLOGY הפקולטה להנדסת חשמל המעבדה לקרה ורובוטיקה

2 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 2 מטרת הפרויקט תכנון ובניית בקר לומד למשחק הוקי אוויר בעיות עיקריות : מרחב המצבים של המשחק רציף זמן הלימוד ארוך מאוד בחירת הפרמטרים של האלגוריתם אופטימיזציה של המימוש להאצת זמן הריצה (ANN)

3 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 3 רקע : Reinforcement Learning Q-Learning Algorithm Instance-Base function approximate

4 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 4 תאור Instance-Base

5 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 5 1.Start from any Q-factor function Q(s,a) 2.Repeat until policy is optimum (enough): (a) After taking action a in state s, receiving reward r(s,a) and getting to state s, update Q-factor function: (b) Chose action a’ = argmax Q(s’,.) or explore. טבלאי Q-Learning אלגוריתם 1. After taking action a in state s, receiving reward r(s,a) and getting to state s’: (i)Cq = (s,a,Q) (ii)Find NN q set (iii) (iv) (v)Update: (vi)If min( { d(Cq,Ci) | Ci  NN q } ) >  D add Cq to database (vii)a’ = argmax a' Q(s',a') (viii)Take best action a’ in s’ or explore (ix)Repeat (1) until policy is optimum (enough) אלגוריתם Instance-Base Q-Learning

6 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 6 במהלך הפרויקט מימשנו : 1. בקר בסיסי מבוסס על אלגוריתם Q-Learning עם מימוש טבלאי עבור מודל פשטני 2. בקר השולט על התאוצות השחקן בשני צירים, מבוסס על אלגוריתם Q ואלגוריתם Instace-Based 3. אלגוריתם חמדן לשיפור הפרמטרים הדרושים באלגוריתם Instace-Based 4. אפליקציה מבוססת MFC להצגת המשחק

7 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 7 תוצאות : דוגמאות נבחרות מתוך הדו ” ח עבור הנושאים הבאים : Q-Learning טבלאי עבור מודל מפושט Q-Learning עם קירוב Instance-Base אלגוריתם חמדן

8 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 8 Q-Learning טבלאי מספר השערים כפונקציה של מספר האיטרציות עבור ערכי קצבי עדכון שונים :

9 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 9 Q-Learning עם קירוב Instance-Based שחקן יחיד ( לומד ) מותקף אופקית מאותו מקום באותה מהירות מספר ה cases לאחר 200000 איטרציות כפונקציה של ערך הסף (  D )

10 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 10 Q-Learning עם קירוב Instance-Based שחקן יחיד ( לומד ) מותקף אופקית מאותו מקום באותה מהירות מספר הגולים המצטבר כפונקציה של האיטרציות של המודל הפיסיקלי עבור מספר ערכי  D

11 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 11 Q-Learning עם קירוב Instanced-Base שחקן יחיד ( לומד ) מותקף אופקית מאותו מקום באותה מהירות תלות בפרמטרים : D  ערך סף להוספת מקרה חדש K  ערך סף למציאת שכנים קרובים גודל צעד יחס חקר (exploration) מטריקה תלות בתגמול

12 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 12 Q-Learning עם קירוב Instance-Based שחקן יחיד ( לומד ) מותקף אופקית באותה מהירות ממקום אקראי כמה דוגמאות לתלות במטריקה : משקול אחיד

13 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 13 משקול יחסי

14 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 14 דוגמא למשחק מול שחקן יוריסטי :

15 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 15 אופטימיזציה לפרמטרים ע ” י אלגוריתם חמדן :

16 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 16 אלגוריתם חמדן המשך

17 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 17 סרט אנימציה...

18 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 18 מסקנות : תלות חזקה בפרמטרים של האלגוריתם. תלות חזקה בפונקצית הגמול. מספר האיטרציות להתכנסות גדול מאוד. במודלים מורכבים מספר המקרים (cases) גדול מאוד ( בעיה חישובית ). שימוש באלגוריתם חמדן למציאת פרמטרים מיטביים משפר את התוצאות.

19 01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 19 נושאים להמשך : אלגוריתם חמדן עם Annealing אלגוריתם חמדן לאופטימיזצית פונקצית הגמול למידת התקפה, מודל היררכי Co - Learning שכלול המודל הפיסיקלי של השולחן ( למשל אלמנטים סטטיסטיים ומכשולים ) מודל של רובוט המדמה זרוע אנושית לימוד של בקרה אנושית למשחק הוקי אוויר מימוש מערכת אמיתית


Download ppt "01/01/01 אמיר ווינשטוק עירן חוף שקופית מס ’ 1 מימוש ובדיקת אלגוריתם ללמידה ע"י חיזוקים עבור רובוט המשחק הוקי - אויר : מגישים עירן חוף אמיר ווינשטוק : מנחה."

Similar presentations


Ads by Google