SA-1 1 Probabilistic Robotics Planning and Control: Markov Decision Processes.

Slides:

Advertisements

Similar presentations

Markov Decision Processes (MDPs) read Ch utility-based agents –goals encoded in utility function U(s), or U:S  effects of actions encoded in.

Advertisements

Markov Decision Process

Value Iteration & Q-learning CS 5368 Song Cui. Outline Recap Value Iteration Q-learning.

U NIVERSITY OF M ASSACHUSETTS, A MHERST Department of Computer Science Solving POMDPs Using Quadratically Constrained Linear Programs Christopher Amato.

Decision Theoretic Planning

An Introduction to Markov Decision Processes Sarah Hickmott

主講人：虞台文大同大學資工所智慧型多媒體研究室

Markov Decision Processes

Planning under Uncertainty

Università di Milano-Bicocca Laurea Magistrale in Informatica Corso di APPRENDIMENTO E APPROSSIMAZIONE Lezione 6 - Reinforcement Learning Prof. Giancarlo.

Markov Decision Processes CSE 473 May 28, 2004 AI textbook : Sections Russel and Norvig Decision-Theoretic Planning: Structural Assumptions.

KI Kunstmatige Intelligentie / RuG Markov Decision Processes AIMA, Chapter 17.

Markov Decision Processes

Reinforcement Learning Mitchell, Ch. 13 (see also Barto & Sutton book on-line)

4/1 Agenda: Markov Decision Processes (& Decision Theoretic Planning)

Markov Decision Processes

Reinforcement Learning (2) Bob Durrant School of Computer Science University of Birmingham (Slides: Dr Ata Kabán)

Reinforcement Learning: Learning algorithms Yishay Mansour Tel-Aviv University.

Department of Computer Science Undergraduate Events More

More RL. MDPs defined A Markov decision process (MDP), M, is a model of a stochastic, dynamic, controllable, rewarding process given by: M = 〈 S, A,T,R.

Reinforcement Learning Yishay Mansour Tel-Aviv University.

INTRODUCTION TO Machine Learning ETHEM ALPAYDIN © The MIT Press, Lecture Slides for.

CS Reinforcement Learning1 Reinforcement Learning Variation on Supervised Learning Exact target outputs are not given Some variation of reward is.

MDP Reinforcement Learning. Markov Decision Process “Should you give money to charity?” “Would you contribute?” “Should you give money to charity?” $

Instructor: Vincent Conitzer

MAKING COMPLEX DEClSlONS

General Polynomial Time Algorithm for Near-Optimal Reinforcement Learning Duke University Machine Learning Group Discussion Leader: Kai Ni June 17, 2005.

CSE-573 Reinforcement Learning POMDPs. Planning What action next? PerceptsActions Environment Static vs. Dynamic Fully vs. Partially Observable Perfect.

Computer Science CPSC 502 Lecture 14 Markov Decision Processes (Ch. 9, up to 9.5.3)

Introduction to Reinforcement Learning Dr Kathryn Merrick 2008 Spring School on Optimisation, Learning and Complexity Friday 7 th.

Utilities and MDP: A Lesson in Multiagent System Based on Jose Vidal’s book Fundamentals of Multiagent Systems Henry Hexmoor SIUC.

CPSC 7373: Artificial Intelligence Lecture 10: Planning with Uncertainty Jiang Bian, Fall 2012 University of Arkansas at Little Rock.

Reinforcement Learning Yishay Mansour Tel-Aviv University.

INTRODUCTION TO Machine Learning

MDPs (cont) & Reinforcement Learning

Decision Making Under Uncertainty CMSC 471 – Spring 2041 Class #25– Tuesday, April 29 R&N, material from Lise Getoor, Jean-Claude Latombe, and.

CPS 570: Artificial Intelligence Markov decision processes, POMDPs

Announcements  Upcoming due dates  Wednesday 11/4, 11:59pm Homework 8  Friday 10/30, 5pm Project 3  Watch out for Daylight Savings and UTC.

CS 484 – Artificial Intelligence1 Announcements Homework 5 due Tuesday, October 30 Book Review due Tuesday, October 30 Lab 3 due Thursday, November 1.

CSE 473Markov Decision Processes Dan Weld Many slides from Chris Bishop, Mausam, Dan Klein, Stuart Russell, Andrew Moore & Luke Zettlemoyer.

Department of Computer Science Undergraduate Events More

Markov Decision Process (MDP)

MDPs and Reinforcement Learning. Overview MDPs Reinforcement learning.

Markov Decision Processes Chapter 17 Mausam. Planning Agent What action next? PerceptsActions Environment Static vs. Dynamic Fully vs. Partially Observable.

Reinforcement Learning: Learning algorithms Yishay Mansour Tel-Aviv University.

Possible actions: up, down, right, left Rewards: – 0.04 if non-terminal state Environment is observable (i.e., agent knows where it is) MDP = “Markov Decision.

Markov Decision Processes AIMA: 17.1, 17.2 (excluding ), 17.3.

1 Markov Decision Processes Finite Horizon Problems Alan Fern * * Based in part on slides by Craig Boutilier and Daniel Weld.

Università di Milano-Bicocca Laurea Magistrale in Informatica Corso di APPRENDIMENTO AUTOMATICO Lezione 12 - Reinforcement Learning Prof. Giancarlo Mauri.

CS 182 Reinforcement Learning. An example RL domain Solitaire –What is the state space? –What are the actions? –What is the transition function? Is it.

Announcements Grader office hours posted on course website

Intelligent Systems (AI-2) Computer Science cpsc422, Lecture 3

Markov Decision Processes II

Making complex decisions

Intelligent Systems (AI-2) Computer Science cpsc422, Lecture 3

Markov Decision Processes

CPS 570: Artificial Intelligence Markov decision processes, POMDPs

Markov Decision Processes

Planning to Maximize Reward: Markov Decision Processes

Markov Decision Processes

Instructors: Fei Fang (This Lecture) and Dave Touretzky

Quiz 6: Utility Theory Simulated Annealing only applies to continuous f(). False Simulated Annealing only applies to differentiable f(). False The 4 other.

CS 188: Artificial Intelligence Fall 2007

Instructor: Vincent Conitzer

Chapter 17 – Making Complex Decisions

Hidden Markov Models (cont.) Markov Decision Processes

Reinforcement Learning Dealing with Partial Observability

Reinforcement Nisheeth 18th January 2019.

Markov Decision Processes

Markov Decision Processes

Presentation transcript:

SA-1 1 Probabilistic Robotics Planning and Control: Markov Decision Processes

2 Problem Classes Deterministic vs. stochastic actions Full vs. partial observability

3 Deterministic, fully observable

4 Stochastic, Fully Observable

5 Stochastic, Partially Observable

6 Markov Decision Process (MDP) s2s2 s3s3 s4s4 s5s5 s1s r=-10 r=20 r=0 r=1 r=0

7 Markov Decision Process (MDP) Given: States x Actions u Transition probabilities p(x‘|u,x) Reward / payoff function r(x,u) Wanted: Policy  (x) that maximizes the future expected reward

8 Rewards and Policies Policy (general case): Policy (fully observable case): Expected cumulative payoff: T=1: greedy policy T>1: finite horizon case, typically no discount T=infty: infinite-horizon case, finite reward if discount < 1

9 Policies contd. Expected cumulative payoff of policy: Optimal policy: 1-step optimal policy: Value function of 1-step optimal policy:

10 2-step Policies Optimal policy: Value function:

11 T-step Policies Optimal policy: Value function:

12 Infinite Horizon Optimal policy: Bellman equation Fix point is optimal policy Necessary and sufficient condition

13 Value Iteration for all x do endfor repeat until convergence for all x do endfor endrepeat

14 Value Iteration for Motion Planning

15 Value Function and Policy Iteration Often the optimal policy has been reached long before the value function has converged. Policy iteration calculates a new policy based on the current value function and then calculates a new value function based on this policy. This process often converges faster to the optimal policy.