Mean Field Equilibria of Multi-Armed Bandit Games Ramki Gummadi (Stanford) Joint work with: Ramesh Johari (Stanford) Jia Yuan Yu (IBM Research, Dublin)

Motivation Classical MAB models have a single agent. What happens when other agents influence arm rewards? Do standard learning algorithms lead to any equilibrium?

Examples Wireless transmitters learning unknown channels with interference Sellers learning about product categories: e.g. eBay Positive externalities: social gaming.

Example: Wireless Transmitters Channel A 0.8 Channel B 0.6 ?

Example: Wireless Transmitters Channel A 0.8 ; 0.9 Channel B 0.6 ; 0.1 ?

Modeling the Bandit Game Perfect bayesian equilibrium – Implausible agent behavior. Mean field model – Agents behave under an assumption of stationarity.

Outline Model The equilibrium concept Existence Dynamics Uniqueness and convergence From finite system to limit model Conclusion

Mean Field Model of MAB Games

A Single Agent’s Evolution

Examples of Reward Functions

The Equilibrium Concept

Optimality in Equilibrium

Existence of MFE

Beyond Existence MFE exists, but when is it unique? Can agent dynamics find such an equilibrium even if it is unique? How does the mean field model approximate a system with finitely many agents?

Arms 1 2 3. i. n Dynamics

Uniqueness and Convergence

Finite Systems to Limit Model

Approximation Property

Conclusion Agent populations converge to a mean field equilibrium using classical bandit algorithms. Large agent population effectively mitigates non-stationarity in MAB games. Interesting theoretical results beyond existence: uniqueness, convergence and approximation. Insights are more general than theorem conditions strictly imply.

Mean Field Equilibria of Multi-Armed Bandit Games Ramki Gummadi (Stanford) Joint work with: Ramesh Johari (Stanford) Jia Yuan Yu (IBM Research, Dublin)

Similar presentations

Presentation on theme: "Mean Field Equilibria of Multi-Armed Bandit Games Ramki Gummadi (Stanford) Joint work with: Ramesh Johari (Stanford) Jia Yuan Yu (IBM Research, Dublin)"— Presentation transcript:

Similar presentations

About project

Feedback

Log in

Auth with social network:

Mean Field Equilibria of Multi-Armed Bandit Games Ramki Gummadi (Stanford) Joint work with: Ramesh Johari (Stanford) Jia Yuan Yu (IBM Research, Dublin)

Similar presentations

Presentation on theme: "Mean Field Equilibria of Multi-Armed Bandit Games Ramki Gummadi (Stanford) Joint work with: Ramesh Johari (Stanford) Jia Yuan Yu (IBM Research, Dublin)"— Presentation transcript:

Similar presentations

About project

Feedback