强化学习
上QQ阅读APP看书,第一时间看更新

2.5 习题

1.请分别解释马尔可夫性、马尔可夫过程和马尔可夫决策过程。

2.MDP五元组M=<SAPRγ>中,各个字母代表的含义是什么?

3.对于一个马尔可夫决策过程,奖赏值数量有限,请给出状态转移函数和回报函数。

4.扑克和围棋均属于MDP问题,两种游戏之间有什么本质区别?

5.请写出贝尔曼期望方程和贝尔曼最优方程。

6.强化学习的目标是什么?什么是最优策略和最优值函数?

7.最优值函数和最优策略为什么等价?