1.请分别解释马尔可夫性、马尔可夫过程和马尔可夫决策过程。
2.MDP五元组M=<S,A,P,R,γ>中,各个字母代表的含义是什么?
3.对于一个马尔可夫决策过程,奖赏值数量有限,请给出状态转移函数和回报函数。
4.扑克和围棋均属于MDP问题,两种游戏之间有什么本质区别?
5.请写出贝尔曼期望方程和贝尔曼最优方程。
6.强化学习的目标是什么?什么是最优策略和最优值函数?
7.最优值函数和最优策略为什么等价?