10.3.1 零和博弈问题的折扣值迭代算法推导