5.2.4 优势演员-评论家算法的实现（离散动作空间）