7.3 用细节奖励机制解决智能体学习问题