2.6 基于认知强化学习的供需互动优化方法
2.6.1 强化学习理论
强化学习是一类解决序贯决策问题的机器学习方法,传统的强化学习以试错机制进行策略学习,并通过与环境的不断交互获得奖赏来评价策略。在强化学习过程中,在当前状态下,智能体通过执行某个动作与环境进行交互,环境会反馈一个当前的奖赏值给智能体,智能体根据奖赏的大小评价所选择的动作,奖赏越大意味着该动作越有利,智能体采用该动作的可能性增大[7]。
强化学习算法通常采用的优化问题模型是马尔可夫决策过程(Markov Decision Process,MDP)。MDP可以表示为一个多元组,如下所示:
其中,S为全体状态的集合;s为当前状态;s′为转移后的状态;A是所有动作集合;a为当前采取的动作;表示在状态s时执行动作a后获得的立即奖赏;表示在状态s时执行动作a后,系统转移至状态s′的概率。MDP中,系统具有马尔可夫性,即系统的状态转移s′仅和当前状态s相关,与之前的状态无关。
根据MDP模型,除了智能体和环境,任何类型的强化学习算法还包含以下环节。
① 策略。策略是指在状态s时,智能体选择动作的概率分布。策略是状态到动作的映射,在某些确定性的强化学习算法中,策略是确定的,即在每个状态下,策略都指定为一个确定的动作。
② 立即奖赏函数。立即奖赏函数是在智能体执行动作后环境反馈的当前时刻奖赏信号,用于评价选择的动作。通常奖赏函数正值表示奖励,负值表示惩罚。立即奖赏函数只代表执行动作后当前时刻的瞬时奖赏。
③ 值函数。值函数又称为评价函数,用于评价执行动作后的未来各个时刻的累计奖赏。对状态动作对(s,a)而言,立即奖赏低只代表当前的奖赏较低,并不代表未来的累计奖赏低,若后续的策略能够获得更高的累计奖赏,仍可提高总的值函数值。根据累计的值函数来评价策略优劣,而不是只顾及当前时刻的奖赏,这是强化学习方法不同于其他方法、具有长远视角的优化性能的原因。
传统Q学习和Sarsa强化学习算法在很多领域取得了良好效果,然而,仍然存在一些无法克服的问题,制约了强化学习在更复杂决策问题中的应用,具体问题归纳如下。
① 传统强化学习算法需要一个Q-table记录和存储迭代更新的值函数,因此传统强化学习方法也可被称为表格型强化学习。Q-table的列坐标记录系统的状态量s,行坐标记录动作变量a,更新的值函数Q(s,a)填入行列坐标对应的表格中,因此Q-table的维度为Q-table。学习过程收敛后,在应用过程中,可直接对照Q-table选择当前状态对应的最优动作。但当系统的状态空间或动作空间是高维空间或连续空间时,便无法使用一张表格记录所有的值函数,而在电力行业,输入/输出变量多为连续参数,如发电量、电价、负荷或节点电压、运行功率等都是连续参数,传统表格型强化学习无法解决学习过程中的维数灾难问题。
② 传统强化学习算法是集中式的单智能体强化学习方法,仅考虑单智能体与环境进行交互并优化策略,该方法仅适用于集中式的决策和调度问题,但在分布式系统中,有多个自决策智能体,它们所处的环境与策略都有差异,智能体之间存在复杂的合作或竞争关系,且不同智能体之间的决策和环境互相影响,需要通盘考虑各智能体的联合决策,同时也会导致学习时的维数灾难问题更加严重。例如,在分布式的市场化微网系统中,各智能体进行自治的市场决策,而每个智能体的市场回报都与其他竞争者或合作者紧密相关,因此无法用单智能体强化学习方法进行决策优化。
③ 传统强化学习缺乏对环境状态的感知能力,状态信息包括两类:一是系统自身的状态;二是外部环境状态。强化学习的核心在于如何最大化累计奖赏以获得最优决策,所采取的动作具有明显的奖励导向性,这类动作策略通常都取决于系统自身状态,而忽略动作对环境状态的影响。例如微网调度问题中,优化结果不仅取决于系统自身状态(如电价信息、出力预测、负荷预测等),还受到环境状态信息(如系统通信状态、气候状态等)的直接影响。缺乏环境状态信息的感知、处理和交互能力将导致系统对环境信息不确定性的鲁棒性降低,从而影响最终决策优化结果。