决策算法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 决策

智能体(agent)是一个实体,该实体基于对环境的观测而采取相应的操作。智能体可以是物理实体,诸如人类或机器人;也可以是非物理实体,例如完全通过软件实现的决策支持系统。智能体和环境之间的交互遵循观测-操作行为循环(observe-act cycle or loop),如图1-1所示。

智能体在时间t接收到一个关于环境的观测(observation),记为ot。例如,可以通过生物传感过程(诸如人类的行为)或者通过传感器系统(诸如空中交通控制系统的雷达)接收到观测。观测结果往往不完整或者包含噪声。例如,人类可能没有观察到逐渐靠近的飞机,或者雷达系统可能由于电磁干扰而错过了检测。随后,智能体将通过一些决策过程选择一个相应的操作行为at。相应的操作行为(例如发出警报)可能会对环境产生不确定的影响。

图1-1 智能体与环境之间的交互

我们关注的重点是智能体。随着时间的推移,智能体能够与环境进行智能交互以逐渐实现目标。给定曾经发生的一系列观测序列o1,…,ot,以及对环境的了解,智能体必须在存在各种不确定因素的情况下,选择一个最能实现其目标的操作行为[1]。不确定因素包括以下内容:

结果不确定性(outcome uncertainty),操作行为的影响结果是不确定的。

模型不确定性(model uncertainty),问题的模型是不确定的。

状态不确定性(state uncertainty),环境的真实状态是不确定的。

交互不确定性(interaction uncertainty),在环境中相互交互的其他智能体的行为是不确定的。

本书将围绕这四个不确定性来源因素展开相关的阐述。在存在不确定性的情况下做出决策是人工智能(artificial intelligence)[2]

领域的核心,同时也是许多其他领域的核心(如1.4节所述)。我们将讨论各种算法(即计算过程的具体描述),以实现对不确定性具有鲁棒性的决策。