4.1 单状态假设下的Bandit策略