识别整个情境比识别单个物体要困难得多