1.1 模仿游戏
本节的标题是“模仿游戏”(The Imitation Game),也就是后人所称的“图灵测试”(Turing Test)。
我打算考虑这样一个问题:“机器能思考吗?”要回答这个问题,需先给出术语“机器”和“思考”的定义。虽然可以用尽可能反映其普通用法的方式给出定义,但是这种方式是危险的。如果“机器”和“思考”这些词语的含义是通过审视它们通常怎样被使用而发现的,将很难避免这样的结果:用盖洛普调查那样的统计方式寻找到“机器能思考吗?”这一问题的含义和答案。但是,这是荒谬的。因此,我不是试图给出这样的定义,而是提出另外一个问题,这个问题和原问题紧密相关,而且是用相对不含糊的词语表达的。
定义有时比设计还要困难。什么是“机器”?什么是“计算机”?什么是“思考”?给出一个科学的定义并不容易。有时容易陷入同义反复,有时容易用更高级的概念来定义较为低级的概念(更高级的概念本身还没有定义)。
通常的词典和辞海,在定义概念时是“用尽可能反映其普通用法的方式给出定义”,同时给出一些例句,然后归纳出一种定义。语言学家王力是这方面的泰斗。
盖洛普民意测验(Gallup poll)是指由一位叫盖洛普的人设计的用以调查民众的看法、意见和心态的一种测试方法,产生于20世纪30年代。它根据年龄、性别、教育程度、职业、经济收入、宗教信仰这六个标准,在美国各州进行抽样问卷调查或电话访谈,然后对所得材料进行统计分析,得出结果。此方法在美国仍经常运用,并有相当高的权威性。
在理解新生事物时,一种比较常见的做法是组织一些专家分别给出意见,然后按照“少数服从多数”的统计方式做出决定。艾伦·图灵指出这种做法是危险的。他把问题等价转化了,这是一个具有非凡创造性的做法。
问题的新形式可以通过一个我们称为“模仿游戏”的游戏来描述。这个游戏有三个人参与,一个男人(A)、一个女人(B)和一个男女皆可的提问者(C)。提问者处在一个与另外两人相隔离的屋子里,对提问者来说游戏的目标是要判断另外两个人哪个是男人,哪个是女人。提问者用标签X、Y指称外面的两个人,游戏结束时,他要说出“X是A,Y是B”或者“X是B,Y是A”。提问者C允许向A和B提出下面这样的问题:
C:X,请告诉我你头发的长度。
提问者C之所以要问这个问题,是希望利用“女人的头发通常比男人的头发长”这个常识去判断A和B的性别。
现在假如X实际上是A,那么A必须回答。A在游戏中的目标是努力使C做出错误的识别。因此他的回答可以是:“我的头发乌黑发亮,最长的一缕大概九英寸长。”
A是男人(大多数男人的头发较短),但他为了蒙骗提问者C,让C做出错误的判断,所以故意说假话。
为了排除声音帮助提问者得出结论的可能性,问题的答案应该写出来,或者最好是打印出来。理想的安排是,让两个屋子用远程打印通讯,也可以通过中间人传递答案。对第三个人B来说,她在这个游戏中的任务是努力帮助提问者。她的最优策略可能就是给出正确答案。她可以在自己的答案中加入“我是女的,别听他的”这样的话,但是这并不能提供更多的帮助,因为男人A也能做出相似的回答。
为什么要排除声音帮助提问者得出结论的可能性呢?因为声音在智能中所起的作用不是本质的,也就是说,如果通过声音做出判断,即使不具有智能或者具有很低的智能,也能够做到。
文章共7节,第1节标题为“模仿游戏”。这一节涉及“虚拟化在智能中具有什么作用?”“功能和性能有何区别?”这样的本质问题。
现在提出这样一个问题:“如果用机器代替A,将会发生什么情况?”同与两个人玩这个游戏相比,提问者判断错误的概率是否发生变化?这些问题取代了原问题(机器能思考吗)。