1.2 人工智能的双重驱动力
在美国,很多人工智能项目都以大学为主导,用于科研,不需要考虑赚钱的问题。而中国的人工智能项目存在于各种产业公司内,压力大,而且公司做完算法后还要赚钱。在美国很少能看到拥有四五百人的中型人工智能企业,公司规模达到一百人左右的时候,要么就维持一个小而美的研究,要么就等待被并购,进入一个大体系里。
下面我结合中美之间的差异性讲讲视觉识别的商业化。
老公睡着了,老婆就能让手机解锁吗
iPhone X的人脸解锁功能引起了热议,网上流传着两个段子,第一个是老公睡着之后,手机被老婆解锁了;第二个是老婆卸妆后,发现手机打不开了。
这里有一项测试,如图1-2所示,让机器识别一些网红脸,看看算法能够给出什么样的结果。
图1-2
通过测试结果可以看出,即便受试者化了浓妆,机器也可以识别出来,甚至连男扮女装都能识别出来。如果让人类去做这种识别,成功率会是多少?人脸识别对于机器来说就是一道算术题,化妆是障眼法,没有改变原有的面部结构,所以在1:1的场景里,机器比人的判断力高一些。人类做出的判断由自己的数据库决定,比如面对一个非常熟悉的人,他变换发型之后仍能被我们认出。人类依靠的数据库由我们的生活圈决定,生活圈越大,认识的人就越多,生活圈越小,认识的人就越少。
这里还有另一项测试,如图1-3所示,我们找了一些电影中经过特效变化的面孔给机器识别,机器同样能够判断出这些面孔分别对应哪位演员。
图1-3
因此人脸识别程序已经能够识别电影特效级别的面孔。什么样的面孔不能被识别呢?毁容之后的面孔不能被识别,面部关键部分或结构有变化,机器可能就识别不了了。
所以刚刚说的老婆卸妆之后手机打不开的问题,现在机器已经解决了。至于老公睡觉时手机被老婆解锁这件事,也是无法实现的。
人脸解锁体验更好,安全问题仍然存在
大家都很关心人工智能的商业落地,目前人脸解锁技术已经真正实现了落地。判断两张图片是不是同一个人很简单,但是不同的场景下会有不同的命题,这些命题能不能解决,决定了这项技术能不能在相关行业里应用,这是人脸识别商业化的关键。
人脸解锁的体验略胜于指纹、虹膜。这里可以做一个对比。
(1)首次注册时,人脸和虹膜的速度快,拍一张照片即可,相比之下指纹比较慢,需要多次采集。
(2)指纹解锁需要手指配合,虹膜解锁需要对准眼部,这两种解锁方式都慢于人脸解锁,而且人脸解锁是非接触式的。面对同一种手机解锁方式,人们拿起手机一秒内成功了,这是正常速度,也是极限,如果解锁需要两秒甚至更长时间,大家就可能放弃这种方式了,这就是商业化对技术的要求。
(3)指纹解锁和虹膜解锁的抗干扰能力比较弱,比如手上沾上一些水或者油渍就不能被识别了,带上隐形眼镜虹膜解锁就不好用了,而人脸解锁的抗干扰能力更强一些。
人脸识别也需要与“黑产”(黑色产业)进行斗争。黑客们总会有新方法攻击你的手机,之前就有某款手机的人脸识别功能会被照片破解的新闻。目前在“黑产”市场,破解手机人脸识别功能的价格大概是800元一次,批量破解50元一次。研究人脸识别的厂商需要了解黑客的攻击方式,强化自身的技术,从而进行防卫。
一台门禁机反映出的问题
在人脸识别技术走向商业化的过程中,“技术-场景”双轮驱动才是关键,技术单独发展并不十分有效。现在为什么强调算法?因为大家在找投资的时候,要向投资人解释这项技术为什么值钱。天使轮、A轮、B轮投资的投资人可能都要有这样一个标准。
旷视是一家研究人脸识别的公司,曾给公司内部做了一款可以刷脸的门禁机,后来这款机器被做成了商业产品。投放到市场之后旷视发现,制约人脸识别技术落地的并非是机器识别的准确率与速度,而是不同小区的环境。小区大门朝东的,早晨人脸逆光面对机器,识别不了;小区门口路灯昏暗的,到了夜晚机器就识别不了。于是我们需要改算调优,对逆光改算法,对亮度改算法,不断解决这些问题。所以当人脸识别技术真正走向商业化落地的时候,要解决的问题远比你向投资人介绍的算法复杂得多。
在一个真正的商业化场景里,门禁机的机身可能是一个非常小的集成商做的,算法是科学家做的。集成商不懂算法,科学家不会去解决使用中遇到的零散问题。所以想要实现人脸识别的商业化落地,公司必须有能够与算法专家和集成商对接的人才,这类人才需要特别强大,甚至需要专门培养。现在比拼算法专家数量不是一件难事,真正具有挑战性的是面对商业化落地,产品如何实现集成。
人工智能走向商业化,不只是一个算法问题
警匪片里通常只有一两个坏人,而现实生活中警方要面对多少坏人?一个大型城市的固定人口加上流动人口,总数大概是1000万~2000万人,从中抓一个罪犯,需要多少数据?这就是商业化人工智能和算法级人工智能的具体差别。
旷视的人脸识别程序现在已经能够帮助警方识别嫌疑人,这里有两个典型的例子:两个嫌疑人,其中一个潜逃了五年,觉得没人会认出他,结果被机器识别出来了;另一个逃了七年,以前很瘦,这七年间变胖了,还是被机器识别出来了。处理一个打架斗殴事件,如果单纯依靠警方排查寻找嫌疑人,需要多少人力和时间?但是通过人脸识别,三秒钟就找到了嫌疑人,五分钟后巡警就能完成抓捕。警察要抓嫌犯,不是说从几万人里把这个人认出来就万事大吉了,而是要明确在哪儿能抓住他,他会在什么时间、什么地点出现,警方需要的是一份情报信息。一秒钟识别,一秒钟定位,告诉警方这个人在哪儿,这是算法的真正落地。
真正的商业化并不是解决一个算法问题,而是解决场景和需求问题,找最合适的发力点。
此外,人工智能走向商业化,除了把算法做好之外,还要解决如何跟硬件结合的问题,如何通过警用摄像头实现算法功能的问题。现在国内的警用摄像头有5000万个左右,其中80%的摄像头只能看到人的身体,看不清人脸。因此,在像素级受限的情况下能不能识别,也是人脸识别商业化过程中需要面对的问题。
技术和场景是人工智能的双重驱动力
人工智能的核心驱动力到底是什么?
目前大家关注的范围主要包括产业环境、技术、数据、场景、人才、商业模式、行业这几个方面,大家喜欢看团队里有多少博士,商业模式有多完美,行业渗透能力强不强,大数据上有没有优势。
其实真正的驱动力就两个:一个是技术,另一个是场景,如图1-4所示。
图1-4
公司的技术到底能不能适应这个行业,对这个场景的了解有多深,这些问题的答案就涉及人工智能真正商业化的一些问题。
如图1-5所示,技术、商业、数据的化学反应可以将场景细分。为什么现在人工智能领域出现很多细分公司?因为数据在每一个行业里是一定量,不同的知识解决不同行业的问题,场景需要技术落地,而技术会细分场景,不会有某项技术可以适应全部场景。想把所有场景划分出来,谷歌级别的公司也很难做到。
图1-5
在中国的人工智能领域,投入多少成本能将技术做出来是一个未知数,技术研发成功之后能够得到多少回报也是一个未知数,这是一个尴尬的场景。
人工智能公司在一级市场估值非常高,但是公司敢拿这份财报去二级市场上市吗?我相信大部分公司都不敢,因为一定会倒挂。所以场景细分之后我们发现只有在公司可以做很多东西的情况下,才能真正赚钱。如果只做一个软件开发工具包(Software Development Kit, SDK)级别的生意,那么公司在每一个行业里的议价能力都会非常弱。
旷视的小区门禁系统现在能解决在逆光下识别人脸的问题,解决的关键在于旷视已经在100多个小区安装了人脸识别门禁机,这么多场景下的数据可以帮助优化算法。但如果没有这些数据,旷视怎么解决这些问题?场景得到细分,技术也能得到相应的优化,所以场景一定要不断扩大。这就是双轮驱动的具体用意。
旷视最早选了一个非常小的技术点作为开始,做了一个用人脸控制东西的小游戏,包装了一个“运动颈椎”的概念,后来做了一些娱乐级的刷脸实践。网络上比较好玩的测年龄、颜值、夫妻相的App,包括女生用的美图秀秀,底层坐标技术都是旷视的,而其他厂商会用这些技术开发很多创意。
三年前,阿里巴巴表示要跟旷视合作,解决几个金融上的问题:一是支付问题,二是远程开户。“刷脸”能够解决这两个商业场景中的刚需——远程合规问题。互联网金融公司没有线下营业网点,需要通过一种技术解决合规性问题。
从驱动力的角度来看这件事,技术是人脸识别技术,场景则是要解决远程开户的合规性,与此同时还需要证明远程开户是符合客户本人意愿的操作,这就涉及活体验证。场景对技术提出了要求:把人脸识别技术集中到柜台和手机App里,而且要保证识别速度快。所以必须不断地找场景,通过满足场景提出的要求,让技术一直持续有效地领先下去。
旷视经常会接到来自全国各地、各行各业的电话,希望旷视帮助它们设计具有代表性和针对性的算法程序。德青源曾找过旷视,他们有一个国家级养殖中心,里面有10万个鸡圈,德青源想通过在鸡圈里放置摄像头的方式来统计鸡的数量。经过思考,旷视认为这个场景对于自身的技术来说落地难度非常大。通过这件事旷视也收获了一次历练,明确了基于金融级别的人脸识别到底该做什么样的事情。
做人脸识别要有针对性地解决不同场景中的问题,如果不明白这个场景对技术的要求,就无法实现技术的快速进步。而且人脸识别不能只识别中国人,还要能识别外国人。VIVO曾在印度发布了一款带有人脸识别功能的手机,大部分印度男性都会留很浓密的胡须,而且他们的肤色偏棕黑,识别中国人和识别印度人对技术的要求肯定不一样,旷视用了三个月时间解决了印度人脸识别的问题。
“AI+医疗”
人工智能在医疗领域的发展前景有待观察。现在“AI+医疗”能解决什么问题?机器可以根据一张扫描片判断病人患了何种病,这种判断基于医生们积累的经验,也就意味着机器要录入很多标准化的东西。病人拿一张片子去给十家医院的大夫看,可能会得到五个以上的结果。以前我的膝盖受伤了,到医院拍了一个磁共振成像(Magnetic Resonance Imaging, MRI,简称“核磁共振”),去了三家医院,得到了三个结果。把同样一张片子给机器,机器会选择哪个结果?医学需要考虑很多综合性因素,因为每个人的生理状态都不一样,故而同一种疾病的病因可能是不一样的,所以有“会诊”这种形式,请很多老专家推断可能的病因。从这点来看,医学本身不具备这种大规模的标准化数据录入的可能。
人脸识别技术的新发展
最近几年人脸识别技术实现了哪些突破?首先,人脸检测最初需要在一张脸上测五个点,那时同一张人脸一旦更换发型或者配饰,机器就识别不了了。现在在一张人脸上要识别三万多个点,不管被识别人怎样化妆,不管处于何种商业场景中,不管面对什么样的自然环境,机器都可以完成识别。
其次,很多人觉得人脸识别不太靠谱,这是因为人类本身非常擅长人脸识别,用自己的视觉系统去质疑这项技术,不相信机器能够超越人类完成海量的人脸识别工作。为什么大家很少质疑指纹?因为我们都不会识别指纹,所以会认为机器能做得更好。其实机器和人看到的世界是两个世界,指纹识别的准确率和人脸识别的准确率几乎一样。
另外,现在的人工智能已经可以实现多角度识别,甚至“阴阳脸”(脸部光照不均)都可以识别。
在技术的发展过程中,一定要找到商业场景中可能会出现的一切场景。人脸识别技术并不是科学家坐在办公室里就可以想出来的,科学家如果想让人工智能实现商业化,需要让自己变得“糙”一点,要想到普通人经常遇到的场景。
谢忆楠 旷视科技(Face++)品牌与市场副总裁。拥有13年市场与品牌传播经验,曾在中央电视台、易观国际、奇虎360等多家媒体与互联网企业负责市场品牌项目。