1.1 计算机视觉发展仍有巨大空间,视频理解难于图片理解
我在微软待了十余年,一直在做计算机视觉和多媒体分析。人工智能这个领域里有很多“钉子”,我们只不过是不时地换把锤子敲一敲“钉子”,把“钉子”稍微往木板里敲一点。要想把一颗颗“钉子”完全敲进木板里,过程还是很漫长的。
大家现在都在谈人工智能。人工智能领域很广,它包括机器学习,机器学习又包括深度学习,不能把“人工智能”和“深度学习”这两个概念混淆在一起。计算机视觉是人工智能的一个应用领域,它就相当于把相机连上电脑,电脑可以将相机所看到的东西一一描述出来。
我也看过一些相关领域的商业计划(BP),一些创始人说他们这个算法有多么了不起,这就很可笑。按照学界观点,绝大部分算法的领先周期只有6个月。真正的高手,最多花6个月就可以复现乃至超越别人的算法。很多人说计算机视觉到2018年就可以达到大学生的认知水平,我觉得这种说法非常不靠谱。保守一点说,现在计算机视觉在某些视觉认知的任务上可以接近3~5岁儿童的能力,这种说法会客观一些。
机器视觉是否能够超过人眼视觉?肯定不能这么说,因为比较的维度不一样。假如现在有一张图片,同时请一台机器和一个人对其进行标注,那一定是人类标注得比机器好,而且更为精细;如果拿出1000张图片请机器和人来标注,要求一秒钟内完成,那一定是机器做得比人好。
视觉理解的五层境界
图像的最小单位是像素。对于计算机视觉来说,最难的是判断每个像素属于哪个类别,即语义分割。这需要大量人工标注,没有哪家企业愿意花钱雇人做这件事。
如果觉得语义分割过于精细,可以不去关心每个像素处于哪个位置,只需要识别图像中的物体究竟是人还是马,人和马的位置在哪里,即物体检测。
还有一种情况是机器不去关心图像中马和人所处的位置,只是去识别图像中有什么物体,即图像分类。
第四种情况是,给机器一张图,机器不但要解读出图中有哪些物体,或者有哪些词,还要把这些词连成一句话。一种情况有点像看图说话:我给机器一张图,让机器说出一段文字,这段文字是自然语言,且不能有任何语法错误。另一种情况是看图回答问题。我给机器一张图,它要回答:图中有多少个人?图中出现的马分别是什么颜色的?
第五种情况是讲故事,这也是我们微软之前在做的一个技术。大家现在喜欢出去旅游,旅途中拍了很多照片,回来分享到博客上。现在机器可以自动帮你写一些博客文章,通过识别图片,把图中的内容以文字的形式表述出来。
视觉理解在“微软小冰”中的应用
微软有一个名叫小冰的聊天机器人,会自动给用户视频添加评论。小冰的视频自动评论功能上线第一个月,它的粉丝就涨了60%,而且1 / 3的用户不知道小冰是机器人,因为微软在训练小冰时,让它永远非常乐观地去评价用户发布的内容。假如夸一个用户长得好看,它不会只是泛泛地夸用户美,而是会具体指出你是眉毛好看还是身材比较好,所以大家都很喜欢它。
小冰现在还会写诗,虽然还有很多地方需要不断改进,但这个功能推出后很受用户欢迎。微软没让小冰写古体诗,而是选择了现代诗,按照今天的流行语,叫“freestyle”。小冰通过识别图片内容,来判断图片中的意境是明亮的还是阴暗的,是喜悦的还是悲伤的。在确定图片的基本情绪后,小冰会自动生成诗句。
用计算机视觉设计封面
微软曾经用人工智能来设计封面。人类在设计封面时,通常会考虑文字应该放在封面的什么位置,该用什么样的字体和颜色,而微软设计的机器视觉模型结合了心理学、广告学和颜色方面的理论。比如说一张以人物为主体的封面,主标题通常会放在人物视线所指的方向,因为视线代表着读者关注的焦点。食品类杂志封面很少用蓝色或鲜红色,这两种颜色都比较容易影响食欲。快餐店为了保证翻台率,当然不希望客人长时间待在店里,所以很多快餐店喜欢用橘红色作为主色调,因为橘红色容易让人焦虑。
机器视觉模型的工作模式是:当它拿到封面图片后,会自动分析图片主体在哪里,然后做色彩分析,判断其有几种主色调,每种主色调与什么颜色对应会比较和谐。机器甚至还可以给文字加特效,比如加一幅半透明的背景图等。
机器识别在内容管理上的应用
平台上用户上传的内容多了之后,需要对内容进行管理,内容管理最典型的做法是打标签。在真实世界里,标签无穷无尽,仅是人类所认识的花就有25万种,鸟至少有1万种,所以要想精细地给用户上传的内容打好标签非常难。
微软给不同物体所打标签的精细度也不一样,比如对于鸟和狗这两种类别的标签就做得很细,因为美国人和中国人都喜欢这些小动物。在识别车辆的时候,我们做了一个实验,从一个二手车网站上把所有车型照片全部下载下来让机器识别,识别率高达99%。而我们对于飞机、食物和医疗相关的标签打得还不够完整,尤其是在医疗方面,因为没有特别优质的大数据来支持。
在视频领域,微软的机器可以识别出1000种以上的物体和500种以上的动作,用户在搜索视频时就可以通过这些标签找到相关视频。识别人体动作有什么用处呢?现在有很多健身App,假如嵌入机器识别功能,就可以判断出用户的动作做得是否标准、规范,并为其打分。
有了视频和图像,用户总要进行消费,也就是编辑或改动。我们为图片做了各种滤镜,做图片的滤镜不新鲜,国内很多公司也在做这个事情。微软研究院计算机视觉组做的一个研究很酷,叫风格转换(Style Transfer),机器可以分析任何一张图片的风格,并将这种风格应用到另外一张图片中去,如图1-1所示。
图1-1
机器还可以对视频中的内容进行分割与重新组合,比如将视频A中的人物抽取出来,放到视频B的场景里去。当然,视频的分割比较费时间,因为机器需要对动态画面进行计算与处理。
梅涛 微软亚洲研究院资深研究员,国际模式识别学会会士,美国计算机协会杰出科学家,中国科技大学和中山大学兼职教授和博士生导师。主要研究兴趣为多媒体分析、计算机视觉和机器学习,研究成果十余次被成功转化到微软的产品和服务中。