1.1 计算机视觉发展仍有巨大空间，视频理解难于图片理解

上QQ阅读APP看书，第一时间看更新

1.1 计算机视觉发展仍有巨大空间，视频理解难于图片理解

■ 梅涛（微软亚洲研究院资深研究员）

我在微软待了十余年，一直在做计算机视觉和多媒体分析。人工智能这个领域里有很多“钉子”，我们只不过是不时地换把锤子敲一敲“钉子”，把“钉子”稍微往木板里敲一点。要想把一颗颗“钉子”完全敲进木板里，过程还是很漫长的。

大家现在都在谈人工智能。人工智能领域很广，它包括机器学习，机器学习又包括深度学习，不能把“人工智能”和“深度学习”这两个概念混淆在一起。计算机视觉是人工智能的一个应用领域，它就相当于把相机连上电脑，电脑可以将相机所看到的东西一一描述出来。

我也看过一些相关领域的商业计划（BP），一些创始人说他们这个算法有多么了不起，这就很可笑。按照学界观点，绝大部分算法的领先周期只有6个月。真正的高手，最多花6个月就可以复现乃至超越别人的算法。很多人说计算机视觉到2018年就可以达到大学生的认知水平，我觉得这种说法非常不靠谱。保守一点说，现在计算机视觉在某些视觉认知的任务上可以接近3～5岁儿童的能力，这种说法会客观一些。

机器视觉是否能够超过人眼视觉？肯定不能这么说，因为比较的维度不一样。假如现在有一张图片，同时请一台机器和一个人对其进行标注，那一定是人类标注得比机器好，而且更为精细；如果拿出1000张图片请机器和人来标注，要求一秒钟内完成，那一定是机器做得比人好。

视觉理解的五层境界

图像的最小单位是像素。对于计算机视觉来说，最难的是判断每个像素属于哪个类别，即语义分割。这需要大量人工标注，没有哪家企业愿意花钱雇人做这件事。

如果觉得语义分割过于精细，可以不去关心每个像素处于哪个位置，只需要识别图像中的物体究竟是人还是马，人和马的位置在哪里，即物体检测。

还有一种情况是机器不去关心图像中马和人所处的位置，只是去识别图像中有什么物体，即图像分类。

第四种情况是，给机器一张图，机器不但要解读出图中有哪些物体，或者有哪些词，还要把这些词连成一句话。一种情况有点像看图说话：我给机器一张图，让机器说出一段文字，这段文字是自然语言，且不能有任何语法错误。另一种情况是看图回答问题。我给机器一张图，它要回答：图中有多少个人？图中出现的马分别是什么颜色的？

第五种情况是讲故事，这也是我们微软之前在做的一个技术。大家现在喜欢出去旅游，旅途中拍了很多照片，回来分享到博客上。现在机器可以自动帮你写一些博客文章，通过识别图片，把图中的内容以文字的形式表述出来。

视觉理解在“微软小冰”中的应用

微软有一个名叫小冰的聊天机器人，会自动给用户视频添加评论。小冰的视频自动评论功能上线第一个月，它的粉丝就涨了60%，而且1 / 3的用户不知道小冰是机器人，因为微软在训练小冰时，让它永远非常乐观地去评价用户发布的内容。假如夸一个用户长得好看，它不会只是泛泛地夸用户美，而是会具体指出你是眉毛好看还是身材比较好，所以大家都很喜欢它。

小冰现在还会写诗，虽然还有很多地方需要不断改进，但这个功能推出后很受用户欢迎。微软没让小冰写古体诗，而是选择了现代诗，按照今天的流行语，叫“freestyle”。小冰通过识别图片内容，来判断图片中的意境是明亮的还是阴暗的，是喜悦的还是悲伤的。在确定图片的基本情绪后，小冰会自动生成诗句。

用计算机视觉设计封面

微软曾经用人工智能来设计封面。人类在设计封面时，通常会考虑文字应该放在封面的什么位置，该用什么样的字体和颜色，而微软设计的机器视觉模型结合了心理学、广告学和颜色方面的理论。比如说一张以人物为主体的封面，主标题通常会放在人物视线所指的方向，因为视线代表着读者关注的焦点。食品类杂志封面很少用蓝色或鲜红色，这两种颜色都比较容易影响食欲。快餐店为了保证翻台率，当然不希望客人长时间待在店里，所以很多快餐店喜欢用橘红色作为主色调，因为橘红色容易让人焦虑。

机器视觉模型的工作模式是：当它拿到封面图片后，会自动分析图片主体在哪里，然后做色彩分析，判断其有几种主色调，每种主色调与什么颜色对应会比较和谐。机器甚至还可以给文字加特效，比如加一幅半透明的背景图等。

机器识别在内容管理上的应用

平台上用户上传的内容多了之后，需要对内容进行管理，内容管理最典型的做法是打标签。在真实世界里，标签无穷无尽，仅是人类所认识的花就有25万种，鸟至少有1万种，所以要想精细地给用户上传的内容打好标签非常难。

微软给不同物体所打标签的精细度也不一样，比如对于鸟和狗这两种类别的标签就做得很细，因为美国人和中国人都喜欢这些小动物。在识别车辆的时候，我们做了一个实验，从一个二手车网站上把所有车型照片全部下载下来让机器识别，识别率高达99%。而我们对于飞机、食物和医疗相关的标签打得还不够完整，尤其是在医疗方面，因为没有特别优质的大数据来支持。

在视频领域，微软的机器可以识别出1000种以上的物体和500种以上的动作，用户在搜索视频时就可以通过这些标签找到相关视频。识别人体动作有什么用处呢？现在有很多健身App，假如嵌入机器识别功能，就可以判断出用户的动作做得是否标准、规范，并为其打分。

有了视频和图像，用户总要进行消费，也就是编辑或改动。我们为图片做了各种滤镜，做图片的滤镜不新鲜，国内很多公司也在做这个事情。微软研究院计算机视觉组做的一个研究很酷，叫风格转换（Style Transfer），机器可以分析任何一张图片的风格，并将这种风格应用到另外一张图片中去，如图1-1所示。

图1-1

机器还可以对视频中的内容进行分割与重新组合，比如将视频A中的人物抽取出来，放到视频B的场景里去。当然，视频的分割比较费时间，因为机器需要对动态画面进行计算与处理。

梅涛微软亚洲研究院资深研究员，国际模式识别学会会士，美国计算机协会杰出科学家，中国科技大学和中山大学兼职教授和博士生导师。主要研究兴趣为多媒体分析、计算机视觉和机器学习，研究成果十余次被成功转化到微软的产品和服务中。