上QQ阅读APP看书,第一时间看更新
第1章 双阶段检测
1.5 R-FCN
在本节中,先验知识包括:
❏ Faster R-CNN(1.4节);
❏ DeepLab(6.4节);
❏ FCN(6.1节)。
位移不变性是CNN的一个重要特征,该特征是CNN在图像分类任务上取得非常好的效果的原因。所谓位移不变性,是指图像中物体的位置对图像的分类没有影响。但是在目标检测的场景中,我们需要知道检测物体的具体位置,这时候需要网络对物体的位置非常敏感,即需要网络具有“位移可变性”。R-FCN[15]的提出便是用来解决分类任务中位移不变性和检测任务中位移可变性之间的矛盾的。
[15] 参见Jifeng Dai、Yi Li、Kaiming He等人的论文“R-FCN: Object Detection via Region-based Fully Convolutional Networks”。
同时,R-FCN分析了Faster R-CNN 存在的性能瓶颈,即ROI池化之后使用Fast R-CNN 对RPN提取的候选区域进行分类和位置精校。在R-FCN中,ROI池化之后便不存在可学习的参数,从而将Faster R-CNN的推理速度提高了2.5~20倍。
在R-FCN提出之前,深度学习在分割任务上也取得了突破性的进展,其中最具代表性的算法之一便是FCN[16]。FCN是一个完全由卷积操作构成的神经网络,它预测的分割图和输入图像保持了位移敏感性。虽然FCN得到的分割图相对于原图进行了降采样,但是我们仍旧可以使用这个降采样的分割图来进行目标检测。
[16] 参见Jonathan Long、Evan Shelhamer、Trevor Darrell的论文“Fully Convolutional Networks for Semantic Segmentation”。