3.1 数据集
3.1.1 分类数据集MNIST[1]
MNIST的网址为http://yann.lecun.com/exdb/mnist/,发布于1998年。如果说LeNet是深度学习的“Hello World”,那么,MNIST就是深度学习数据集中的“Hello World”。MNIST是一个手写数字的数据集,来自美国国家标准与技术研究所(National Institute of Standards and Technology,NIST)。其样本来自250个不同人的手写数字,其中人员50%是高中学生,50%是人口普查局的工作人员;数字包括0~9共10种,图片大小是28×28;训练数据集包含60000个样本,测试数据集包含10000个样本。
该数据集由Chris Burges和Corinna Cortes搜集,他们在票据等图像中裁剪出数字,将其放在20×20的框中,并保持了长宽比率,然后将其放在28×28的背景中,数字的重心在图的正中间。
注意:如果没有特殊说明,本书对图像大小和卷积核大小均采用M×N的描述方式,它们的单位都是图像像素数。
原始的20×20的数字是二值图,在经过插值后被放在28×28的背景下,成了灰度图。LeNet5使用的输入大小是32×32,远大于数字本身尺度的最大值,也就是20×20。这是因为,对于分类来说,潜在的重要笔触信息需要在最高层的检测子的感受野中心,而LeNet5经历了两个5×5的卷积,并且没有补零填充操作,最后得到的卷积层的特征图大小10×10正好能够覆盖原图正中间大小为20×20的区域。
3.1.2 ImageNet[2]
ImageNet的网址为http://www.image-net.org/,发布于2009年。
ImageNet是李飞飞实验室主导的一个项目,目标是构建一个用于计算机视觉研究的大型数据库,其关键词从WordNet中选取。完整的ImageNet数据集有1400多万张图片,涵盖2万多个类别的标注与超过百万的边界框的标注,每个类别大概有500~1000张图片,标注采用了亚马逊的众包平台,这个平台之后被用于构建各种数据集。
李飞飞实验室在2009年CVPR会议上正式发布了ImageNet,此后从2010年到2017年共举办了8届Large Scale Visual Recognition Challenge,即为人熟知的ILSVRC比赛,包括图像分类、目标检测、目标定位等子竞赛单元。
在最开始的时候,ImageNet是一个连经费都申请不到的整理数据的项目,为很多专注于算法研究的学术人员所不耻,但科技公司的竞赛热情及数据集史无前例的多样性,让学术人员从数据集本身看到了算法新的出路,从而推动了计算机视觉任务的发展。
由于类别多,ImageNet不可能像MNIST那样在整理过程中将所有图片简单地分成互不相干的10类,而是采用了WordNet中树形结构的组织方式。例如,从哺乳动物关键词开始整理,然后不断细分为有胎盘哺乳动物,肉食动物,犬科动物,狗,工作中的狗,哈士奇。
ImageNet图像分类任务竞赛使用的是ImageNet完整数据集的一个子类,其包括1000类,其中大部分是动物。在深度学习任务中,经常会使用ImageNet预训练的模型,不过大部分人未必了解ImageNet的构建过程和历史,有兴趣的读者可以去详细了解。
3.1.3 分类数据集GHIM-10k[3]
GHIM-10k的网址为http://www.ci.gxnu.edu.cn/cbir/dataset.aspx,发布于2014年。
GHIM-10k数据集是一个图像检索数据集,包含20个类别的自然图像,分别是烟花、建筑、长城、汽车、蜻蜓、雪山、花、白杨、草原、海滩、直升机、蝴蝶、故宫、日落、摩托车、帆船、轮船、鸡、甲虫和马。各类别拥有较好的多样性,而类别之间也有比较好的区分度。
该数据集共10000幅图像,每个类别包含500幅JPEG格式的大小为400×300或300×400的图像。这个数据集的优点如下。
(1)数据集规模不大,获取也很容易。
(2)全部都是真实图片,来自用户相机拍摄,而且图片清晰度足够高。
(3)数据集多样性适中,包含了20类自然场景的图像,比较丰富。
(4)图像尺寸统一,为300×400或400×300,符合大多数深度学习图像任务,尤其是图像分类任务的输入分辨率要求。
(5)数据集各类图像数量均匀,实验时可随机但均匀地选取数据集。可将数据集按照9∶1的比率进行划分,这样训练集中包含20类,每类有450幅图像;测试集中包含20类,每类有50幅图像。
这个数据集的缺点如下。
(1)类别之间的差异不同,如蜻蜓和甲壳虫类的差异远小于其与鸡的差异,且有很多类别有一定的重叠性。
(2)与MNIST、CIFAR10/100不同,其图像不只包含一个主体,主体也不一定在图像的正中间。
3.1.4 分类数据集Place20[4]
Place20的网址为http://places2.csail.mit.edu/download.html,发布于2018年。
Place365是一个大规模的场景分类数据集,标准的Place365共365个类别,数据量超过180万个。本书后续实验中,我们从中选择了常见的室内/室外场景共20类,组成了Place20分类数据集,其中,各类别分别为beach、bridge、gas_station、highway、playground、ski_slope、stadium-soccer、street、swimming_pool-outdoor、bar、basketball_court-indoor、bedroom、bookstore、bus_interior、dining_hall、hospital_room、kitchen、shower、stage-indoor和supermarket。选择这个数据集基于以下几个因素。
(1)数据集规模较大,实验中,训练集包含100000幅图像,每类包含5000幅图像;测试集包含2000幅图像,每类包含100幅图像。
(2)数据集难度较大,相对于GHIM-10k,Place365中的类别是复杂的自然场景,每幅图像的目标并不是单一的,需要结合全局的上下文信息进行理解,难度远高于GHIM-10k。
3.1.5 肖像分割数据集[5]
本书所采用的肖像分割数据集来自文献[5],该数据集包含2000幅图像,训练集包含1700幅,测试集包含300幅,数据都来自Flickr的肖像图,图像原始分辨率为600×800。其中,Matting的标注图使用Closed-form MatTing和KNN Matting方法生成。由于肖像分割数据集商业价值较高,因此,公开的大规模数据集很少,而这个数据集是其中发布较早、使用范围较广的一个数据集,它有以下几个特点。
(1)图像分辨率统一,拍摄清晰,质量很高。
(2)所有图像均为上半身的肖像图,人像区域的长度和宽度均至少占据图像长度和宽度的2/3。
(3)人物的姿态变化很小,都为小角度的正面图,背景较为简单。
3.1.6 视频分类数据集UCF101[6]
UCF101的网址为https://www.crcv.ucf.edu/research/data-sets/human-actions/ucf101/,发布于2012年。
该数据集包括13320个短视频(来自YouTube),共101个类别,其中主要包含5类动作:人与物体互动、人体动作、人与人互动、乐器演奏、体育运动。每类由25个人来做规定的动作,每个人做4~7组,视频的大小为320×240。
UCF101是目前动作类别数、样本数最多的数据集之一,主要包括在自然环境下101种人类动作,如跳、拍手、打羽毛球等,也正因为类别众多,加上UCF101在动作的采集上具有非常大的多样性,如相机运行、外观变化、姿态变化、物体比例变化、背景变化等,所以它成了当前难度较高的动作类数据集之一。
3.1.7 目标跟踪数据集ImageNet VIDEO
ImageNet VIDEO的网址为http://bvisionweb1.cs.unc.edu/ILSVRC2017/download-videos-1p39.php,来自ILSVRC2015。
该数据集包括用于训练的3862个视频、用于验证的555个视频和用于测试的937个视频。
该数据集中有30类目标,分别是airplane、antelope、bear、bicycle、bird、bus、car、cattle、dog、domestic_cat、elephant、fox、giant_panda、hamster、horse、lion、lizard、monkey、motorcycle、rabbit、red_panda、sheep、snake、squirrel、tiger、train、turtle、watercraft、whale和zebra,这些都来自ImageNet2015目标检测任务。这些类别的选择考虑了运动类型、视频背景干扰、平均目标数目等,每一帧都标注了完整的结果。