1.3 本书的主要内容
1.3.1 研究动机
经过对现有工作的充分调研,发现本领域依然存在以下需要解决的问题。
(1)缺乏针对特征提取策略对场景分类性能影响的评估。尽管新的场景分类方法不断涌现,但是在场景分类方法的评估上缺乏针对性。事实上,特征描述符对场景分类性能的影响很大,因此特征提取策略的研究一直是本领域的重点。然而,现有工作大多是对场景分类方法的整体性能进行评估,且实验对比大多是在不同数据集上进行(一般不对外开放代码)的,缺乏特征提取策略对场景分类性能影响的统一评估,不利于特征提取策略的进一步研究与发展。
(2)缺乏监督方法对场景分类性能影响的评估。按照监督方法的不同,对基于深度学习方法的评估应具有针对性,不同的监督方法对场景分类性能的影响很大。缺乏不同的监督方法对场景分类性能影响的评估,不利于场景分类方法选择合适的监督方法。
(3)缺乏大规模的场景分类数据集,限制了深度学习算法在场景分类任务上的进一步发展。通过针对特征提取策略对场景分类性能影响的评估,发现深度特征的分类表现远优于其他低层特征,基于深度特征的场景分类方法常常能够取得较高的分类精度。然而,此类方法需要用大量的标注样本进行监督训练,相比于自然图像百万量级的数据集,高分辨率遥感图像场景分类领域缺乏大规模的数据集(最大的NWPU-RESISC45数据集只包含3.15万幅场景图像),限制了深度学习特征在高分辨率遥感图像场景分类中的应用效果;同样也缺少大量且高质量的标注样本。在深度学习领域中,基于全监督的方法通常是表现最好的,但需要用大量的标注样本训练深层网络。虽然基于半监督和弱监督的方法需要较少的标注样本,但训练中无标注或弱标注样本的大量使用,没有显著增加判别信息。因此,拥有大量且高质量的标注样本对基于深度学习的场景分类方法具有重要意义,而这类样本正是目前深度学习领域缺少的部分。并且,因为人工标注样本需要很高的人工和时间成本,所以自动扩充现有标注样本规模是一种合理的选择。
1.3.2 研究内容
针对1.3.1节列举的问题,本书将特征提取策略和监督方法对高分辨率遥感图像场景分类的影响进行了定性及定量评估,提出了一种标注样本自动扩充方法和基于熵最大化生成式对抗网络(Entropy Maximized Generative Adversarial Network,EMGAN)的场景分类模型来减少对标注样本的需求,相关内容大致总结如下。
(1)针对第一个问题,将特征提取策略对高分辨率遥感图像场景分类的影响进行了评估。首先,对现有的高分辨率遥感图像场景分类方法的特征提取策略进行了分类总结,并从理论上对各类特征提取策略对场景分类性能的影响进行了定性评估;其次,在三个高分辨率遥感图像数据集(包含两个场景类别数不低于30类的大规模数据集)上进行了实验对比,通过多个评价指标将特征提取策略对高分辨率遥感图像场景分类性能的影响进行了定量评估;最后,将所有特征提取策略在三个数据集上的实验结果进行了综合分析,对数据集的复杂度进行了评估与分析。通过对现有特征提取策略的评估,确定了后续场景分类算法的研究动机,即基于深度学习特征的场景分类方法。
(2)针对第二个问题,将不同监督方法对高分辨率遥感图像场景分类的影响进行了评估。首先,按照监督方法的不同,对基于深度学习的流行方法进行了逐类分析,并从理论角度对监督方法进行了定性评估;其次,对不同监督方法下的流行方法在领域内的三个公开数据集上进行了定量实验评估;最后,总结了基于不同监督方法的特点,并根据不同算法的特点给出了对应的适用场景。通过对监督方法的评估,得出拥有大量高质量的标注样本是至关重要的结论。
(3)针对第三个问题,提出了一种自动扩充标注样本的方法,并将其融入高分辨率遥感图像场景分类模型中。首先,采用SinGAN用于伪样本生成并对其进行改进,SinGAN具有金字塔结构,可以利用多个GAN的级联从单幅图像中学习到目标样本的分布,从而生成具有高质量的伪图像,保证了图像的真实性;其次,提出一种新的伪样本评价指标对生成样本进行扩充和筛选,该指标不仅从图像内部对其进行多样性及真实性的评价,还从模型训练的角度对其进行筛选,从“内”“外”两个角度筛选出能提升模型性能的伪图像;最后,分别利用筛选的伪样本、真实本对场景分类网络进行预训练和微调。此外,本文首次将Focal Loss应用到场景分类领域中,进一步提高了场景分类的准确性。
(4)针对第三个问题,构建了一种基于EMGAN的半监督高分辨率遥感图像场景分类模型,该模型对标注样本的需求较少。相比于传统GAN,EMGAN的生成器包含“伪”图像生成网络(Fake Images Generating Net,FIGN)和信息熵最大化网络(Entropy Maximized Net,EMN)两个模型,为了适合场景分类任务,判别器的输出被设计为多类别输出。在模型的训练过程中,训练集包含标注图像和无标注图像,生成器的FIGN负责生成与真实图像尽可能相似的“伪”图像,EMN负责增加生成图像的信息熵,以增加生成图像的多样性,判别器负责区分出生成图像和真实图像,并将标注图像预测至对应类别,生成器和判别器二者交替训练,直至生成器学习出真实图像分布,此时训练完成。EMGAN模型能够在标注样本有限的情况下,使用大量的无标注样本得到具有更强判别力的图像特征,从而提升最终的分类精度,进而融合EMGAN和CNN的高分辨率遥感图像场景分类方法。首先,选取使用大量自然图像预训练过的CNN,并对EMGAN、CNN分别进行训练和微调;其次,分别提取基于两个模型的卷积层特征和全连接层特征;再次,对上一步提取的卷积层特征分别进行IFK(Improved Fisher Kernel,改进的Fisher核)编码,得到两个一维的编码特征;最后,将两个模型的全连接层特征和编码特征进行融合并用SVM进行分类。
本书研究内容的主要创新如下。
(1)提出了一种新的伪样本定量筛选指标,该指标可以从模型训练的角度直接评价生成样本的真实性和多样性,从多组生成的样本中选择高质量样本;所提定量指标可用于评估从同一真实样本中生成的任何伪样本。
(2)利用改进后的SinGAN生成了多组高质量样本,在很大程度上解决了深度学习领域中样本不足的问题;同时首次将Focal Loss 用于遥感图像场景分类中,有效地提高了场景分类网络的性能。
(3)将多输出的判别器引入EMGAN中,既适合场景分类的多类别任务,也能够使用大量的无标注样本与少量的标注样本进行联合训练,解决了领域内缺乏大规模场景分类数据集的问题,进而也提升了判别器的判别能力。
(4)设计了EMN,并将其添加在EMGAN的生成器中,通过增加生成图像的信息熵来增大生成图像的多样性,解决了传统GAN的模型崩溃问题(生成图像的多样性不足),根据生成器与判别器对抗博弈的关系,也增加了判别器的分类精度。
(5)提出了融合EMGAN和CNN的高分辨率遥感图像场景分类方法,使用少量的标注图像对预训练过的CNN进行微调(与训练EMGAN的标注图像相同),然后提取特征,通过与EMGAN特征的融合,引入大量自然图像的先验知识,有效地解决了标注样本不足的问题。