上QQ阅读APP看书,第一时间看更新
1.2.1 背景与现状
数据增强是一种基于有限的数据产生更多的等价数据,以达到扩展训练集的样本数量,提升网络模型泛化能力的技术手段,能够在一定程度上解决样本数量不足和样本类别分布不均等问题。数据增强通常可分为有监督的数据增强和无监督的数据增强。有监督的数据增强是指按照预设的变换规则,在已有数据的基础上进行的增强操作;而无监督的数据增强,则可以自主学习数据的增强方式。
目前的无监督数据增强方法主要包括两类:一类是通过学习已有数据的分布特征,随机生成同分布数据的增强方法,如对抗生成网络(Generative Adversarial Networks,GAN);另一类通过搜索算法寻找数据增强操作的最佳选项和执行顺序,以使这样训练出的网络模型能获得最佳的验证准确率,如自动数据增强(AutoAugment),该方法在CIFAR-10、简化的CIFAR-10、CIFAR-100、SVHN、简化的SVHN及原始ImageNet等数据集上取得了当时最高的预测准确率。