深度学习之图像目标检测与识别方法
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

党的二十大报告指出“发展海洋经济,保护海洋生态环境,加快建设海洋强国。”

海洋是地球宜居的命脉,是维系人类生存与高质量发展的战略要地。认识海洋、经略海洋,建设海洋强国,特别需要依靠科技创新来引领发展。2024年政府工作报告提出了开展“人工智能+”行动。各行业在人工智能引领下加速转型升级,为新质生产力的培育和发展提供新的动能。

目标检测技术在海洋资源勘探、海洋环境保护、水下安全保障、水下考古研究、军事应用、科学研究等领域具有极其重要的意义,是推动海洋科学研究和保护、促进海洋资源开发利用、保障水下安全的重要技术手段。目标检测技术在水下应用的不足主要包括光照问题、摄像机抖动、复杂背景干扰、目标类型多样化、目标运动速度较快、背景光源变化、目标物体的颜色和分布变化、摄像机抖动造成的背景区域变化、目标遮挡、运动目标检测和识别的运算量大等。

针对目标检测技术的不足,研究人员将深度学习引入图像目标检测技术,但依旧存在数据集的规模不大和质量不准、水下图像质量不佳、光线影响导致模型识别精度下降等问题。

本书主要针对水下目标检测的场景,对常用的基于深度学习的目标检测技术进行了改进,使它们更加适合水下目标检测场景。本书系统地总结了作者十多年的科研实践成果,主要内容如下:

第0章为绪论,主要介绍深度学习在水下图像目标检测领域的研究背景、意义,以及国内外的研究现状。

第1章是基于UNet的图像去雾算法。本章提出了一种结合注意力机制的多尺度特征融合图像去雾算法,该算法利用类似于UNet的编码器-解码器结构来直接学习、输入自适应的去雾模型,具有较好的去雾效果。

第2章是基于特征融合GAN的图像增强算法。本章主要利用GAN的优势设计了基于特征融合 GAN 的水下图像增强算法,通过生成器和判别器之间的对抗训练,获得鲁棒性较高的水下图像增强模型。

第3章是基于ESRGAN的图像超分辨率重建算法。本章主要阐述基于单帧图像超分辨率(SISR)算法ESRGAN,并对其生成器结构进行了改进,设计了重建质量更高的水下图像超分辨算法。

第4章是基于嵌套UNet的图像分割算法。本章提出了一种结合自注意力机制的基于嵌套UNet的裂缝图像分割模型Att_Nested_UNet,该模型沿用UNet模型的设计思想,使用将多层UNet嵌套在一起的UNet++模型,并在每层的UNet模型中融入了注意力机制,能够较好地提高裂缝图像分割的准确性,消除噪声,保留细节。

第5章是基于对抗迁移学习的水下大坝裂缝图像分割算法。本章主要通过多级对抗迁移学习来实现水下大坝裂缝特征的无监督学习领域自适应,能有效地将提取到的地面裂缝图像特征应用于水下大坝裂缝图像分割,并保证检测精度。

第6章是基于改进Faster-RCNN的海洋生物检测算法。本章使用ResNet替换Faster-RCNN的VGG特征提取网络,并且在ResNet后添加BiFPN,形成了ResNet-BiFPN结构,提高了网络模型特征提取能力和多尺度特征融合能力;使用EIoU代替Faster-RCNN中的IoU,通过添加中心度权重来降低训练数据中冗余边界框占比,改善边界框质量;使用K-means++算法生成更适合的锚定框。本章对Faster-RCNN的改进,取得了良好的效果。

第7章是基于YOLOv4的目标检测算法。本章提出了一种在YOLOv4上使用PredMix、卷积块注意力模块和DetPANet的目标检测算法。在YOLOv4的特征提取网络CSPDarknet53中添加CBAM,可以提高算法的特征提取能力;DetPANet在路径聚合网络(Path Aggregation Network,PANet)中添加了同层跳跃连接结构和跨层跳跃连接结构,可以增强算法的多尺度特征融合能力;PredMix(Prediction-Mix)可以增强算法的鲁棒性。

第8章是基于RetinaNet的密集目标检测算法。本章综合考虑了目标检测精度与检测速度,以单阶段目标检测算法RetinaNet为基础方法,针对遥感图像中密集目标的场景提出相应的改进,以提高对密集目标的检测准确率。

第9章是基于LSTM网络的视频图像目标实时检测算法。本章主要针对传统图像目标检测算法在检测视频图像目标时存在的问题,提出了一种基于LSTM网络的视频图像目标检测算法,通过改进记忆引导网络并引入交叉检测框架,充分利用了视频连续帧中的时序信息,提升了视频图像目标检测的精度和速度。

第10章是基于改进YOLOv4的嵌入式变电站仪表检测算法。本章主要针对嵌入式平台、移动边缘计算等性能受限的设备,在模型设计阶段和推理阶段同时实现轻量化网络,对YOLOv4进行了改进,并利用TensorRT对改进后的YOLOv4进行了重构和优化,将改进后的YOLOv4部署到嵌入式平台,满足了变电站仪表的实时检测需求。

本书内容涉及众多项目的研究成果,特别是国家重点研发计划(2022YFB4703400)、国家自然科学基金(62476080)、江苏省自然科学基金(BK20231186)、常州市科技支撑计划(社会发展)(CE20235053)、湖北省智慧水电技术创新中心开放研究基金项目(1523020038)、江苏省输配电装备技术重点实验室项目(2023JSSPD01)等。

史朋飞负责编写与图像目标检测与识别相关部分的内容,约10万字;范新南负责编写与图像增强相关部分的内容,约5万字;辛元雪负责编写与图像目标定位相关部分的内容,约4万字;万刚负责编写与水下大坝裂缝检测相关部分的内容,约4万字;王庆颖负责编写与遥感图像检测相关部分的内容,约3万字。河海大学的博士研究生周仲凯、王啸天、万瑾、杨旭东,硕士研究生汪杰、薛瑞阳、韩松、鹿亮、严炜、杨鑫、曹鹏飞、方小龙、朱凤婷、周润康、黄伟盛等参加了本书的部分章节的校对工作,谨向他们表示衷心的感谢!

由于作者的理论水平有限,以及研究工作的局限性,特别是深度学习处于快速的发展中,本书中难免存在一些不足,恳请广大读者批评指正。

作者

2024年8月