1.5 面临的问题和研究展望
近些年,越来越多的CAD系统被提出来,但由于医学图像本身内容结构复杂、医学征象标准库建立困难等原因,医学图像CAD系统研究中依然面临着挑战。
(1)有效标注的样本量太小。在对文章中提到的CAD系统所用算法作统计的同时,我们也对各CAD系统训练所用的训练图像样本进行统计,发现样本图像数量超过5 000的仅3个,仅使用几十或一百左右样本量的不算少。然而,根据经验法则,训练时用的数据越多,系统性能就越好[129]。对于非公开的基准库,由于后面的研究不能使用,所以这里没有列出。表1.1是目前常见的一些公开样本库列表。在CAD研究领域,有标注的医学图像样本库是训练分类器所必需的,特别是深度学习算法,该算法需要大规模统一标准的样本。由于征象样本图像生成成本高,目前征象库的规模都是百张到千张左右,各库的产生标准不尽相同,征象覆盖也不全面。对于训练鲁棒的视觉特征分类模型来说,样本不充足则更不能满足深度学习算法的应用条件。
(2)系统的性能不好评估。公用的基准库是公平、正确地对比衡量CAD系统性能的基础条件之一。目前医学类的公共征象库有美国肺部图像数据库联盟的LIDC/IDRI库,日本放射技术学会的JSRT库,弗雷德里克国家实验室的RIDER、ELCAP公用库,南佛罗里达州大学的DDSM,Mini-MIAS乳腺征象库、NCIA、TCIA Collection库、promise12前列腺库,国内有LISS库[193]。由于标注量和征象种类的限制,这些库只能满足某些CAD系统的评估,而且大部分现有的CAD系统研究文献中的CAD性能评估也不是比这些公共库好[194]。有些研究是基于上面所提到的公共库上做的,但一般只选用了库中的一部分图像,也没有说明使用了哪些图像或选择使用的标准,故实验环境没法重现。大部分文章中的系统性能评估使用的是自己的基准库,不同基准库图像的产生设备和电气条件不同,库的规模和征象类别的比例等也不同。除此之外,也没有一个通用可行的性能评估流程标准。因此,正确地衡量一个系统的性能是非常困难的。
(3)CAD系统应用于临床使用有很多困难。首先由于身体器官的医学图像构成复杂。如胸部器官多,肺内部结构显示多态化,医学图像上各种组织灰度相近。乳腺的图像相对简单,图像上没有其他器官的干扰,目前有少量临床可用的商用系统。一个实验室的CAD研究实验往往是针对某一类征象,而临床应用要检测所有的征象,甚至是几种疾病同时伴发的征象组合。由于医院的商用医学图像系统的接口不对外开放,开发的CAD系统难与医院医生所用的系统无缝结合。医院的日常医疗工作任务重,医生没有单独的时间对系统试用评估。目前在医学图像领域开展的研究较多,但临床应用难度较大。
(4)CAD系统的应用效果还不理想。尽管有的系统试验结果显示其性能非常好,但这只是小样本量、特定案例下的测试,一旦试验对象变成普通随机病例(如临床的医学图像),情况会复杂得多[195],性能就会不令人满意。
目前商用的系统有IQQA-Chest、CyclopusCAD® mammo、SecondLook和ImageChecker等。尽管已取得了一些成果,但CAD系统的临床检测和诊断的正确率还偏低,不少临床研究显示,现有的CAD方法或系统的应用效果并不明显[114,196-198]。Lee等[199]对IQQA-Chest系统对观察者性能的影响进行了评估,结论是此系统也许会对提高观察者性能有帮助。在讨论部分指出,病例的选择也许是结节太明显了,因而得到的观察者灵敏度和特异度比以前的试验结果明显高。秦菊等[47]对商用的CAD系统IQQA®Chest的临床应用效果进行了对比试验。讨论中指出,用5位医生独立阅片和参考CAD阅片,两种方式之间差异无统计学意义(P>0.05),即CAD系统对胸片的诊断结果无明显影响。CAD系统的平均阅片时间为80s/片,略高于医生未使用CAD系统的平均阅片时间72s/片。Cascio等[132]对两个商用的乳腺CAD系统的诊断性能进行了对比分析。CyclopusCAD® mammo 和SecondLook®的总体灵敏度分别为83.1%和66.2%。但文中在讨论部分指出实验中没有和放射科医生的诊断性能进行比较,数据库的生成仅限于肿块直径为12mm±5mm,微钙化病变簇直径为11mm±5mm的案例。Murakami[200]等对SecondLook®做了回顾性分析,结论显示CAD系统有很高的敏感度。但文中提出没有评估CAD对工作流程的影响,不能确定是不是能提高放射医生的工作效率。Taylor等[123]在对R2 ImageChecker CAD系统在乳腺筛查中的作用评估时也讨论,文中的几个测试研究都没有证据证明CAD在临床应用中是有效的。