基于深度卷积神经网络的生物医学混合图像检测

　　摘要：[目的/意义]通过混合图像检测对生物医学学术文献里的图像进行分类，为进一步的生物医学图像研究提供支撑。[方法/过程]利用深度卷积神经网络的经典模型VGG16网络构建了混合图像检测模型，并对VGG16网络的第1个卷积层的卷积核做了修改，对比了3种不同大小的卷积核的检测效果。[结果/结论]通过对ImageCLEF2016混合图像检测测试数据集的检测，使用5×5卷积核的VGG16模型的检测正确率达到97.08%，准确率、召回率和F1值指标均优于对比网络模型的检测结果。通过对首层提取的特征图进行可视化发现，在VGG16网络中5×5的卷积核相比3×3的卷积核可以提取更多的边缘特征，更适合混合图像检测任务。

　　关键词：混合图像检测；生物医学图像；深度卷积神经网络；VGG16；ImageCLEF2016

　　生物医学图像在生物医学文献中具有重要的地位，往往被视作“解释现象的图例”“证明观点的证据”，是临床医生和医学研究人员重点关注的信息资源[1]。随着基于内容的图像检索和自动标注技术的发展，为医学圖像的查找利用提供了便利的条件，同时研究发现通过对检索结果的自动分类和过滤可以有效提升图像检索和标注的准确率[2]。然而，在生物医学文献中存在着大量的混合图像（包含2个或2个以上子图的图像，如图1所示），混合图像包含多个子图，而且子图内容差异较大，现有算法无法准确提取其内容特征，这对基于内容的图像检索和自动标注等基于图像内容的研究造成了巨大的阻碍[3]。这就需要我们在将生物医学图像存入图像数据库时对混合图像进行检测，并做进一步的分割，以便后续的研究利用。

　　深度卷积神经网络是当代人工智能领域的基础，不仅在机器视觉领域得到了广泛应用，而且在文本分类、语音识别等领域中也得到越来越多的青睐。同时，不断被加深与优化的网络结构使得深度卷积神经网络在图像分类、图像识别、语义分割、目标定位等任务的处理性能得到不断提升。本文依据ImageCross-LanguageEvaluationForum（ImageCLEF）会议提出的混合图像检测任务来对生物医学文献中的混合图像进行检测，利用深度卷积神经网络方法实现混合图像与单图图像的自动分类，为进一步的学术视觉资源理解研究提供支撑。

　　1相关工作概述

　　生物医学混合图像检测研究是一个关于生物医学图像空间排版组合模式识别及分类的问题，其研究受到机器视觉、深度学习等研究领域的深刻影响。针对这一检测任务，可将之前的研究归为两类：基于传统特征工程的检测和基于深度神经网络的检测方法。医学图像组合分析最初主要采用边缘检测、形态学滤波以及构建形状模型和模板匹配等方法[4]。这类分析方法通常针对特定任务而设计，被称为手工定制式设计方法。如TaschwerM等[5]分别计算了图像的像素密度均值、像素密度方差和一维霍夫曼变换3种特征，利用这3种特征来训练支持向量机分类器，实现了76.9%的正确率。WangX[6]使用连通域分析和峰值区域检测两种方法来提取图像特征，将决策树作为分类器，实现了82.82%的正确率。PelkaO等[7]用SIFT关键点和边界轮廓线来表征图像内容特征，同时结合图像标题文本信息，使用随机森林分类器，实现了85.4%的正确率。近年来，随着深度神经网络的快速发展，及其在图像分类和内容识别方面均取得的突破性研究，将深度神经网络应用于混合图像检测已引起了广大研究者的兴趣。随着深度学习在图像分类任务的准确率不断提升，在2016年ImageCLEF混合图像检测任务比赛中，研究人员纷纷使用深度学习方法来检测混合图像，使得检测正确率提升到了90%以上。YuY等[8]使用LSTM和GRU网络构建的模型，检测正确率达到了96.24%。ShengLL等[9]使用在ImageNet数据集上训练好的AlexNet、VGG16和VGG19模型，并用混合图像检测训练数据进行微调来提取图像特征，然后分别使用Softmax和支持向量机来对图像进行分类，其中VGG16模型正确率达到了96.61%，VGG19模型正确率达到了96.76%，通过对3个网络的分类结果进行融合得到了96.93%的正确率。

　　深度学习以数据驱动方式分析任务，能自动地从特定问题的大规模数据集中学习相关模型特征和数据特性。与针对特定问题而显式地手工设计模型不同，深度学习方法可直接从数据样本中隐式地自动学习医学图像特征，其学习过程本质上是一个优化问题的求解过程。通过学习，模型从训练数据中选择正确的特征，使分类器在测试新数据时做出正确决策。因此，深度学习在医学图像分析中起着至关重要的作用，已经成为最有前途的研究领域。

　　2生物医学混合图像内容组合分析

　　多子图混合图像在科学出版中非常常见，使用混合图像不仅能说明复杂的现象，而且可以提供对比说明[10]。在PubmedCentral数据库中有40%～60%的论文插图是混合图像[11]。生物医学混合图像往往由统计图表、实验照片、模型图、影像图和显微图等组成，根据混合图像各子图是否属于同一类型图，可将混合图像组合方式分为多模态组合和单一模态组合。

　　2.1多模态组合

　　多模态组合是指混合图像中的子图属于不同的图类型，如图2所示。多模态组合的混合图像各子图之间有明显的分割线或空白区域，并且各子图纹理信息差异较大，传统手工特征分类模型可以较为简单地识别出这一特性。针对这一类型的混合图像可以通过纹理信息来判断图像是否是混合图像。

　　2.2单一模态组合

　　单一模态组合是指混合图像中的子图属于相同的图类型，如图3所示。在生物医学文献中，这种组合模式經常用来对比说明文献研究对象不同区域的差异或同一区域的发展变化信息。单一模态组合图像其各子图之间内容相似，颜色、纹理、形状等特征无法对其进行有效检测，只能利用边缘信息来辨识各子图的空间关系。

　　3生物医学混合图像检测模型

　　3.1深度卷积神经网络

　　为更好提取图像空间结构信息，1989年LecumY等[12]提出了一种卷积神经网络（ConvolutionalNeuralNetworks，CNN）。CNN可接受2D或3D图像块作为输入，适于捕获视觉的局部信息。CNN通常由多个交替出现的卷积层和池化（Pooling）层，以及末端的全连接层构成多层次人工神经网络，其基本结构如图4所示。其中，卷积层具有固定的输入大小，感受局部区域上下文信息，具有权值共享和下采样的特点，同时具有一定程度的位移、尺度和形变不变性，大大减少了模型的自由度。池化层针对卷积特征图进行特征降维，通常与卷积层级联出现。全连接层对池化特征图进行矢量变换，将输入的多维矩阵拉伸为一维的特征向量。输出层是一个分类器，计算图像的类别概率，将图像归类为概率最大的类别。

　　ILSVRC[13]比赛（ImageNetLargeScaleVisualRecognitionCompetition，ILSVRC）极大促进了CNN的发展，不断有新发明的CNN模型刷新ImageNet成绩。从2012的AlexNet[14]，到2013年的ZFNet[15]，2014年的VGGNet[16]、GoogLeNet[17]，再到2015年的ResNet[18]，网络层数不断增加，模型能力也不断增强。AlexNet第一次展现了深度学习的强大能力，ZFNet是可视化理解卷积神经网络的结果，VGGNet表明网络深度能显著提高深度学习的效果，GoogLeNet第一次打破了卷积层池化层堆叠的模式，ResNet首次成功训练了深度达到152层的神经网络。ShengLL等[9]使用VGGNet在混合图像检测任务上取得了最优的成绩，本文同样选用16层的VGGNet模型来检测混合图像。

　　3.2基于VGG16的混合图像检测模型结构

　　VGG16网络是由牛津大学计算机视觉小组提出的深度卷积神经网络模型，其中包含13层卷积层（ConvolutionalLayer）和3层全连接层（FullConnectedLayer），所有卷积层均使用了3×3的卷积核，并把卷积层进行组合作为卷积序列处理。每层卷积层进行卷积后都采用修正线性单元（ReLU）作为激活函数，每一块卷积计算结束后，进行最大值池化，聚合特征信息[19]。基于VGG16的混合图像检测模型结构如图5所示，其输入为224×224×3的彩色图像，输出为每个类别的概率。

　　由于首层卷积层与输入图像最近，后续操作都依赖于其输出，其参数也最为敏感。现有的图像分类研究倾向于使用更小的卷积核来表征图像特征，实现更多次的非线性变换，提升网络的特征学习能力。这一做法是因为在自然图像中含有较为丰富的纹理信息，运用小尺寸卷积核可以提取到更多的细节变化，可以更好地表征眼睛、头发等纹理特征。但是混合图像检测更注重图像的空间位置信息，而且在生物医学混合图像中存在大量的统计类图表，图表内只包含少量线条和文字，大部分区域为空白背景。当使用小尺寸卷积核时，会导致大部分提取到的特征为空，使得传递给第2层卷积层的信息较少，信息丢失过快，不能很好地获得混合图像的关键特征信息。而使用较大尺寸的卷积核可以为后续操作传递更多的信息，因此我们对VGG16网络的首层卷积层进行了修改，使用了更大尺寸的卷积核。

　　此外，为了提升模型的鲁棒性，本文在全连接层添加了Dropout[20]。同时由于ImageCLEF2016数据集相比ImageNet数据集图像数量小了很多，我们采用了更小的Dropout值进行补偿，将Dropout值设为0.5。设置更小的Dropout值可以让更多的节点权值暂时不工作。这一机制降低了神经元之间的相互适应，一个神经元不能依赖另一个神经元。由于选取了神经元的一个随机子集，这样模型会强制学习更好的鲁棒的特征。

　　4实验及结果分析

　　4.1数据处理

　　数据集采用ImageCLEF2016医学任务提供的标准数据集，该数据集中包含混合图像和单图图像两类数据（如表1所示），其中训练集包含12350张混合图像和8650张单图图像，测试集包含3456张测试图像。为了更好地防止网络的过拟合，对训练数据集进行了增强处理（如图6所示），分别对每张训练图像进行了内容缩放、垂直反转、水平反转和移动处理，将训练数据集扩大到原始训练数据集的15倍。

　　4.2實验过程

　　实验环境可以概括为Ubuntu16.04+Python3.6，训练过程使用了显卡加速。在实验过程中，使用谷歌开源的深度学习框架Tensorflow1.8构建VGG16网络并对网络进行训练。最小批次设为64，学习速率方法采用了指数衰减法（初始值为0.001每训练500步衰减5%），迭代次数设为60000次。

　　4.3结果分析

　　ImageCLEF2016医学任务将测试正确率被用来作为评价模型好坏的唯一指标，然而正确率并非评价分类性能的最佳指标，本文增加了准确率、召回率和F1值指标，其计算公式如下：

　　正确率（Accuracy）=正确分类的图像数测试集图像数×100%（1）

　　准确率（Precision）=正确预测的混合图像数所有预测为混合图像数（2）

　　召回率（Recall）=正确预测的混合图像数测试集中混合图像数（3）

　　F1=2×Precision×RecallPrecision+Recall（4）

　　同时，选取ShengLL等[9]提出的方法作为对比模型，该模型是目前已知正确率最高的模型。模型检测结果如表2所示。

　　实验结果显示，5×5的卷积核取得了最好的结果，其正确率为97.08%，为目前已知的最高值。准确率为0.964，召回率为0.9797，F1值为0.9718，各项指标均超过了其他模型，说明的卷积核更适合生物医学混合图像检测。

　　4.4首层卷积特征可视化

　　深度学习的黑箱机制使我们很难对分类过程中发生的事情进行推断。在模型训练完成后，可以通过对输入到该模型的图像所生成的特征进行可视化分析，来理解深度卷积神经网络的具体操作，以及反向解释每一层的特征激活函数[21]。本文以图7（a）作为输入图像，通过显示首层卷积操作后的特征图以观察3×3的卷积核与5×5的卷积核对输入图像进行卷积操作的差异，并解释5×5卷积核检测结果为何优于3×3的卷积核检测结果。

　　从图7（b、c）中可以看出，训练好的模型正在寻找各种各样的模式。从第一层卷积层的特征图中，能明显地看到统计表的轮廓特征。通过对比图7（b）和图7（c），可以发现图7（c）包含更多黑色的特征图，说明5×5卷积核提取了更多的边缘特征，白色背景部位的激活度基本很少。本文通过可视化发现5×5的卷积核相比3×3的卷积核提取到的特征忽视了背景，而是把关键的边缘特征给提取出来了，更加聚焦于分类的核心特征。

　　4.5错误分类案例分析

　　检查模型的输入和输出可以帮助我们理解模型分类过程，特别是被错误分类的图像，可以用来检查模型并解释什么样的图像容易使模型出错。本文提出的模型预测的分类结果中有101张图片分类错误（错分案例见图8），其中有65张是将混合图像错分为单一图像，36张为将单一图像错分为混合图像。65张错分的混合图像中有54张为单一组合混合图像，占比为83.08%，单一组合混合图像各子图纹理特征相似，容易被误判。其中错分为混合图像的单一图像多为统计类图表、流程图和网页或软件截图，这些图中内容之间有明显的边界或空白区域。统计类图表类型多变，图表旁边往往伴有被框起来的图表内容说明信息，这一组合方式容易被误判为混合图像。流程图内部各模块之间有明显的边界，各模块使用连线连接，在卷积运算过程中连线信息并不容易被捕捉到，这就造成了模块之间的孤立，从而被错判为混合图像。网页或软件截图往往是对多个页面的截图或一个页面内有不同的区域内容，这一特性造成了模型误判。

　　5总结

　　科技文献中包含了大量的未被开发利用的图像数据资源，这些图像不仅数量庞大，还有文本描述信息，使其可以被自动地语义索引。学术图像利用的一个巨大的阻碍就在于混合图像的存在，多个子图被整合在一幅图片中，只被赋予了一个标题。针对学术图像的研究工作而言，对混合图像进行检测并做进一步分割是一个必要的预处理工作。

　　针对混合图像检测问题，我们使用深度卷积神经网络构建了一种检测模型，可以自动区分单一图像和混合图像。分别对比了3×3、5×5和7×73种大小的卷积核，结果显示5×5的卷积核的检测效果要优于其他卷积核，正确率达到97.08%。通过对首层提取的特征图进行可视化发现，5×5的卷积核相比3×3的卷积核可以提取更多的边缘特征。在分类结果中，单一组合混合图像、统计类图像、流程图和网页或软件截图容易被错分。虽然该模型是针对医学图像开发的，但是可以通过微调训练迁移到其他科技图像检测任务中。在以后的研究中，我们将继续针对混合图像进行研究，对其进行分割，并为各子图生成标题，为混合图像的检索利用提供支撑。