基于多尺度特征融合网络的学术内容目标检测方法及系统技术方案

技术编号:37169025 阅读:20 留言:0更新日期:2023-04-20 22:41
本发明专利技术公开了一种基于多尺度特征融合网络的学术内容目标检测方法及系统,该方法包括:利用特征提取网络提取输入图像的多尺度特征图,利用PAAFPN网络对特征图进行融合,得到多尺度的融合特征图;利用RPN网络生成提议框,利用训练完成的二分类器和边界框回归器对提议框进行分类和回归,得到预测框;将预测框投影到每张融合特征图中,提取预测框区域的特征图,分别进行RoIAlign,对获取的相同尺度特征图进行融合,得到最终的特征图;进行分类和回归,得到输入图像预测框部分的所属类别及位置坐标。本发明专利技术解决了现有目标检测方案目标检测不准确的问题以及目标框和预测框不一致的问题,提高了目标检测精度和检测速度。提高了目标检测精度和检测速度。提高了目标检测精度和检测速度。

【技术实现步骤摘要】
基于多尺度特征融合网络的学术内容目标检测方法及系统


[0001]本专利技术涉及学术检测及计算机视觉
,尤其涉及一种基于多尺度特征融合网络的学术内容目标检测方法及系统。

技术介绍

[0002]本部分的陈述只是提供了与本公开相关的
技术介绍
,并不必然构成现有技术。
[0003]学术内容检测的相关研究一直受到广泛的关注。学术内容检测包括多种种类的检测任务,如学术内容中的插图查重、表格检测、公式标注等,其作为衡量学术内容是否为原创的重要指标之一,在很大程度上能够避免学术不端、学术造假、论文抄写等现象,学术内容检测不仅可以多样化原创作者的维权方法,还可以健全学术内容审核机制,对侵犯知识产权、违反学术道德的行为加以防范和监督。
[0004]学术内容检测的主要任务为标识学术内容图像中感兴趣区域的位置以及标注感兴趣区域所属的类别,也即目标检测。目前可将目标检测方法划分为传统的目标检测算法和基于深度学习的目标检测算法。
[0005]传统的目标检测算法主要基于人工手动提取图像特征而实现,但是,随着数据量的不断增大、所需识别效果和运行速度的不断提升以及实际应用所需精度的不断提高,近年来,基于传统的目标检测算法已逐渐被新兴的基于深度学习的目标检测算法所替代。
[0006]目前,现有技术中包括大量基于深度学习的目标检测算法。RCNN采用选择性搜索算法代替滑动窗口进行提议框选取,即通过利用CNN替代传统特征提取方法,这虽然在一定程度上解决了传统方法带来的计算量大、复杂度高等缺陷,但这一方案自身却存在重复计算、资源浪费、速度慢等缺点;SPPNet改进RCNN,在图像预处理阶段去除修改图像大小的操作,通过空间金字塔输出固定大小的特征向量,减少计算量,但是,SPPNet仍同RCNN一样将SVM作为分类器,因此SPPNet存在分阶段训练的缺陷;Fast R

CNN提出ROI Pooling并在回归分类阶段用Softmax替换SVM,Fast R

CNN能够大大减少计算时间,而且CNN模块与Softmax可以同时进行训练,解决SPPNet以及RCNN模块之间无法同时训练的缺陷,但Fast R

CNN采用选择性搜索算法提取提议框耗时较长;Faster R

CNN是在Fast R

CNN的基础上增加了RPN,RPN的提出极大提升了检测框的生成速度,克服了Fast R

CNN生成候选框耗时的问题,但是,RPN存在无法检测小目标的问题,为此,现有技术在Fast R

CNN的基础上提出了特征金字塔,以此提高对小目标检测的准确率,然而,这一方案底层特征严重损失、利用率低、底层特征无法影响高层特征并且从顶层信息逐层向下传递计算量比较大,最终影响目标检测的准确性。
[0007]因此,如何提供一种针对学术内容的图像尺度不同、特征融合不充分的基于多尺度特征融合网络的学术内容目标检测方法是当前亟需解决的问题。

技术实现思路

[0008]为解决上述现有技术的不足,本专利技术提供了一种基于多尺度特征融合网络的学术
内容目标检测方法及系统,利用PAAFPN解决现有针对学术内容目标检测方案中由于图像尺度不同、特征融合不充分而导致的目标检测不准确的问题,同时,利用DIoU Loss解决目标框和预测框不一致的问题,提高目标检测精度和检测速度,具备更强的鲁棒性。
[0009]第一方面,本公开提供了一种基于多尺度特征融合网络的学术内容目标检测方法,包括以下步骤:
[0010]获取包含学术内容的图像,利用特征提取网络提取输入图像的多尺度特征图,利用PAAFPN网络对特征图进行融合,得到多尺度的融合特征图;
[0011]利用RPN网络对多尺度的融合特征图分别生成提议框,利用训练完成的二分类器和边界框回归器对提议框进行分类和回归,得到多尺度融合特征图的预测框;训练过程中,损失函数包括分类损失和回归损失,分类损失采用CrossEntropyLoss,回归损失采用DIoU Loss;
[0012]将预测框投影到每张融合特征图中,提取预测框区域的特征图,分别进行RoIAlign,获取相同尺度的特征图,通过融合得到最终的特征图;
[0013]基于最终的特征图分别进行分类和回归,得到输入图像预测框部分的所属类别及位置坐标。
[0014]进一步的技术方案,所述获取包含学术内容的图像,利用特征提取网络提取输入图像的多尺度特征图,利用PAAFPN网络对特征图进行融合,得到多尺度的融合特征图,包括:
[0015]获取包含学术内容的图像,将图像输入特征提取网络,利用特征提取网络由底向上提取图像不同尺度的特征图;
[0016]对多尺度的特征图由顶向下依次进行上采样,在上采样的过程中与获取的相同尺度的特征图进行横向连接即对应像素相加,获得多张中间特征图;
[0017]在PAAFPN网络中新增自底向上的特征融合层,将获得的多张中间特征图再由底向上进行下采样,在下采样的过程中与获取的相同尺度的中间特征图进行横向连接,获得多张不同尺度的融合特征图。
[0018]进一步的技术方案,所述利用RPN网络对多尺度的融合特征图分别生成提议框,利用训练完成的二分类器和边界框回归器对提议框进行分类和回归,包括:
[0019]利用RPN网络,在PAAFPN网络生成的每张融合特征图的每个像素点上,生成不同尺寸和宽高比的多个提议框;
[0020]利用训练完成的二分类器和边界框回归器对每张融合特征图中每个像素点上生成的提议框分别进行分类和回归。
[0021]进一步的技术方案,所述二分类器采用CrossEntropy Loss进行二分类,判断提议框中的目标内容为前景还是背景;
[0022]所述CrossEntropy Loss的计算公式为:
[0023][0024]其中,y
i
表示样本i的标签,正类为1,负类为0;p
i
表示样本i预测为正类的概率,1

p
i
表示样本i预测为负类的概率;N为样本数量。
[0025]进一步的技术方案,所述边界框回归器采用DIoU Loss进行回归,得到提议框的四个位置坐标;
[0026]所述DIoU Loss的计算公式为:
[0027][0028]其中,c表示包围目标框与预测框的最小框的对角线长度,b和b
gt
分别表示预测框和目标框的中心点,ρ表示预测框与目标框之间的欧氏距离。
[0029]进一步的技术方案,还包括:
[0030]根据获取提议框为前景的分数进行排序,选择每张融合特征图的前K个提议框;
[0031]针对每张融合特征图,对前K个提议框统一进行非极大值抑制,去除冗余提议框,得到预测多尺度融合特征图的预测框。
[0032]进一步的技术方案,所述基于最终的特征图分别进行分类和回归,得到输本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多尺度特征融合网络的学术内容目标检测方法,其特征是,包括以下步骤:获取包含学术内容的图像,利用特征提取网络提取输入图像的多尺度特征图,利用PAAFPN网络对特征图进行融合,得到多尺度的融合特征图;利用RPN网络对多尺度的融合特征图分别生成提议框,利用训练完成的二分类器和边界框回归器对提议框进行分类和回归,得到多尺度融合特征图的预测框;训练过程中,损失函数包括分类损失和回归损失,分类损失采用CrossEntropyLoss,回归损失采用DIoU Loss;将预测框投影到每张融合特征图中,提取预测框区域的特征图,分别进行RoIAlign,获取相同尺度的特征图,通过融合得到最终的特征图;基于最终的特征图分别进行分类和回归,得到输入图像预测框部分的所属类别及位置坐标。2.如权利要求1所述的基于多尺度特征融合网络的学术内容目标检测方法,其特征是,所述获取包含学术内容的图像,利用特征提取网络提取输入图像的多尺度特征图,利用PAAFPN网络对特征图进行融合,得到多尺度的融合特征图,包括:获取包含学术内容的图像,将图像输入特征提取网络,利用特征提取网络由底向上提取图像不同尺度的特征图;对多尺度的特征图由顶向下依次进行上采样,在上采样的过程中与获取的相同尺度的特征图进行横向连接即对应像素相加,获得多张中间特征图;在PAAFPN网络中新增自底向上的特征融合层,将获得的多张中间特征图再由底向上进行下采样,在下采样的过程中与获取的相同尺度的中间特征图进行横向连接,获得多张不同尺度的融合特征图。3.如权利要求1所述的基于多尺度特征融合网络的学术内容目标检测方法,其特征是,所述利用RPN网络对多尺度的融合特征图分别生成提议框,利用训练完成的二分类器和边界框回归器对提议框进行分类和回归,包括:利用RPN网络,在PAAFPN网络生成的每张融合特征图的每个像素点上,生成不同尺寸和宽高比的多个提议框;利用训练完成的二分类器和边界框回归器对每张融合特征图中每个像素点上生成的提议框分别进行分类和回归。4.如权利要求3所述的基于多尺度特征融合网络的学术内容目标检测方法,其特征是,所述二分类器采用CrossEntropy Loss进行二分类,判断提议框中的目标内容为前景还是背景;所述CrossEntropy Loss的计算公式为:其中,y
i
表示样本i的标签,正类为1,负类为0;p
i
表示样本i预测为正类的概率,1

p
i
表示样本i预测为负类的概率;N为样本数量。5.如权利要求3所述的基于多尺度特征融合网络的学术内...

【专利技术属性】
技术研发人员:邵增珍董树霞韩帅李壮壮张旭
申请(专利权)人:山东女子学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1