一种基于多尺度特征的学术论文子图检测方法技术

技术编号：41199905 阅读：2 留言：0更新日期：2024-05-07 22:26

本发明专利技术涉及学术论文子图检测领域，具体涉及一种基于多尺度特征的学术论文子图检测方法，包括以下步骤：读取原始图像，获取所述原始图像的局部特征信息和全局特征信息，所述局部特征信息为卷积神经网络提取的具有多个尺度层级的局部特征信息，所述全局特征信息为可变Patch的swin Transformer提取的具有多个尺度层级的全局特征信息；基于所述局部特征信息和全局特征信息，利用自适应聚集分发网络获取多尺度特征融合信息；基于所述多尺度特征融合信息，获取子图定位信息和子图类别信息；本发明专利技术提供方法能够同时捕获论文图像的不同尺度的局部和全局依赖关系，高效融合多尺度特征，提高泛化能力，实现学术论文子图的高精度检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及学术论文子图检测领域，具体涉及一种基于多尺度特征的学术论文子图检测方法。

技术介绍

1、学术图像是学术成果的直观展现，对于展示研究内容、实验思路和结果至关重要。它们不仅有助于读者理解科学思想，还是验证实验成果的重要手段。然而，学术不端行为日益增多，特别是学术图像造假问题，已在国际学术界引起广泛关注。开展大规模、批量化的学术图像检测，可以辅助研判学术不端行为，形成科研诚信监管机制，促进国内外良好的科研氛围建设。

2、学术图像造假的检测首要步骤是从论文中提取子图，以便进行篡改和剽窃分析。检测技术分为基于传统方法和基于深度学习的方法。

3、传统的学术论文子图检测方法高度依赖手工特征，阈值策略等人工设计规则，会存在过度分割、分割不足的问题，并且难以应对学术论文图像多样排版问题，泛化性差，导致子图检测精度极低。

4、现有的基于深度学习方法中的基于卷积神经网络的特征提取方法只能提取局部特征，提取的特征有限，难以挖掘类间微小差异。而学术图像像素比较单一，对比不鲜明，且类内差异大，类间差异小，所以需要深度挖掘类间微小差异。因此这种特征提取方法易导致分类错误。

5、现有的基于深度学习方法中的基于卷积神经网络和transformer的特征提取方法可以提取局部细节和长距离依赖关系，可以在一定程度上弥补卷积神经网络只能提取局部细节带来的不足，但是提取的特征尺度单一。学术论文子图尺度变化多样，而此方法并未同时考虑不同尺度的局部细节和长距离依赖关系，难以挖掘不同尺度类间微小差异，易导致后续分类错误。

6、现有的基于深度学习方法中的基于经典的自底向上和自顶向下的特征融合方法只能完全融合相邻层特征，对于其他层特征信息，只能间接“递归”得到，由于网络中路径和间接交互方式过多，存在跨层信息交换和信息丢失等缺点。学术论文子图尺度差异很大，上述特征融合方式会导致特定尺度的子图过拟合，从而导致子图检测精度不高。并且基于搜索图的方法搜索成本很高，开销大。

技术实现思路

1、鉴于上述问题，本专利技术提供了一种基于多尺度特征的学术论文子图检测方法，解决了现有技术中学术论文子图检测时提取的特征有限、难以挖掘不同尺度类间微小差异、多尺度特征融合时信息丢失的问题。

2、本专利技术提供了一种基于多尺度特征的学术论文子图检测方法，包括以下步骤：

3、步骤s1、特征提取模块读取原始图像，获取所述原始图像的局部特征信息和全局特征信息，所述局部特征信息为卷积神经网络提取的具有多个尺度层级的局部特征信息，所述全局特征信息为可变patch的swin transformer提取的具有多个尺度层级的全局特征信息；

4、步骤s2、特征融合模块基于所述局部特征信息和全局特征信息，利用自适应聚集分发网络获取多尺度特征融合信息；

5、步骤s3、特征处理模块基于所述多尺度特征融合信息，获取子图定位信息和子图类别信息。

6、优选地，所述卷积神经网络提取的具有多个尺度层级的局部特征信息的获取方式为：卷积神经网络对输入的原始图像经过多次卷积处理、多次空间和通道注意力模块处理和特征金字塔模块处理，获取所述具有多个尺度层级的局部特征信息；

7、所述可变patch的swin transformer提取的具有多个尺度层级的全局特征信息的获取方式为：输入原始图像经过可变patch划分、多次线性编码处理、多次swintransformer处理和多次patch合并处理，获取所述具有多个尺度层级的全局特征信息。

8、优选地，所述卷积神经网络对输入的原始图像经过多次卷积处理、多次空间和通道注意力模块处理和特征金字塔模块处理，获取所述具有多个尺度层级的局部特征信息具体包括：

9、步骤s1-1-1、对输入图像进行卷积处理；

10、步骤s1-1-2、将步骤s1-1-1的输出进行空间和通道注意力模块处理，获取当前尺度层级的输出信息；

11、步骤s1-1-3、重复步骤s1-1-1、步骤s1-1-2，获取对应多个尺度层级的输出信息；

12、步骤s1-1-4、基于所述多个尺度层级的输出信息，获取多个尺度层级的局部特征信息。

13、优选地，所述步骤s1-1-1具体包括：将输入图像进行卷积核大小k＝3，步长s＝2，填充边距p＝1的卷积处理，实现下采样操作；

14、所述步骤s1-1-2具体包括：将步骤s1-1-1的输出进行基于cspgam注意力模块处理，所述cspgam处理步骤包括：将输入特征图输入卷积核大小k＝1，步长s＝1，填充边距p＝0的卷积，将特征图的通道数减半；之后通过拆分函数将特征图的通道分为两部分，其中一部分输入n个bottlegam模块，将所有bottlegam模块的输出与所述特征图的通道的另一部分拼接，然后进行卷积核大小k＝1，步长s＝1，填充边距p＝0的卷积处理，将特征图的通道数再次减半，作为当前尺度层级的输出信息；

15、所述步骤s1-1-3具体包括：继续重复步骤s1-1-1、步骤s1-1-2中的操作三次，在重复过程中，步骤s1-1-2中的bottlegam模块数量n分别设置为3、6、6、3，获取多个尺度层级的输出信息；

16、所述步骤s1-1-4具体包括：将前三个尺度层级的输出信息分别作为前三个尺度层级的局部特征信息，将第四个尺度层级的输出信息进行3次卷积核5*5大小的最大池化处理，并将每次最大池化处理的结果拼接，作为第四个尺度层级的局部特征信息。

17、优选地，所述输入原始图像经过可变patch划分、多次线性编码处理、多次swintransformer处理和多次patch合并处理，获取所述具有多个尺度层级的全局特征信息具体包括：

18、步骤s1-2-1、确定patch的预测参数，包括：将图像预划分为多个patch，对所有patch的位置和尺寸进行预测，预测方法如下：

19、

20、

21、

22、

23、δx，δy＝tanh(woffest*fp(a))

24、sw，sh＝relu(tanh(wscale*fp(a)+bscale))

25、其中，(x1，y1)、(x2，y2)分别为patch矩形区域的左上角和右下角坐标，(xct，yct)为每个patch的中心坐标，(δx，δy)为patch中心坐标的偏移量，(sh，sw)为patch的高度和宽度，fp()是一个线性层，a是输入的特征图，tanh()、relu()为激活函数，woffest为偏移权重，wscale为缩放权重，bscale为缩放偏置；

26、步骤s1-2-2、基于所述patch的预测参数，获取划分后的多个patch，包括：基于patch的位置和尺寸信息，获取patch所在的矩形区域坐标信息，在每个所述patch所在的矩形区域均匀取样m*m个点，通过双线性插值计算当前点的特征；

...

【技术保护点】

1.一种基于多尺度特征的学术论文子图检测方法，包括以下步骤：

2.根据权利要求1所述的基于多尺度特征的学术论文子图检测方法，其特征在于：

3.根据权利要求2所述的基于多尺度特征的学术论文子图检测方法，其特征在于，所述卷积神经网络对输入的原始图像经过多次卷积处理、多次空间和通道注意力模块处理和特征金字塔模块处理，获取所述具有多个尺度层级的局部特征信息具体包括：

4.根据权利要求3所述的基于多尺度特征的学术论文子图检测方法，其特征在于：

5.根据权利要求2所述的基于多尺度特征的学术论文子图检测方法，其特征在于，所述输入原始图像经过可变Patch划分、多次线性编码处理、多次swin Transformer处理和多次Patch合并处理，获取所述具有多个尺度层级的全局特征信息具体包括：

6.根据权利要求1所述的基于多尺度特征的学术论文子图检测方法，其特征在于，步骤S2具体包括：

7.根据权利要求6所述的基于多尺度特征的学术论文子图检测方法，其特征在于：

8.根据权利要求6所述的基于多尺度特征的学术论文子图检

9.根据权利要求1所述的基于多尺度特征的学术论文子图检测方法，其特征在于，步骤S3具体包括：

...

【技术特征摘要】

1.一种基于多尺度特征的学术论文子图检测方法，包括以下步骤：

2.根据权利要求1所述的基于多尺度特征的学术论文子图检测方法，其特征在于：

4.根据权利要求3所述的基于多尺度特征的学术论文子图检测方法，其特征在于：

5.根据权利要求2所述的基于多尺度特征的学术论文子图检测方法，其特征在于，所述输入原始图像经过可变patch划分、多次线性编码处理、多次sw...

【专利技术属性】
技术研发人员：王帅，郭海林，唐文忠，屈晓磊，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人