一种基于maskrcnn骨架的自注意力试卷版面分析方法技术

技术编号:36465771 阅读:24 留言:0更新日期:2023-01-25 23:06
本发明专利技术公开一种基于maskrcnn骨架的自注意力试卷版面分析方法,用于对试卷的内容按照版面布局进行分析和提取。步骤如下:将图片数据的向量表示输入Mask R

【技术实现步骤摘要】
一种基于maskrcnn骨架的自注意力试卷版面分析方法


[0001]本专利技术涉及计算机视觉中的实例分割
,具体涉及一种基于maskrcnn骨架的自注意力试卷版面分析方法。

技术介绍

[0002]近年来,电子化试卷因其存储与重构的便利性被广泛应用于教学场景。如何高效地获得电子试卷中每道题目的范围并提取有效信息,是教学相关应用开发的重要前提。电子化试卷多以图片格式存储,缺乏结构化特征,难以直接对其进行分析、统计,而版面分析技术可以对图片进行区域划分,将图片格式的试卷进一步分为插图区域、文字区域等等,使得试卷图片得以被结构化地存储、分析、统计。
[0003]该领域传统方法过度地依赖人工的参与,如人工裁切试卷题目的不同区域,或人工预先设定模板以针对不同版面设计让像素点聚类成特定区域的阈值等。这些方法极度依赖人工,时间成本和经济成本太高。随着机器学习和深度学习的发展,出现了手工设计版面特征以训练机器学习分类器、利用多种模态信息的神经网络模型等等一系列方法。但是这些方法中大多采用过于简单的神经网络模型,往往无法适应其他复杂的版面情况。少部分方法利用了大规模预训练模型并在下游任务上进行微调,但是预训练模型在预训练过程中需要较细粒度的文本标注信息,标注成本和处理数据的成本过高。
[0004]考虑到当前方法的局限性和不足,目前亟待提出一种标注成本低、人工参与少的试卷版面分析方法。

技术实现思路

[0005]本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于maskrcnn骨架的自注意力试卷版面分析方法,该方法先通过maskrcnn骨架得到ROI候选区域和区域特征向量,然后利用注意力机制获得融合了版面位置信息的综合特征向量,最后将该综合特征向量输入分类器,得到最终的分类和边框回归结果。
[0006]本专利技术的目的可以通过采取如下技术方案达到:
[0007]一种基于maskrcnn骨架的自注意力试卷版面分析方法,所述试卷版面分析方法包括以下步骤:
[0008]S1、将尺寸为H
×
W
×
3的RGB试卷图片输入ResNet

50,得到5张不同尺寸的特征图,分别记作:C1,C2,C3,C4,C5,5张特征图的尺寸依次为苴中,H表示试卷图片的高,W表示试卷图片的宽;
[0009]S2、使用FPN算法对四张特征图C2,C3,C4,C5进行融合,得到通道数相同、尺寸不同的特征图,其中,FPN算法过程为:首先自上而下对C5,C4,C3,C2进行最近邻上采样得到的特征图M5,M4,M3,M2,然后对C5,C4,C3,C2中的每一个特征图进行一个1
×
1卷积,接着和上采样得到的特征图M5,M4,M3,M2对应进行对应加和得到D5,D4,D3,D2,最后,对加和后的特征图D5,D4,D3,D2进行3
×
3的卷积最终得到融合特征图P5,P4,P3,P2;
[0010]S3、对上采样得到的特征图M5进行步长为2的最大池化得到融合特征图P6,该融合特征图P6用于获得后续的候选协议框;
[0011]S4、分别以融合特征图P6,P5,P4,P3,P2中每一个像素点为中心生成3种不同长度、长宽比分别为1∶1,1∶2,2∶1共9个先验区域,使用区域推荐网络RPN对上述先验区域进行二分类和边框回归,并将属于目标的置信度小于γ的、尺寸过小以至于不能完整包含目标的或尺寸过大以至于超出特征图范围的先验区域过滤掉,其中,γ为用于过滤低置信度先验区域的预定义置信度阈值,接着,采用非极大值抑制过滤重叠的先验区域获得最终的候选区域ROI,其中,每一个矩形候选区域都有四个顶点,ROI∈R
N
×4,R表示实数域,N是每张特征图的候选框个数;
[0012]S5、对候选区域ROI进行ROI Align候选区域对齐,获得大小一致的若干特征图;
[0013]S6、使用多层神经网络对步骤S5得到的特征图进行边界识别和掩膜预测,其中,边界识别包括区域分类和边界回归;
[0014]S7、将步骤S4得到的候选区域ROI输入位置编码层Position_Embeddings,获取每个候选区域的位置嵌入特征Position_Embeddings(ROI),其中,Position_Embeddings(ROI)∈R
N
×
D

[0015]S8、将区域特征向量P与位置嵌入特征Position_Embeddings(ROI)相加得到融合向量G,G=P+Position_Embeddings(ROI),对融合向量G进行层归一化操作,得到特征向量F,F=Layer_Norm(G),其中,G,F∈R
N
×
D
,Layer_Norm()表示层归一化操作函数;
[0016]S9、将步骤S8得到的特征向量F输入注意力层得到注意力特征A;
[0017]S10、将注意力特征A和原始的区域特征向量P相加并进行层归一化操作,得到最终的综合特征向量P

,其中P

∈R
N
×
D

[0018]S11、将综合特征向量P

分别输入两个独立的全连接层:第一全连接层FC1和第二全连接层FC2,分别用于分类和边框回归,得到最终的分类和回归结果。
[0019]进一步地,所述ResNet

50是由49个卷积层和1个池化层顺序拼接的残差网络,是一种图片特征提取器,可以从原始图片中提取5种不同大小的特征图。特别地,ResNet

50采用残差连接的方式,解决了随着网络深度的增加带来的梯度消失问题,使得网络的深度不再是限制最终性能的约束。
[0020]进一步地,所述步骤S2在使用FPN算法对四张特征图C2,C3,C4,C5进行融合过程中,对C5,C4,C3,C2中的每一个特征图进行一个1
×
1卷积,将输出通道全部设置为相同的256通道。FPN算法,即特征金字塔网络算法,是一种自顶向下的特征融合方法,能够进行多尺度的目标检测,获得多个特征图。FPN算法使得最终的预测可以在多个不同尺度的融合特征图上进行,实现检测精度的最大化。
[0021]进一步地,所述步骤S4中使用区域推荐网络RPN对上述先验区域进行目标或背景的二分类。RPN基于之前步骤得到的融合特征图,对应将原图划分为若干个区域,原图的每个区域的中心由这个特征图上的一个像素点坐标表示(假设特征图的尺寸大小为m
×
n则将原图划分为m
×
n个区域)。通过锚点机制,可以在每个像素点对应原图的区域生成9个可能存在目标的候选框。接着,RPN判断每个像素点对应的9个区域是不是包含目标,进行二分类,过滤掉上述所有不符合要求的先验区域。
[0022]进一步地,所述步骤S4中非极大值抑制具体过程如下:将所有先验区域属于目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于maskrcnn骨架的自注意力试卷版面分析方法,其特征在于,所述试卷版面分析方法包括以下步骤:S1、将尺寸为H
×
W
×
3的RGB试卷图片输入ResNet

50,得到5张不同尺寸的特征图,分别记作:C1,C2,C3,C4,C5,5张特征图的尺寸依次为其中,H表示试卷图片的高,W表示试卷图片的宽;S2、使用FPN算法对四张特征图C2,C3,C4,C5进行融合,得到通道数相同、尺寸不同的特征图,其中,FPN算法过程为:首先自上而下对C5,C4,C3,C2进行最近邻上采样得到的特征图M5,M4,M3,M2,然后对C5,C4,C3,C2中的每一个特征图进行一个1
×
1卷积,接着和上采样得到的特征图M5,M4,M3,M2对应进行对应加和得到D5,D4,D3,D2,最后,对加和后的特征图D5,D4,D3,D2进行3
×
3的卷积最终得到融合特征图P5,P4,P3,P2;S3、对上采样得到的特征图M5进行步长为2的最大池化得到融合特征图P6,该融合特征图P6用于获得后续的候选协议框;S4、分别以融合特征图P6,P5,P4,P3,P2中每一个像素点为中心生成3种不同长度、长宽比分别为1:1,1:2,2:1共9个先验区域,使用区域推荐网络RPN对上述先验区域进行二分类和边框回归,并将属于目标的置信度小于γ的、尺寸过小以至于不能完整包含目标的或尺寸过大以至于超出特征图范围的先验区域过滤掉,其中,γ为用于过滤低置信度先验区域的预定义置信度阈值,接着,采用非极大值抑制过滤重叠的先验区域获得最终的候选区域ROI,其中,每一个矩形候选区域都有四个顶点,ROI∈R
N
×4,R表示实数域,N是每张特征图的候选框个数;S5、对候选区域ROI进行ROIAlign候选区域对齐,获得大小一致的若干特征图;S6、使用多层神经网络对步骤S5得到的特征图进行边界识别和掩膜预测,其中,边界识别包括区域分类和边界回归;S7、将步骤S4得到的候选区域ROI输入位置编码层Position_Embeddings,获取每个候选区域的位置嵌入特征Position_Embeddings(ROI),其中,Position_Embeddings(ROI)∈R
N
×
D
;S8、将区域特征向量P与位置嵌入特征Position_Embeddings(ROI)相加得到融合向量G,G=P+Position_Embeddings(ROI),对融合向量G进行层归一化操作,得到特征向量F,F=Layer_Norm(G),其中,G,F∈R
N
×
D
,Layer_Norm()表示层归一化操作函数;S9、将步骤S8得到的特征向量F输入注意力层得到注意力特征A;S10、将注意力特征A和原始的区域特征向量P相加并进行层归一化操作,得到最终的综合特征向量P

,其中P

∈R
N
×
D
;S11、将综合特征向量P

分别输入两个独立的全连接层:第一全连接层FC1和第二全连接层FC2,分别用于分类和边框回归,得到最终的分类和回归结果。2.根据权利要求...

【专利技术属性】
技术研发人员:马千里冯华文钟子涵
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1