【技术实现步骤摘要】
一种基于maskrcnn骨架的自注意力试卷版面分析方法
[0001]本专利技术涉及计算机视觉中的实例分割
,具体涉及一种基于maskrcnn骨架的自注意力试卷版面分析方法。
技术介绍
[0002]近年来,电子化试卷因其存储与重构的便利性被广泛应用于教学场景。如何高效地获得电子试卷中每道题目的范围并提取有效信息,是教学相关应用开发的重要前提。电子化试卷多以图片格式存储,缺乏结构化特征,难以直接对其进行分析、统计,而版面分析技术可以对图片进行区域划分,将图片格式的试卷进一步分为插图区域、文字区域等等,使得试卷图片得以被结构化地存储、分析、统计。
[0003]该领域传统方法过度地依赖人工的参与,如人工裁切试卷题目的不同区域,或人工预先设定模板以针对不同版面设计让像素点聚类成特定区域的阈值等。这些方法极度依赖人工,时间成本和经济成本太高。随着机器学习和深度学习的发展,出现了手工设计版面特征以训练机器学习分类器、利用多种模态信息的神经网络模型等等一系列方法。但是这些方法中大多采用过于简单的神经网络模型,往往无法适应其他复杂的版面情况。少部分方法利用了大规模预训练模型并在下游任务上进行微调,但是预训练模型在预训练过程中需要较细粒度的文本标注信息,标注成本和处理数据的成本过高。
[0004]考虑到当前方法的局限性和不足,目前亟待提出一种标注成本低、人工参与少的试卷版面分析方法。
技术实现思路
[0005]本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于maskrcnn骨架的自注意力 ...
【技术保护点】
【技术特征摘要】
1.一种基于maskrcnn骨架的自注意力试卷版面分析方法,其特征在于,所述试卷版面分析方法包括以下步骤:S1、将尺寸为H
×
W
×
3的RGB试卷图片输入ResNet
‑
50,得到5张不同尺寸的特征图,分别记作:C1,C2,C3,C4,C5,5张特征图的尺寸依次为其中,H表示试卷图片的高,W表示试卷图片的宽;S2、使用FPN算法对四张特征图C2,C3,C4,C5进行融合,得到通道数相同、尺寸不同的特征图,其中,FPN算法过程为:首先自上而下对C5,C4,C3,C2进行最近邻上采样得到的特征图M5,M4,M3,M2,然后对C5,C4,C3,C2中的每一个特征图进行一个1
×
1卷积,接着和上采样得到的特征图M5,M4,M3,M2对应进行对应加和得到D5,D4,D3,D2,最后,对加和后的特征图D5,D4,D3,D2进行3
×
3的卷积最终得到融合特征图P5,P4,P3,P2;S3、对上采样得到的特征图M5进行步长为2的最大池化得到融合特征图P6,该融合特征图P6用于获得后续的候选协议框;S4、分别以融合特征图P6,P5,P4,P3,P2中每一个像素点为中心生成3种不同长度、长宽比分别为1:1,1:2,2:1共9个先验区域,使用区域推荐网络RPN对上述先验区域进行二分类和边框回归,并将属于目标的置信度小于γ的、尺寸过小以至于不能完整包含目标的或尺寸过大以至于超出特征图范围的先验区域过滤掉,其中,γ为用于过滤低置信度先验区域的预定义置信度阈值,接着,采用非极大值抑制过滤重叠的先验区域获得最终的候选区域ROI,其中,每一个矩形候选区域都有四个顶点,ROI∈R
N
×4,R表示实数域,N是每张特征图的候选框个数;S5、对候选区域ROI进行ROIAlign候选区域对齐,获得大小一致的若干特征图;S6、使用多层神经网络对步骤S5得到的特征图进行边界识别和掩膜预测,其中,边界识别包括区域分类和边界回归;S7、将步骤S4得到的候选区域ROI输入位置编码层Position_Embeddings,获取每个候选区域的位置嵌入特征Position_Embeddings(ROI),其中,Position_Embeddings(ROI)∈R
N
×
D
;S8、将区域特征向量P与位置嵌入特征Position_Embeddings(ROI)相加得到融合向量G,G=P+Position_Embeddings(ROI),对融合向量G进行层归一化操作,得到特征向量F,F=Layer_Norm(G),其中,G,F∈R
N
×
D
,Layer_Norm()表示层归一化操作函数;S9、将步骤S8得到的特征向量F输入注意力层得到注意力特征A;S10、将注意力特征A和原始的区域特征向量P相加并进行层归一化操作,得到最终的综合特征向量P
′
,其中P
′
∈R
N
×
D
;S11、将综合特征向量P
′
分别输入两个独立的全连接层:第一全连接层FC1和第二全连接层FC2,分别用于分类和边框回归,得到最终的分类和回归结果。2.根据权利要求...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。