版面分析方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37705372 阅读:8 留言:0更新日期:2023-06-01 23:53
本发明专利技术涉及图像识别技术领域,提供一种版面分析方法、装置、电子设备及存储介质,该方法通过构建题目树结构的形式进行版面分析,不仅可以提高版面分析效率,还可以使版面分析结果进行结构化,层次更加清晰,更加有条理,提高了可读性,便于后续的查询、分析和批改等功能需求。而且,该方法通过文本检测的方式确定出教辅图片中的印刷体区域,进而确定出公共题干区域,通过对公共题干区域进行语义识别,可以使版面分析结果更加准确。此外,该方法结合题目树结构、文本检测以及语义识别,大大降低了对教辅图片的拍摄场景的限制,可以适用于倾斜、扭曲、存在透视等多种拍摄场景中。存在透视等多种拍摄场景中。存在透视等多种拍摄场景中。

【技术实现步骤摘要】
版面分析方法、装置、电子设备及存储介质


[0001]本专利技术涉及图像识别
,尤其涉及一种版面分析方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能技术在计算机视觉领域中的广泛应用,光学字符识别(Optical Character Recognition,OCR)技术作为计算机视觉(Computer Vision,CV)领域的一个重要分支,它在教育场景的应用也越来越多,比如智能批改、搜题等。这些都要求人工智能(Artificial Intelligence,AI)技术能准确的检测出题目所在区域,并进行版面分析和批改。
[0003]现有的图片版面分析方法大多数仅仅基于深度学习中的检测和分割网络对文档进行结构化分析,而这种方法对于排版较复杂的图片效果往往不太好。同时,对于复杂的使用场景如透视、背透、遮挡以及倾斜等,仅仅依靠检测或分割模型并不能很好的进行结构化分析,进而影响效果。因此,如何精准、实时的进行图片版面分析分析成为十分重要的研究方向。

技术实现思路

[0004]本专利技术提供一种版面分析方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0005]本专利技术提供一种版面分析方法,包括:
[0006]获取待分析的教辅图片,所述教辅图片中包括题目信息;
[0007]对所述教辅图片进行分割,确定所述教辅图片中的多个矩形框以及每个矩形框的属性信息,并基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构;
[0008]若所述题目树结构的深度大于1,则对所述教辅图片进行文本检测,确定所述教辅图片中的印刷体区域,并基于所述题目树结构以及所述印刷体区域,确定所述教辅图片中的公共题干区域;
[0009]对所述公共题干区域进行语义识别,得到语义识别结果,并基于所述题目树结构以及所述语义识别结果,确定所述教辅图片的版面分析结果。
[0010]根据本专利技术提供的一种版面分析方法,每个矩形框的属性信息包括类别信息;所述类别信息包括题框、题号、答题区以及图表中的一类;
[0011]所述基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构,包括:
[0012]对于类别信息为题框的任意的第一矩形框和第二矩形框,确定所述第一矩形框与所述第二矩形框的第一面积交并比,并基于所述第一矩形框的面积、所述第二矩形框的面积以及所述第一面积交并比,对所述第一矩形框与所述第二矩形框进行层级划分,得到所
述题目树结构中各层级的题目节点的题框;
[0013]对于类别信息为题号的任意的第三矩形框,遍历所述题目树结构中各层级的题目节点的题框,计算所述第三矩形框与当前题目节点的题框的第二面积交并比,并基于所述第二面积交并比,对所述第三矩形框对应的题号与所述当前题目节点进行归属划分,得到所述题目树结构中各题号归属的题目节点;
[0014]对于类别信息为答题区或图表的任意的第四矩形框,遍历所述题目树结构中各层级的题目节点的题框,计算所述第四矩形框与当前题目节点的题框的第三面积交并比,并基于所述第三面积交并比,对所述第四矩形框对应的答题区与所述当前题目节点进行归属划分,得到所述题目树结构中各答题区或图表归属的题目节点。
[0015]根据本专利技术提供的一种版面分析方法,每个矩形框的属性信息包括类别信息以及置信度;所述类别信息包括题框、题号、答题区以及图表中的一类;
[0016]所述基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构,之前包括:
[0017]基于每个矩形框的置信度以及每个矩形框的类别信息对应的置信度阈值,对各矩形框进行过滤,得到各备选矩形框;
[0018]遍历各备选矩形框,对于类别信息为题框的任意的第一备选矩形框和第二备选矩形框,计算所述第一备选矩形框与所述第二备选矩形框的第四面积交并比,并基于所述第四面积交并比,对所述第一备选矩形框与所述第二备选矩形框中置信度小的备选矩形框进行过滤;
[0019]对于类别信息为题号、答题区以及图表中的一类的任意的第三备选矩形框和第四备选矩形框,确定所述第三备选矩形框与所述第四备选矩形框的交集面积以及面积最小值,并基于所述交集面积以及所述面积最小值的比值,对所述第三备选矩形框与所述第四备选矩形框中置信度小的备选矩形框进行过滤。
[0020]根据本专利技术提供的一种版面分析方法,所述题目树结构中包括题目节点,所述题目节点的属性信息基于与所述题目节点关联的各矩形框的属性信息确定;
[0021]所述基于所述题目树结构以及所述印刷体区域,确定所述教辅图片中的公共题干区域,之前包括:
[0022]基于所述题目树结构的深度、所述题目节点对应的置信度以及所述题目节点是否对应有题号的判断信息,对所述题目树结构进行剪枝操作。
[0023]根据本专利技术提供的一种版面分析方法,所述题目树结构中包括各层级的题目节点,所述题目节点的属性信息基于与所述题目节点关联的各矩形框的属性信息确定;
[0024]每个矩形框的属性信息包括类别信息以及置信度;所述类别信息包括题框或题号;
[0025]所述基于所述题目树结构以及所述印刷体区域,确定所述教辅图片中的公共题干区域,包括:
[0026]计算所述印刷体区域与所述题目树结构中第一层级的题目节点的题框的第五面积交并比,并基于所述第五面积交并比,确定所述印刷体区域所归属的所述第一层级的目标题目节点,所述印刷体区域不归属于所述目标题目节点的任一子节点;
[0027]计算所述目标题目节点的类别信息为题号的矩形框与所述印刷体区域的第六面
积交并比,并基于所述第六面积交并比,判断所述印刷体区域是否属于所述公共题干区域。
[0028]根据本专利技术提供的一种版面分析方法,所述题框包括不同题型的题框;所述对所述公共题干区域进行语义识别,得到语义识别结果,包括:
[0029]基于所述题目树结构的深度、所述公共题干区域对应的题目节点的不同题型、所述公共题干区域对应的题目节点是否对应有图表的判断信息、所述公共题干区域的个数以及所述公共题干区域为多个时是否共行的判断信息中的至少一项,确定待语义识别的目标公共题干区域;
[0030]对所述目标公共题干区域进行语义识别,得到所述语义识别结果。
[0031]根据本专利技术提供的一种版面分析方法,所述基于所述题目树结构以及所述语义识别结果,确定所述教辅图片的版面分析结果,包括:
[0032]基于所述语义识别结果,以及所述题目树结构的深度、所述目标题目节点的不同题型、所述目标题目节点是否对应有图表的判断信息、所述公共题干区域的个数以及所述公共题干区域为多个时是否共行的判断信息中的至少一项,对所述题目节点进行删减,得到删减后的题目树结构,并将所述删减后的题目树结构作为所述版面分析结果。
[0033]本专利技术还提供一种版面分析装置,包括:
[0034]获取模块,用于获取待分析的教辅图片本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种版面分析方法,其特征在于,包括:获取待分析的教辅图片,所述教辅图片中包括题目信息;对所述教辅图片进行分割,确定所述教辅图片中的多个矩形框以及每个矩形框的属性信息,并基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构;若所述题目树结构的深度大于1,则对所述教辅图片进行文本检测,确定所述教辅图片中的印刷体区域,并基于所述题目树结构以及所述印刷体区域,确定所述教辅图片中的公共题干区域;对所述公共题干区域进行语义识别,得到语义识别结果,并基于所述题目树结构以及所述语义识别结果,确定所述教辅图片的版面分析结果。2.根据权利要求1所述的版面分析方法,其特征在于,每个矩形框的属性信息包括类别信息;所述类别信息包括题框、题号、答题区以及图表中的一类;所述基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构,包括:对于类别信息为题框的任意的第一矩形框和第二矩形框,确定所述第一矩形框与所述第二矩形框的第一面积交并比,并基于所述第一矩形框的面积、所述第二矩形框的面积以及所述第一面积交并比,对所述第一矩形框与所述第二矩形框进行层级划分,得到所述题目树结构中各层级的题目节点的题框;对于类别信息为题号的任意的第三矩形框,遍历所述题目树结构中各层级的题目节点的题框,计算所述第三矩形框与当前题目节点的题框的第二面积交并比,并基于所述第二面积交并比,对所述第三矩形框对应的题号与所述当前题目节点进行归属划分,得到所述题目树结构中各题号归属的题目节点;对于类别信息为答题区或图表的任意的第四矩形框,遍历所述题目树结构中各层级的题目节点的题框,计算所述第四矩形框与当前题目节点的题框的第三面积交并比,并基于所述第三面积交并比,对所述第四矩形框对应的答题区与所述当前题目节点进行归属划分,得到所述题目树结构中各答题区或图表归属的题目节点。3.根据权利要求1所述的版面分析方法,其特征在于,每个矩形框的属性信息包括类别信息以及置信度;所述类别信息包括题框、题号、答题区以及图表中的一类;所述基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构,之前包括:基于每个矩形框的置信度以及每个矩形框的类别信息对应的置信度阈值,对各矩形框进行过滤,得到各备选矩形框;遍历各备选矩形框,对于类别信息为题框的任意的第一备选矩形框和第二备选矩形框,计算所述第一备选矩形框与所述第二备选矩形框的第四面积交并比,并基于所述第四面积交并比,对所述第一备选矩形框与所述第二备选矩形框中置信度小的备选矩形框进行过滤;对于类别信息为题号、答题区以及图表中的一类的任意的第三备选矩形框和第四备选矩形框,确定所述第三备选矩形框与所述第四备选矩形框的交集面积以及面积最小值,并基于所述交集面积以及所述面积最小值的比值,对所述第三备选矩形框与所述第四备选矩
形框中置信度小的备选矩形框进行过滤。4.根据权利要求3所述的版面分析方法,其特征在于,所述题目树结构中包括题目节点,所述题目节点的属性信息基于与所述题目节点关联的各矩形框的属性信息确定;所述基于所述题目树结构以及所述印刷体区域,确定所述教辅图片中的公共题干区域,之前包括:基于所述题目树结构的...

【专利技术属性】
技术研发人员:冯烨
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1