【技术实现步骤摘要】
版面分析方法、装置、电子设备及存储介质
[0001]本专利技术涉及图像识别
,尤其涉及一种版面分析方法、装置、电子设备及存储介质。
技术介绍
[0002]随着人工智能技术在计算机视觉领域中的广泛应用,光学字符识别(Optical Character Recognition,OCR)技术作为计算机视觉(Computer Vision,CV)领域的一个重要分支,它在教育场景的应用也越来越多,比如智能批改、搜题等。这些都要求人工智能(Artificial Intelligence,AI)技术能准确的检测出题目所在区域,并进行版面分析和批改。
[0003]现有的图片版面分析方法大多数仅仅基于深度学习中的检测和分割网络对文档进行结构化分析,而这种方法对于排版较复杂的图片效果往往不太好。同时,对于复杂的使用场景如透视、背透、遮挡以及倾斜等,仅仅依靠检测或分割模型并不能很好的进行结构化分析,进而影响效果。因此,如何精准、实时的进行图片版面分析分析成为十分重要的研究方向。
技术实现思路
[0004]本专利技术提供一种版面分析方法、装置、电子设备及存储介质,用以解决现有技术中存在的缺陷。
[0005]本专利技术提供一种版面分析方法,包括:
[0006]获取待分析的教辅图片,所述教辅图片中包括题目信息;
[0007]对所述教辅图片进行分割,确定所述教辅图片中的多个矩形框以及每个矩形框的属性信息,并基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构;
...
【技术保护点】
【技术特征摘要】
1.一种版面分析方法,其特征在于,包括:获取待分析的教辅图片,所述教辅图片中包括题目信息;对所述教辅图片进行分割,确定所述教辅图片中的多个矩形框以及每个矩形框的属性信息,并基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构;若所述题目树结构的深度大于1,则对所述教辅图片进行文本检测,确定所述教辅图片中的印刷体区域,并基于所述题目树结构以及所述印刷体区域,确定所述教辅图片中的公共题干区域;对所述公共题干区域进行语义识别,得到语义识别结果,并基于所述题目树结构以及所述语义识别结果,确定所述教辅图片的版面分析结果。2.根据权利要求1所述的版面分析方法,其特征在于,每个矩形框的属性信息包括类别信息;所述类别信息包括题框、题号、答题区以及图表中的一类;所述基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构,包括:对于类别信息为题框的任意的第一矩形框和第二矩形框,确定所述第一矩形框与所述第二矩形框的第一面积交并比,并基于所述第一矩形框的面积、所述第二矩形框的面积以及所述第一面积交并比,对所述第一矩形框与所述第二矩形框进行层级划分,得到所述题目树结构中各层级的题目节点的题框;对于类别信息为题号的任意的第三矩形框,遍历所述题目树结构中各层级的题目节点的题框,计算所述第三矩形框与当前题目节点的题框的第二面积交并比,并基于所述第二面积交并比,对所述第三矩形框对应的题号与所述当前题目节点进行归属划分,得到所述题目树结构中各题号归属的题目节点;对于类别信息为答题区或图表的任意的第四矩形框,遍历所述题目树结构中各层级的题目节点的题框,计算所述第四矩形框与当前题目节点的题框的第三面积交并比,并基于所述第三面积交并比,对所述第四矩形框对应的答题区与所述当前题目节点进行归属划分,得到所述题目树结构中各答题区或图表归属的题目节点。3.根据权利要求1所述的版面分析方法,其特征在于,每个矩形框的属性信息包括类别信息以及置信度;所述类别信息包括题框、题号、答题区以及图表中的一类;所述基于每个矩形框的属性信息,将各矩形框进行层级划分以及归属划分,构建题目树结构,之前包括:基于每个矩形框的置信度以及每个矩形框的类别信息对应的置信度阈值,对各矩形框进行过滤,得到各备选矩形框;遍历各备选矩形框,对于类别信息为题框的任意的第一备选矩形框和第二备选矩形框,计算所述第一备选矩形框与所述第二备选矩形框的第四面积交并比,并基于所述第四面积交并比,对所述第一备选矩形框与所述第二备选矩形框中置信度小的备选矩形框进行过滤;对于类别信息为题号、答题区以及图表中的一类的任意的第三备选矩形框和第四备选矩形框,确定所述第三备选矩形框与所述第四备选矩形框的交集面积以及面积最小值,并基于所述交集面积以及所述面积最小值的比值,对所述第三备选矩形框与所述第四备选矩
形框中置信度小的备选矩形框进行过滤。4.根据权利要求3所述的版面分析方法,其特征在于,所述题目树结构中包括题目节点,所述题目节点的属性信息基于与所述题目节点关联的各矩形框的属性信息确定;所述基于所述题目树结构以及所述印刷体区域,确定所述教辅图片中的公共题干区域,之前包括:基于所述题目树结构的...
【专利技术属性】
技术研发人员:冯烨,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。