一种扫描试卷版面分析的样本制作及识别方法技术

技术编号:27937053 阅读:16 留言:0更新日期:2021-04-02 14:17
本发明专利技术涉及人工智能ocr版面分析领域,且公开了一种通过解析修改word的officexml自动标注word,然后转成图片通过图像处理方法获取坐标,将未标注的word转成图片来仿造扫描试卷样本。本发明专利技术使用了一种多分枝的DB分割算法用以检测扫描试卷中的各个类别结构。其特征在于:包含以下几个步骤,通过解析修改word的officexml标注各个类别得到标注word,人工检查后修改officexml恢复成未标注的word,将标注的word及对应的未标注word随机转成各样大小的图片并通过图像处理方法法获取标注图片相关结构元素位置的坐标,通过训练多个分枝的DB分割算法训练出可以检测出各个结构类别的版面分析算法模型。本发明专利技术解决了样本难获取及标注的问题,节省大量的人工成本,并且模型算法精度高速度快。

【技术实现步骤摘要】
一种扫描试卷版面分析的样本制作及识别方法
本专利技术涉及人工智能ocr版面分析领域,具体涉及一种扫描试卷版面分析的样本制作及识别方法。
技术介绍
版面分析是现在ocr识别任务中不可缺少的一部分,现在很多ocr的需求均需要进行版面分析,一款好的版面分析模型除了需要一个好的算法还需要高质量的数据,常常人工标注样本数据需要耗费大量的时间和人力成本,现在网上也开源了不少文档的版面分析数据集,但是其数据与试卷本身样式差异较大,而考虑到扫描的试卷一般噪声少比较干净,可以通过word试卷生成仿制的扫描试卷样本,这样可以节省人工和时间成本而且可以生成大量的样本满足需求。DB(Real-timeSceneTextDetectionwithDifferentiableBinarization算法是AAAI2020一篇效果和性能都创新高的文本检测算法,本专利技术的版面分析算法在此基础上变成多分枝,继承了DB算法的高性能而且能精准检测出多分类。
技术实现思路
(一)解决的技术问题针对现有技术的不足,本专利技术提供了一种扫描版试卷版面分析的样本制作及识别的方法,可以制作大量的样本的同时还可以节省人力时间,而且版面分析算法的精度高速度快。(二)技术方案为实现上述目的,本专利技术提供如下技术方案:一种扫描版试卷版面分析的样本制作及识别的方法,包括修改word的officexml标注各个结构元素类别得到标注word,人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。优选的,所述修改word的officexml标注各个类别得到标注word,通过分析修改officexml将文本行背景、公式背景、表格背景分别调成不同颜色,图像加粗黑色边缘框。例如通过解析xml寻找<w:tbl></w:tbl>设置<w:tbl>下<w:shdw:fill=”FFF000”>将表格背景标注成黄色,寻找并设置<w:object>下<v:shapefilled=”t”fillcolor=”#FF0000”>或<m:oMath>下<highlightw:val=’red’>将公式标注成红色,寻找并设置<w:tc>下<highlightw:val=’blue’>将文本行设置成蓝色,寻找并设置<w:drawing>下<a:lnw=’150612’>或<w:pict>下<v:strokecolor=’#000000’weight:6pt>将图像设置黑粗边框,等等一系列xml修改。优选的,所述人工检查删除错误内容并修改xml恢复成未标注word。人工检查删除word中未标注的内容或者错误标注的内容得到完全标注的word,随后重新解析修改officexml去掉文本、公式、表格颜色背景及图像的黑色边缘框,恢复成干净未标注的word,而word中各个结构元素位置均未发生变化。优选的,所述将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注图像的各个类别结构的坐标。文本的坐标是通过将标注图像不是文本背景的颜的像素均设为0寻找到文本背景颜色区域,例如文本背景是蓝色将标注图像中不是蓝色的像素均设为0得到的蓝色区域即文本区域。然后黑白二值化,使用连通域寻找框后对每一个框左右各扩展5个像素并对框域白色填充,在进行连通域框查找获取到文本的框坐标。公式的框坐标是通过将标注图像不是公式背景颜色的像素都设置为0寻找到公式背景颜色区域,然后黑白二值化,使用连通域寻找框后对每一个框左右各扩展3个像素并对框域白色填充,在进行连通域框查找获取到公式的框坐标。表格的框坐标是通过将标注图像不是表格背景颜色的像素都设置为0寻找表格背景颜色区域,然后黑白二值化,使用连通域寻找框后对每一个框上下左右各扩展5个像素并对框域白色填充,在进行连通域框查找获取到表格的框坐标。图像的框坐标是通过先将标注图像上下左右膨胀10个像素,然后将标注图像中不是黑色像素的设为0是黑色像素的设为255,在使用连通域框查找获取到图像的框坐标。优选的,所述通过使用4个分枝的DB算法对不同类型进行分割,使用4个分枝的DB算法对不同类型进行识别分割,使用了一种建立在DB(Real-timeSceneTextDetectionwithDifferentiableBinarization)分割算法的基础上,但是在提取特征backbone基础上由单个分枝变成了四个分枝分别分割文本、公式、表格、图像四类。有益效果本专利技术提供了一种扫描试卷版面分析的样本制作及识别的方法,具备以下有益效果:可以制作生成大量的仿扫描版的试卷标注样本,减少了纯人工标注的成本。同时4个分枝的DB算法,在吸取了DB算法优点的基础上可以分割多类版面元素结构精度高速度快。附图说明图1为本专利技术的制作样本流程图;图2为本专利技术的标注图像获取文本框坐标的图像处理流程图;图3为本专利技术的标注图像获取公式框坐标的图像处理流程图;图4为本专利技术的标注图像获取表格框坐标的图像处理流程图;图5为本专利技术的标注图像获取图像框坐标的图像处理流程图;图6为DB算法框架图;图7为本专利技术的DB算法框架图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术提供一种技术方案:一种扫描试卷版面分析的样本制作及识别方法,其包括修改word的officexml标注各个结构元素类别得到标注word,人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。具体的,所述修改word的officexml标注各个类别得到标注word,通过分析修改officexml将文本行背景、公式背景、表格背景调成不同颜色,图像加粗黑色边缘框。例如通过解析xml寻找<w:tbl></w:tbl>设置<w:tbl>下<w:shdw:fill=”FFF00”>将表格背景标注成黄色,寻找并设置<w:object>下<v:shapefilled=”t”fillcolor=”#FF0000”>或<m:oMath>下<highlightw:val=’red’>将公式标注成红色,寻找并设置<w:tc本文档来自技高网...

【技术保护点】
1.一种扫描试卷版面分析的样本制作及识别方法,其特征在于:包括修改word的officexml标注各个结构元素类别得到标注word,人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。/n

【技术特征摘要】
1.一种扫描试卷版面分析的样本制作及识别方法,其特征在于:包括修改word的officexml标注各个结构元素类别得到标注word,人工检查删除错误内容并修改xml恢复未标注word,将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类别结构的坐标,通过使用4个分枝的DB算法对不同类型进行识别分割。


2.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法,其特征在于:修改word的officexml标注各个类别得到标注word,通过分析修改officexml将文本行背景、公式背景、表格背景分别调成不同的颜色,图像加粗黑色边缘框。


3.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法,其特征在于:人工检查删除错误内容并修改xml恢复成未标注word。人工检查删除word中未标注的内容或者错误标注的内容得到完全标注的word,随后重新解析修改officexml去掉文本公式表格颜色背景及图像的黑色边缘框,恢复成干净未标注的word,而word中各个结构元素位置均未发生变化。


4.根据权利要求1所述的一种扫描试卷版面分析的样本制作及识别方法,其特征在于:将标注的word及对应的未标注word转成图片并通过图像处理方法获取标注word图像的各个类...

【专利技术属性】
技术研发人员:吕达汤敏陈家海叶家鸣吴波
申请(专利权)人:安徽七天教育科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1