一种用于数学试卷图像识别的样本自动生成方法技术

技术编号:25524751 阅读:17 留言:0更新日期:2020-09-04 17:14
本发明专利技术涉及自然语言处理和图像处理领域,具体公开了一种用于数学试卷图像识别的样本自动生成方法,针对用深度学习技术进行OCR数学试题识别所需训练数据量大、数据难以获取,人工标注方法成本昂贵,任务具体精细、不易泛化迁移、可实操性差、周期漫长等困难,提出了一种以word试卷(或类似可解析类型文档)作为输入语料,通过3种方法并行处理解析文档针对性地截取不同样式的文本样本,然后以复合方式和简单方式分流画图,自动生成包含汉字、英文、数字和公式等多种样式混合的数学试题图片样本。

【技术实现步骤摘要】
一种用于数学试卷图像识别的样本自动生成方法
本专利技术属于自然语言处理和图像处理领域,具体是一种用于数学试卷图像识别的样本自动生成方法。
技术介绍
OCR识别技术借助深度学习的强大力量实现了跨越式的发展,在生产生活诸多领域都落地开花,例如牌号的识别、身份证的识别、发票的识别、保险单据的识别、医疗诊单的识别等,不胜枚举。在教育领域应用潜力亦非常巨大,例如在线辅导、拍照搜题、智能阅卷、智能组卷都离不开OCR技术的支撑,而这其中非常关键的问题是如何让理论、模型和研究成果落地,投入实际生产生活环境中,从而让更多的人享受技术进步带来的便捷和好处,同时通过真实场景的数据反馈不断迭代和升级已有的模型和技术。基于深度学习的OCR识别技术要实现产业化落地首先需要解决的问题是如何让模型具有良好的泛化性能,也就是说在不同的噪声、阴影、光照、污损等背景条件下仍能够保持足够高的识别准确率。答案是显然的,让训练样本数据集足够大、足够全,能够全方位无死角覆盖所有的目标场景。但是考虑现实情况却不具有实操性。目前深度学习主流方法仍然是有监督的学习方法,而监督学习必须先有标准答案即数据的标签。因此随着人工智能的兴起,给数据打标签已经成为了继快递、外卖之后一个新兴的产业,为国民经济发展创造了很多就业岗位。然而OCR所需要的标签数据集由于数据量庞大、种类过于繁多,若通过人工标注的方式来获取则耗资巨大、周期漫、得不偿失。根据目前人工智能在图像处理领域的发展和应用,人工标注图像数据主要有以下常的几种方式:1)根据图像内容进行分类,例如人、猫、狗等,其操作类似做选择题,只需点击确认;2)对图像中某一类别或多个类别的物体对其位置进行标定;常用的操作方式是外轮廓上多点连线画多边形的方式;3)对图像中某一类别的物体进行关键点标注,例如人体骨骼关键点、人脸关键点,通常关键点的数量是确定的,十几个到几十个不等,通过点击加选择确定的方式操作。而OCR识别则比较麻烦一些,例如汉字的常用字符多达数千个,不太可能让标注工人通过选择点击的方式操作实现,可行的办法是打字录入图像中的文本,这对人力的要求就提高了,成本也相应增加了。另一方面,数学试题不同于普通的文本识别,如前文提到的身份证、牌、保险单、医疗诊单等主要是字符的识别,数学试题中往往还包含有特定的结构关系型文本,例如上下标、分式、根式,这些文本的输入和标记都需要特别的处理,即使是专业的打字员可能也难以胜任。总之,在现有技术条件下,人工合成样本的方法几乎是解决数学试题OCR识别训练所需大量样本的唯一可行方法。目前市场上有很多OCR识别引擎,由于底层技术和数据样本的限制,大多数是只包含字符的识别,而不包含结构类型文本的识别,比如身份证,发票等识别引擎;也有另外一种类型的识别引擎,是纯公式类型的识别,这一类型的识别引擎能较好地处理结构信息,但是通常字符集都很小,只包含常的数学公式符号,这对中文的使用者不是非常友好。要开发能同时识别中文、英文、数字、特定的结构信息的识别引擎,前提是有足够多这种混合样式的数据样本,因此本专利解决的问题是如何借助文档语料信息合成中文、英文、数字、公式等多种样式混合的数学试题图片样本,使其能更好地拟合打印输出的数学试题试卷的效果,从而实现研究模型产品落地的目的。
技术实现思路
(一)解决的技术问题解决用深度学习技术进行OCR识别所需训练数据集人工标注方法困难多、成本高昂、周期漫长的问题,提供一个模拟真实场景生成中文、英文、数字和公式混合的数学试题文本图片样本的合成方法,同时也为目前OCR识别数学试题纯字符文本和公式需要分别训练两个识别引擎提供了新的方法思路。(二)技术方案为了实现上述目标,在调研和实验的基础上,我们得到如下结论:(1)用深度学习技术进行OCR识别业务场景中标注数据集是极少的并且成本高昂。通常训练深度学习模型所需的数据集都有特定的统一的格式要求,例如图片尺寸大小32x280,字符数9~15个,要覆盖足够全,图片样本数量从数百万到上千万不等。(2)人工合成数据集训练的模型有可能可以泛化实现产业应用落地,已有一些研究分别表明纯字符文本、纯数学公式、以及手写体识别用合成方法生成样本训练的模型可以泛化推广到真实场景中。(3)现在的深度学习模型RNN可以结合文本的上下文信息进行更有效的学习。本专利技术基于以上结论采用的技术方案如下:一种用于数学试卷图像识别的样本自动生成方法是以word版试卷或类似可解析类型文档作为输入语料,通过用3种不同方法解析文档针对性地截取不同样式的文本样本,即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式,再以所截取的样本作为输入文本分成复合方式和简单方式两个不同流程绘制图像,进行真实场景效果拟合自动地生成样本图片。该方法包括4个主要部分:制定字符表、截取语料样本、数据均衡处理、生成样本图像和拟合真实场景效果。其中,所述制定字符表具体描述为:首先,遍历全部文档文本,以字典数据结构进行符号统计。对文档中每个字符判断其是否已经存在于字典中,如果没有则在字典中新加一个键值对(key-value),其中key是该字符,value为1表示当前出现频次,如果key存在则对应的value数值加1。将字典的全部key(或频次高于某一阈值的字符集合)作为纯文本目标字符表。然后,word转Latex格式,根据试卷文档的目标知识范围和Latex数学公式基本元素表制定初始数学公式符号表,如果没有确定知识范围,则以Latex数学公式基本元素表作为初始数学公式符号表,然后解析文本通过正则匹配查找提取全部数学公式,统计其在初始数学公式符号表上的词频分布,再删除该初始数学公式符号表上出现频次为0(或低于某一阈值)的符号作为数学公式目标符号表。最后,将上述两步产生的目标符号表进行合并去重,对于在word文档和在Latex文档中表示形式不同而打印显示效果相同的符号建立映射表进行转换,因为在OCR识别中应当使显示效果相同的字符只有唯一的类别编号。其中,所述从文档截取语料样本是指根据试卷文本的特点和人们的输入习惯使用三路并行的文档解析截取样本方法,即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式,以充分利用试卷提供的语料信息和多种样式。其中,所述纯字符文本样本的定长截取描述为:解析word,遍历文档的段落,从段落文本中截取一定长度范围内的样本语料,如果遇到不是字符表上的字符则舍弃,继续前进。这是非常简单快捷的方式,也是最常出现的样式,通用的OCR识别引擎可以只需要这样的语料样本就足够了。其中,所述包含word上下标输入的定位定长截取具体描述为:解析word,定位各个段落样式中字体属性为上标或下标的位置,然后以该样式位置为中心向前后两端随机推移一定距离截取一定长度范围内的字符串,拼接成一个包含上下标的文本样本。这可以覆盖对于比较简单的数学公式(或者化学式)人们可本文档来自技高网
...

【技术保护点】
1.一种用于数学试卷图像识别的样本自动生成方法,其特征在于以word版试卷或类似可解析类型文档作为输入语料,通过用3种不同方法解析文档针对性地截取不同样式的文本样本,即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式,再以所截取的样本作为输入文本分成复合方式和简单方式两个不同流程绘制图像,最后进行真实场景效果拟合自动地生成样本图片。该方法包括4个主要部分:制定字符表、截取语料样本、数据均衡处理、生成样本图像和拟合真实场景效果。/n

【技术特征摘要】
20200403 CN 20201026152751.一种用于数学试卷图像识别的样本自动生成方法,其特征在于以word版试卷或类似可解析类型文档作为输入语料,通过用3种不同方法解析文档针对性地截取不同样式的文本样本,即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式,再以所截取的样本作为输入文本分成复合方式和简单方式两个不同流程绘制图像,最后进行真实场景效果拟合自动地生成样本图片。该方法包括4个主要部分:制定字符表、截取语料样本、数据均衡处理、生成样本图像和拟合真实场景效果。


2.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法,其特征在于,所述制定字符表具体描述为:
首先,遍历全部文档文本,以字典数据结构进行符号统计。对文档中每个字符判断其是否已经存在于字典中,如果没有则在字典中新加一个键值对(key-value),其中key是该字符,value为1表示当前出现频次,如果key存在则对应的value数值加1。将字典的全部key(或频次高于某一阈值的字符集合)作为纯文本目标字符表;
然后,word转Latex格式,根据试卷文档的目标知识范围和Latex数学公式基本元素表制定初始数学公式符号表,如果没有确定知识范围,则以Latex数学公式基本元素表作为初始数学公式符号表,然后解析文本通过正则匹配查找提取全部数学公式,统计其在初始数学公式符号表上的词频分布,再删除该初始数学公式符号表上出现频次为0(或低于某一阈值)的符号以作为数学公式目标符号表;
最后,将上述两步产生的目标符号表进行合并去重,对于在word文档和在Latex文档中表示形式不同而打印显示效果相同的符号建立映射表进行转换,因为在OCR识别中应当使显示效果相同的字符只有唯一的类别编号。


3.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法,其特征在于,所述截取语料样本是指用3种处理方法并行处理截取文本样本,即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式,以充分利用试卷提供的语料信息和多种样式。


4.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法,其特征在于,所述纯字符文本样本的定长截取具体描述为:解析word,遍历文档的段落,从段落文本中截取一定长度范围内的样本语料,如果遇到不是字符表上的字符则舍弃,继续前进,这是非常简单快捷的方式,也是最常出现的样式,通用的OCR识别引擎可以只需要这样的语料样本就足够了。


5.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法,其特征在于,所述包含word上下标输入的定位定长截取具体描述为:解析word,定位各个段落样式中字体属性为上标或下标的位置,然后以该样式位置为中心向前后两端随机推移一定距离截取一定长度范围内的字符串,拼接成一个包含上下标的文本样本;这可以覆盖对于比较简单的数学公式(或者化学式)人们可能不会使用word内置的数学公式编辑器来输入的情况。


6.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法,其特征在于,所述包含数学公式编辑器输入的定位定长截取具体描述为:将word文档转化为Latex文本,通过正则匹配查找定位用数学公式编辑器输入的公式的位置,然后获取公式长度,如果长度超出目标长度范围则舍弃继续查找,若公式长度在目标范围内则从公式两端的上下文中随机截取一定长度的字符拼接成一个混合样式的文本样本。


7.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法,其特征在于,所述数据均衡处理具体描述为:统计所截取的全部样本的字符词频,取平均值,出现频次少于平均值m倍(如m=0.1)的则表示该字符出现频次过低,对于出现频次过低的字符进行增强处理,具体实现可以包括两个方面:其一,对已经截取的...

【专利技术属性】
技术研发人员:汤敏李哲陈家海叶家鸣吴波
申请(专利权)人:安徽七天教育科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1