一种用于数学试卷图像识别的样本自动生成方法技术

技术编号：25524751 阅读：17 留言：0更新日期：2020-09-04 17:14

本发明专利技术涉及自然语言处理和图像处理领域，具体公开了一种用于数学试卷图像识别的样本自动生成方法，针对用深度学习技术进行OCR数学试题识别所需训练数据量大、数据难以获取，人工标注方法成本昂贵，任务具体精细、不易泛化迁移、可实操性差、周期漫长等困难，提出了一种以word试卷(或类似可解析类型文档)作为输入语料，通过3种方法并行处理解析文档针对性地截取不同样式的文本样本，然后以复合方式和简单方式分流画图，自动生成包含汉字、英文、数字和公式等多种样式混合的数学试题图片样本。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于数学试卷图像识别的样本自动生成方法
本专利技术属于自然语言处理和图像处理领域，具体是一种用于数学试卷图像识别的样本自动生成方法。
技术介绍
OCR识别技术借助深度学习的强大力量实现了跨越式的发展，在生产生活诸多领域都落地开花，例如牌号的识别、身份证的识别、发票的识别、保险单据的识别、医疗诊单的识别等，不胜枚举。在教育领域应用潜力亦非常巨大，例如在线辅导、拍照搜题、智能阅卷、智能组卷都离不开OCR技术的支撑，而这其中非常关键的问题是如何让理论、模型和研究成果落地，投入实际生产生活环境中，从而让更多的人享受技术进步带来的便捷和好处，同时通过真实场景的数据反馈不断迭代和升级已有的模型和技术。基于深度学习的OCR识别技术要实现产业化落地首先需要解决的问题是如何让模型具有良好的泛化性能，也就是说在不同的噪声、阴影、光照、污损等背景条件下仍能够保持足够高的识别准确率。答案是显然的，让训练样本数据集足够大、足够全，能够全方位无死角覆盖所有的目标场景。但是考虑现实情况却不具有实操性。目前深度学习主流方法仍然是有监督的学习方法，而监督学习必须先有标准答案即数据的标签。因此随着人工智能的兴起，给数据打标签已经成为了继快递、外卖之后一个新兴的产业，为国民经济发展创造了很多就业岗位。然而OCR所需要的标签数据集由于数据量庞大、种类过于繁多，若通过人工标注的方式来获取则耗资巨大、周期漫、得不偿失。根据目前人工智能在图像处理领域的发展和应用，人工标注图像数据主要有以下常的几种方式：1)根据图像内容进行分类，例如人、猫、狗...

【技术保护点】
1.一种用于数学试卷图像识别的样本自动生成方法，其特征在于以word版试卷或类似可解析类型文档作为输入语料，通过用3种不同方法解析文档针对性地截取不同样式的文本样本，即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式，再以所截取的样本作为输入文本分成复合方式和简单方式两个不同流程绘制图像，最后进行真实场景效果拟合自动地生成样本图片。该方法包括4个主要部分：制定字符表、截取语料样本、数据均衡处理、生成样本图像和拟合真实场景效果。/n

【技术特征摘要】
20200403 CN 20201026152751.一种用于数学试卷图像识别的样本自动生成方法，其特征在于以word版试卷或类似可解析类型文档作为输入语料，通过用3种不同方法解析文档针对性地截取不同样式的文本样本，即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式，再以所截取的样本作为输入文本分成复合方式和简单方式两个不同流程绘制图像，最后进行真实场景效果拟合自动地生成样本图片。该方法包括4个主要部分：制定字符表、截取语料样本、数据均衡处理、生成样本图像和拟合真实场景效果。

2.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述制定字符表具体描述为：
首先，遍历全部文档文本，以字典数据结构进行符号统计。对文档中每个字符判断其是否已经存在于字典中，如果没有则在字典中新加一个键值对(key-value),其中key是该字符，value为1表示当前出现频次，如果key存在则对应的value数值加1。将字典的全部key(或频次高于某一阈值的字符集合)作为纯文本目标字符表；
然后，word转Latex格式，根据试卷文档的目标知识范围和Latex数学公式基本元素表制定初始数学公式符号表，如果没有确定知识范围，则以Latex数学公式基本元素表作为初始数学公式符号表，然后解析文本通过正则匹配查找提取全部数学公式，统计其在初始数学公式符号表上的词频分布，再删除该初始数学公式符号表上出现频次为0(或低于某一阈值)的符号以作为数学公式目标符号表；
最后，将上述两步产生的目标符号表进行合并去重，对于在word文档和在Latex文档中表示形式不同而打印显示效果相同的符号建立映射表进行转换，因为在OCR识别中应当使显示效果相同的字符只有唯一的类别编号。

3.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述截取语料样本是指用3种处理方法并行处理截取文本样本，即纯字符文本样本的定长截取、包含word上下标输入的定位定长截取、包含数学公式编辑器输入的定位定长截取3种方式，以充分利用试卷提供的语料信息和多种样式。

4.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述纯字符文本样本的定长截取具体描述为：解析word，遍历文档的段落，从段落文本中截取一定长度范围内的样本语料，如果遇到不是字符表上的字符则舍弃，继续前进，这是非常简单快捷的方式，也是最常出现的样式，通用的OCR识别引擎可以只需要这样的语料样本就足够了。

5.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述包含word上下标输入的定位定长截取具体描述为：解析word，定位各个段落样式中字体属性为上标或下标的位置，然后以该样式位置为中心向前后两端随机推移一定距离截取一定长度范围内的字符串，拼接成一个包含上下标的文本样本；这可以覆盖对于比较简单的数学公式(或者化学式)人们可能不会使用word内置的数学公式编辑器来输入的情况。

6.如权利要求3所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述包含数学公式编辑器输入的定位定长截取具体描述为：将word文档转化为Latex文本，通过正则匹配查找定位用数学公式编辑器输入的公式的位置，然后获取公式长度，如果长度超出目标长度范围则舍弃继续查找，若公式长度在目标范围内则从公式两端的上下文中随机截取一定长度的字符拼接成一个混合样式的文本样本。

7.如权利要求1所述的一种用于数学试卷图像识别的样本自动生成方法，其特征在于，所述数据均衡处理具体描述为：统计所截取的全部样本的字符词频，取平均值，出现频次少于平均值m倍(如m＝0.1)的则表示该字符出现频次过低，对于出现频次过低的字符进行增强处理，具体实现可以包括两个方面：其一，对已经截取的...

【专利技术属性】
技术研发人员：汤敏，李哲，陈家海，叶家鸣，吴波，
申请(专利权)人：安徽七天教育科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人