文本公式的定位方法、模型训练方法及相关装置制造方法及图纸

技术编号:26764531 阅读:31 留言:0更新日期:2020-12-18 23:40
本申请提供了一种文本公式的定位方法、模型训练方法及相关装置,定位方法包括获取待识别图像,将待识别图像输入至文本公式定位模型,分别定位出待识别图像的文本区域和/或公式区域;文本公式定位模型是采用标记有文本公式定位信息的图像样本对改进的Mask‑RCNN网络进行训练得到的,改进的Mask‑RCNN网络包括Attention‑FPN网络,Attention‑FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的。该方法由于采用了文本公式定位模型,识别效率以及准确率高,并且可以同时定位出公式区域和文字区域,大大减少了操作。

【技术实现步骤摘要】
文本公式的定位方法、模型训练方法及相关装置
本申请涉及图像处理
,具体涉及一种模型训练方法、装置,以及文本公式的定位方法、装置、终端设备和计算机可读存储介质。
技术介绍
随着科学技术的发展,自动化、智能化已经深入到人们生活的各个方面,例如车站机场等安检时身份验证、票据自动录入、试卷自动批改以及拍照搜题等,而在这些应用中对文档图像进行识别处理成为不可或缺的步骤。目前,在对文档图像进行识别处理时,往往需要先对文字进行定位再进行识别。此外,在某一些实际应用场景中,例如对于在拍照搜题或试卷自动批改时,特别是涉及公式识别的数学、物理、化学科目时,通常需要将常规(或普通)文本和公式分别进行识别,那么首先需要对文本和公式进行分别定位。然而,目前现有的文字定位技术方法都只考虑常规文本定位,并没有区分文本和公式的定位。
技术实现思路
有鉴于此,本申请实施例中提供了一种模型训练方法、装置,以及文本公式的定位方法、装置、终端设备和计算机可读存储介质,以克服现有技术中的文字定位技术方法都只考虑常规文本定位,并没有区分文本和公式的定位的问题。第一方面,本申请实施例提供了一种模型训练方法,所述方法包括:获取图像样本,采用文本公式定位信息对所述图像样本进行标记,得到标记有文本公式定位信息的图像样本;构建改进的Mask-RCNN网络,其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、FasterR-CNN网络和Mask预测网络;其中,Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的;将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征,并通过所述Attention-FPN网络进行特征融合得到多尺度特征图;将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域;采用FasterR-CNN网络和Mask预测网络对所述候选区域进行分类、定位和分割处理,得到图像样本的实际文本区域和/或实际公式区域;根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差,和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内,若是,则训练完成,得到文本公式定位模型。第二方面,本申请实施例提供了一种模型训练装置,所述装置包括:样本获取模块,用于获取图像样本;样本标记模块,用于采用文本公式定位信息对所述图像样本进行标记,得到标记有文本公式定位信息的图像样本;网络构建模块,用于构建改进的Mask-RCNN网络,其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、FasterR-CNN网络和Mask预测网络;其中,Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的;特征提取模块,用于将所述标记有文本公式定位信息的图像样本输入ResNet网络进行卷积操作提取图像特征;特征融合模块,用于通过所述Attention-FPN网络进行特征融合得到多尺度特征图;候选区域生成模块,用于将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域;实际文本公式区域获得模块,用于采用所述FasterR-CNN网络和所述Mask预测网络对候选区域进行分类、定位和分割处理,得到图像样本的实际文本区域和/或实际公式区域;判断模块,用于根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差,和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内;文本公式定位模型获得模块,用于若所述实际文本区域与目标文本区域的偏差,和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内,则训练完成,得到文本公式定位模型。第三方面,本申请实施例提供了一种文本公式的定位方法,该方法包括:获取待识别图像;将所述待识别图像输入至文本公式定位模型,分别定位出所述待识别图像的文本区域和/或公式区域;其中,所述文本公式定位模型是采用第一方面提供的模型训练方法训练得到的。第四方面,本申请实施例提供了一种文本公式的定位装置,该装置包括:待识别图像获取模块,用于获取待识别图像;区域定位模块,用于将所述待识别图像输入至文本公式定位模型,分别定位出所述待识别图像的文本区域和/或公式区域;其中,所述文本公式定位模型是采用第一方面提供的模型训练方法训练得到的。第五方面,本申请实施例提供了一种终端设备,包括:存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面提供的模型训练方法,和/或第三方面提供的文本公式的定位方法。第六方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的模型训练方法,和/或第三方面提供的文本公式的定位方法。本专利技术实施例提供的模型训练方法、装置、终端设备和计算机可读存储介质,获取图像样本,采用文本公式定位信息对图像样本进行标记,得到标记有文本公式定位信息的图像样本;构建改进的Mask-RCNN网络,其中改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、FasterR-CNN网络和Mask预测网络;其中,Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的;将标记有文本公式定位信息的图像样本输入ResNet网络进行卷积操作提取图像特征,并通过Attention-FPN网络进行特征融合得到多尺度特征图;将多尺度特征图输入至RPN网络生成文本公式的候选区域;采用FasterR-CNN网络和Mask预测网络对候选区域进行分类、定位和分割处理,得到图像样本的实际文本区域和/或实际公式区域;根据文本公式定位信息来判断实际文本区域与目标文本区域的偏差,和/或实际公式区域与目标公式区域的偏差是否在预设范围内,若是,则训练完成,得到文本公式定位模型。该模型训练方法采用了标记有文本公式定位信息(即已知文本位置和/或公式位置)的图像样本来训练改进的Mask-RCNN网络从而得到文本公式定位模型,即采用一个模型对多个属性(即文本和公式)同时进行学习训练大大减少了操作;并且该方法采用了改进的Mask-RCNN网络,提高了识别的效率以及准确率。本申请实施例提供的文本公式的定位方法、装置、终端设备和计算机可读存储介质,获取待识别图像;将待识别图像输入至文本公式定位模型,分别定位出待识别图像的文本区域和公式区域;其中,文本公式定位模型是采用第一方面提供的模型训练方法训练得到的;该方法由于采用了文本公式定位模型,文本公式定位模型识别效率以及准确率高,那么该文本公式的定位方法识别效率以及准本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:/n获取图像样本,采用文本公式定位信息对所述图像样本进行标记,得到标记有文本公式定位信息的图像样本;/n构建改进的Mask-RCNN网络,其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络;其中,所述Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的;/n将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征,并通过所述Attention-FPN网络进行特征融合得到多尺度特征图;/n将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域;/n采用所述Faster R-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理,得到图像样本的实际文本区域和/或实际公式区域;/n根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差,和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内,若是,则训练完成,得到文本公式定位模型。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
获取图像样本,采用文本公式定位信息对所述图像样本进行标记,得到标记有文本公式定位信息的图像样本;
构建改进的Mask-RCNN网络,其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、FasterR-CNN网络和Mask预测网络;其中,所述Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的;
将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征,并通过所述Attention-FPN网络进行特征融合得到多尺度特征图;
将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域;
采用所述FasterR-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理,得到图像样本的实际文本区域和/或实际公式区域;
根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差,和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内,若是,则训练完成,得到文本公式定位模型。


2.根据权利要求1所述的方法,其特征在于,所述ResNet网络包括ResNet50网络,所述ResNet50网络与所述Attention-FPN网络中各层对应连接形成多层网络结构,所述多层网络结构包括自下而上连接结构、横向连接结构和自上而下连接结构,其中在所述横向连接结构和所述自上而下连接结构中的每一层间设有一个注意力模块;在通过所述Attention-FPN网络进行特征融合得到多尺度特征图的步骤中,包括:
通过所述注意力模块对不同层的特征图进行加权融合,得到多尺度特征图,其中不同层的特征图是通过所述ResNet50网络对图像样本进行图像特征提取生成的。


3.根据权利要求2所述的方法,其特征在于,在采用所述FasterR-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理,得到图像样本的实际文本区域和/或实际公式区域的步骤中,包括:
对所述候选区域进行分类,筛选出置信度大于第一预设阈值的候选区域;
对置信度大于第一预设阈值的候选区域进行非极大值抑制处理,筛选出重叠候选区域内概率值最大的候选区域;
对所述概率值最大的候选区域进行定位和分割处理,得到所述图像样本的实际文本区域和/或实际公式区域。


4.根据权利要求1-3任一项所述的方法,其特征在于,在将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征的步骤之前,包括:
将所述标记有文本公式定位信息的图像样本的最长边调整至第二预设阈值,并对调整后的图像样本进行缩放处理。


5.根据权利要求4所述的方法,其特征在于,在将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征的步骤之前,还包括:
按照预设选择概率选择一种或多种增强处理方法对缩放处理后的所述图像样本进行增强处理;
其中当选择多种增强处理方法时,每一种增强处理方法的运行顺序是随机的,所述增强处理方法包括对所述图像样本的RGB三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理。


6.根据权利要求5所述的方法,其特征在于,所述压缩处理包括Jpeg压缩;按照预设选择概率选择一种或多种增强处理方法对缩放处理后的所述图像样本进行增强处理的步骤中,包括:
采用所述Jpeg压缩并按照预设压缩强度对缩放处理后的所述图像样本进行压缩处理。


7.一种文本公式的定位方法,其特征在于,所述方法包括:
获取待识别图像;
将所述待...

【专利技术属性】
技术研发人员:李保俊刘涛黄家冕曾鹏兴百桥
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1