文本公式的定位方法、模型训练方法及相关装置制造方法及图纸

技术编号：26764531 阅读：31 留言：0更新日期：2020-12-18 23:40

本申请提供了一种文本公式的定位方法、模型训练方法及相关装置，定位方法包括获取待识别图像，将待识别图像输入至文本公式定位模型，分别定位出待识别图像的文本区域和/或公式区域；文本公式定位模型是采用标记有文本公式定位信息的图像样本对改进的Mask‑RCNN网络进行训练得到的，改进的Mask‑RCNN网络包括Attention‑FPN网络，Attention‑FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的。该方法由于采用了文本公式定位模型，识别效率以及准确率高，并且可以同时定位出公式区域和文字区域，大大减少了操作。

全部详细技术资料下载

【技术实现步骤摘要】
文本公式的定位方法、模型训练方法及相关装置
本申请涉及图像处理
，具体涉及一种模型训练方法、装置，以及文本公式的定位方法、装置、终端设备和计算机可读存储介质。
技术介绍
随着科学技术的发展，自动化、智能化已经深入到人们生活的各个方面，例如车站机场等安检时身份验证、票据自动录入、试卷自动批改以及拍照搜题等，而在这些应用中对文档图像进行识别处理成为不可或缺的步骤。目前，在对文档图像进行识别处理时，往往需要先对文字进行定位再进行识别。此外，在某一些实际应用场景中，例如对于在拍照搜题或试卷自动批改时，特别是涉及公式识别的数学、物理、化学科目时，通常需要将常规（或普通）文本和公式分别进行识别，那么首先需要对文本和公式进行分别定位。然而，目前现有的文字定位技术方法都只考虑常规文本定位，并没有区分文本和公式的定位。
技术实现思路
有鉴于此，本申请实施例中提供了一种模型训练方法、装置，以及文本公式的定位方法、装置、终端设备和计算机可读存储介质，以克服现有技术中的文字定位技术方法都只考虑常规文本定位，并没有区分文本和公式的定位的问题。第一方面，本申请实施例提供了一种模型训练方法，所述方法包括：获取图像样本，采用文本公式定位信息对所述图像样本进行标记，得到标记有文本公式定位信息的图像样本；构建改进的Mask-RCNN网络，其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、FasterR-CNN网络和Mask预测网络；其中，Attenti...

【技术保护点】
1.一种模型训练方法，其特征在于，所述方法包括：/n获取图像样本，采用文本公式定位信息对所述图像样本进行标记，得到标记有文本公式定位信息的图像样本；/n构建改进的Mask-RCNN网络，其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、Faster R-CNN网络和Mask预测网络；其中，所述Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；/n将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征，并通过所述Attention-FPN网络进行特征融合得到多尺度特征图；/n将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域；/n采用所述Faster R-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域；/n根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差，和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内，若是，则训练完成，得到文本公式定位模型。/n

【技术特征摘要】
1.一种模型训练方法，其特征在于，所述方法包括：
获取图像样本，采用文本公式定位信息对所述图像样本进行标记，得到标记有文本公式定位信息的图像样本；
构建改进的Mask-RCNN网络，其中所述改进的Mask-RCNN网络包括ResNet网络、Attention-FPN网络、RPN网络、FasterR-CNN网络和Mask预测网络；其中，所述Attention-FPN网络是在FPN网络的自上而下连接结构和横向连接结构中加入注意力模块而形成的；
将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征，并通过所述Attention-FPN网络进行特征融合得到多尺度特征图；
将所述多尺度特征图输入至所述RPN网络生成文本公式的候选区域；
采用所述FasterR-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域；
根据所述文本公式定位信息来判断所述实际文本区域与目标文本区域的偏差，和/或所述实际公式区域与目标公式区域的偏差是否在预设范围内，若是，则训练完成，得到文本公式定位模型。

2.根据权利要求1所述的方法，其特征在于，所述ResNet网络包括ResNet50网络，所述ResNet50网络与所述Attention-FPN网络中各层对应连接形成多层网络结构，所述多层网络结构包括自下而上连接结构、横向连接结构和自上而下连接结构，其中在所述横向连接结构和所述自上而下连接结构中的每一层间设有一个注意力模块；在通过所述Attention-FPN网络进行特征融合得到多尺度特征图的步骤中，包括：
通过所述注意力模块对不同层的特征图进行加权融合，得到多尺度特征图，其中不同层的特征图是通过所述ResNet50网络对图像样本进行图像特征提取生成的。

3.根据权利要求2所述的方法，其特征在于，在采用所述FasterR-CNN网络和所述Mask预测网络对所述候选区域进行分类、定位和分割处理，得到图像样本的实际文本区域和/或实际公式区域的步骤中，包括：
对所述候选区域进行分类，筛选出置信度大于第一预设阈值的候选区域；
对置信度大于第一预设阈值的候选区域进行非极大值抑制处理，筛选出重叠候选区域内概率值最大的候选区域；
对所述概率值最大的候选区域进行定位和分割处理，得到所述图像样本的实际文本区域和/或实际公式区域。

4.根据权利要求1-3任一项所述的方法，其特征在于，在将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征的步骤之前，包括：
将所述标记有文本公式定位信息的图像样本的最长边调整至第二预设阈值，并对调整后的图像样本进行缩放处理。

5.根据权利要求4所述的方法，其特征在于，在将所述标记有文本公式定位信息的图像样本输入所述ResNet网络进行卷积操作提取图像特征的步骤之前，还包括：
按照预设选择概率选择一种或多种增强处理方法对缩放处理后的所述图像样本进行增强处理；
其中当选择多种增强处理方法时，每一种增强处理方法的运行顺序是随机的，所述增强处理方法包括对所述图像样本的RGB三通道进行随机变换顺序处理、亮度变换处理、压缩处理、运动模糊处理和添加噪声处理。

6.根据权利要求5所述的方法，其特征在于，所述压缩处理包括Jpeg压缩；按照预设选择概率选择一种或多种增强处理方法对缩放处理后的所述图像样本进行增强处理的步骤中，包括：
采用所述Jpeg压缩并按照预设压缩强度对缩放处理后的所述图像样本进行压缩处理。

7.一种文本公式的定位方法，其特征在于，所述方法包括：
获取待识别图像；
将所述待...

【专利技术属性】
技术研发人员：李保俊，刘涛，黄家冕，曾鹏，兴百桥，
申请(专利权)人：广州华多网络科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人