文本识别模型训练方法、文本识别方法、设备及介质技术

技术编号：34904068 阅读：18 留言：0更新日期：2022-09-10 14:15

本申请涉及人工智能技术，提供了文本识别模型训练方法、文本识别方法、设备及介质，利用第一类型图像数据及第二类型图像数据分别建立测试集及训练集，以便利用不同类型的图像数据训练出具有较强泛化能力的文本识别模型，使不同场景下的数据能够进行组合训练，与单一场景下训练模型相比较降低了标注成本，并按照字频对训练集进行压缩，实现对文本识别模型的压缩训练，提高了模型训练的效率，同时，由于在对训练集进行压缩时兼顾了字符的重要性，使训练得到的文本识别模型能够准确识别文本，提升了模型训练及优化的效率。模型训练及优化的效率。模型训练及优化的效率。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别模型训练方法、文本识别方法、设备及介质

[0001]本申请涉及人工智能
，尤其涉及一种文本识别模型训练方法、文本识别方法、设备及介质。

技术介绍

[0002]目前，文本识别模型通常需要精确识别出成千上万个字符，以满足基本的文本识别需求。但是，在中文字库中存在大量的生僻字，这些字符在我们日常生活中较为少见，因此语料数据稀少。并且，标注工程师需要对一张图片内所有文字内容进行标注，标注成本也较高。再者，由于文本识别任务的数据样式存在较大差异，收集不同类型文本图片数据的困难程度也不尽相同，例如，合同等文档类图片数据较为丰富，而手机拍摄的自然场景类图片则较少。
[0003]另外，近年来主要采用深度学习方法进行文本识别，如CNN
‑
RNN（Convolutional Neural Network
‑
Recurrent Neural Network，卷积神经网络
‑
循环神经网络）模型、CNN组合Seq2Seq（Sequence to Sequence，序列到序列模型）模型以及加入注意力机制的CNN
‑
Seq2Seq模型等方法。尽管利用深度学习模型可以准确客观地识别文本内容，但模型主要是对固定的单一场景的静态分布数据进行训练，持续学习以及泛化知识的能力是深度学习模型非常欠缺的。由于数据分布的转移，模型在学习新任务时面临着保留和积累知识的挑战。具体而言，目前基于深度学习方法训练的文本识别模型主要存在如下问题：1）文本识别模型过拟合到单一场景数...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型训练方法，其特征在于，包括：采集第一类型图像数据及第二类型图像数据，并对所述第一类型图像数据进行预处理，得到第一图像数据集，对所述第二类型图像数据进行预处理，得到第二图像数据集；其中，所述第一类型图像数据的数据量大于所述第二类型图像数据的数据量；获取预先构建的字典，并利用所述字典对所述第一图像数据集进行拆分，得到第一训练集及第一测试集；按照配置比例对所述第二图像数据集进行拆分，得到第二训练集及第二测试集；检测所述第一训练集中的高频字及低频字；根据所述高频字及所述低频字对所述第一训练集进行压缩，得到第三训练集；组合所述第二训练集及所述第三训练集，得到第四训练集；利用所述第一训练集及所述第一测试集训练预设识别模型，得到第一识别模型；利用所述第四训练集训练所述第一识别模型；在所述第一识别模型的训练过程中，分别利用所述第一测试集及所述第二测试集对每次迭代的模型进行测试，得到测试结果；根据所述测试结果从每次迭代的模型中选择目标识别模型。2.根据权利要求1所述的文本识别模型训练方法，其特征在于，所述对所述第一类型图像数据进行预处理，得到第一图像数据集，包括：利用文本检测模型检测每个第一类型图像数据的行文本区域，并对检测出的行文本区域进行裁剪，得到每个第一类型图像数据的行文本特征；对每个第一类型图像数据的行文本特征进行标注，得到每个行文本特征所包括的文字；组合标注后的每个第一类型图像数据，得到所述第一图像数据集。3.根据权利要求1所述的文本识别模型训练方法，其特征在于，所述利用所述字典对所述第一图像数据集进行拆分，得到第一训练集及第一测试集，包括：获取所述字典内的每个字符；在所述第一图像数据集中检测出包含每个字符的行文本，得到每个字符对应的行文本特征；从每个字符对应的行文本特征中为每个字符抽取第一预设数量的行文本特征构建所述第一测试集；利用所述第一图像数据集中除所述第一测试集以外的其余数据构建所述第一训练集。4.根据权利要求1所述的文本识别模型训练方法，其特征在于，所述检测所述第一训练集中的高频字及低频字，包括：获取所述字典内所有字符的总数量；计算所述总数量与预设值的乘积，得到目标数量；计算所述第一训练集中每个字符的出现频率；按照所述出现频率由高到低的顺序从所述第一训练集的每个字符中抽取所述目标数量的字符作为所述高频字；将所述第一训练集中除所述高频字以外的其余字符确定为所述低频字。5.根据权利要求1所述的文本...

【专利技术属性】
技术研发人员：莫秀云，王国鹏，王洁瑶，
申请(专利权)人：深圳前海环融联易信息科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人