文本识别模型训练方法、文本识别方法、设备及介质技术

技术编号:34904068 阅读:18 留言:0更新日期:2022-09-10 14:15
本申请涉及人工智能技术,提供了文本识别模型训练方法、文本识别方法、设备及介质,利用第一类型图像数据及第二类型图像数据分别建立测试集及训练集,以便利用不同类型的图像数据训练出具有较强泛化能力的文本识别模型,使不同场景下的数据能够进行组合训练,与单一场景下训练模型相比较降低了标注成本,并按照字频对训练集进行压缩,实现对文本识别模型的压缩训练,提高了模型训练的效率,同时,由于在对训练集进行压缩时兼顾了字符的重要性,使训练得到的文本识别模型能够准确识别文本,提升了模型训练及优化的效率。模型训练及优化的效率。模型训练及优化的效率。

【技术实现步骤摘要】
文本识别模型训练方法、文本识别方法、设备及介质


[0001]本申请涉及人工智能
,尤其涉及一种文本识别模型训练方法、文本识别方法、设备及介质。

技术介绍

[0002]目前,文本识别模型通常需要精确识别出成千上万个字符,以满足基本的文本识别需求。但是,在中文字库中存在大量的生僻字,这些字符在我们日常生活中较为少见,因此语料数据稀少。并且,标注工程师需要对一张图片内所有文字内容进行标注,标注成本也较高。再者,由于文本识别任务的数据样式存在较大差异,收集不同类型文本图片数据的困难程度也不尽相同,例如,合同等文档类图片数据较为丰富,而手机拍摄的自然场景类图片则较少。
[0003]另外,近年来主要采用深度学习方法进行文本识别,如CNN

RNN(Convolutional Neural Network

Recurrent Neural Network,卷积神经网络

循环神经网络)模型、CNN组合Seq2Seq(Sequence to Sequence,序列到序列模型)模型以及加入注意力机制的CNN

Seq2Seq模型等方法。尽管利用深度学习模型可以准确客观地识别文本内容,但模型主要是对固定的单一场景的静态分布数据进行训练,持续学习以及泛化知识的能力是深度学习模型非常欠缺的。由于数据分布的转移,模型在学习新任务时面临着保留和积累知识的挑战。具体而言,目前基于深度学习方法训练的文本识别模型主要存在如下问题:1)文本识别模型过拟合到单一场景数据,泛化能力差。对于文本识别的算法研究,大多数模型和算法对文本数据进行识别时,都仅针对于一种场景,导致模型的迁移性和泛化性差。例如,基于扫描文档类文本数据训练的识别模型,在自然场景类文本数据上的识别效果则不佳。
[0004]2)当训练数据很小时,模型识别的准确率极低。
[0005]3)文本识别模型的迭代优化效率低。现有的文本识别模型大都是从千万级的训练数据中学习,当加入新任务数据时,为了有更好的识别效果,通常需要从头开始训练模型,等待更新的时间可能达到数小时、数天或数周,等待周期较长。

技术实现思路

[0006]本申请实施例提供了一种文本识别模型训练方法、文本识别方法、设备及介质,旨在解决文本识别模型泛化能力差、准确率低,以及优化效率低的问题。
[0007]第一方面,本申请实施例提供了一种文本识别模型训练方法,其包括:采集第一类型图像数据及第二类型图像数据,并对所述第一类型图像数据进行预处理,得到第一图像数据集,对所述第二类型图像数据进行预处理,得到第二图像数据集;获取预先构建的字典,并利用所述字典对所述第一图像数据集进行拆分,得到第一训练集及第一测试集;按照配置比例对所述第二图像数据集进行拆分,得到第二训练集及第二测试集;
检测所述第一训练集中的高频字及低频字;根据所述高频字及所述低频字对所述第一训练集进行压缩,得到第三训练集;组合所述第二训练集及所述第三训练集,得到第四训练集;利用所述第一训练集及所述第一测试集训练预设识别模型,得到第一识别模型;利用所述第四训练集训练所述第一识别模型;在所述第一识别模型的训练过程中,分别利用所述第一测试集及所述第二测试集对每次迭代的模型进行测试,得到测试结果;根据所述测试结果从每次迭代的模型中选择目标识别模型;获取待识别图像,并利用所述目标识别模型对所述待识别图像进行文本识别,得到识别结果。
[0008]第二方面,本申请实施例提供了一种文本识别方法,所述文本识别方法利用第一方面所述的文本识别模型训练方法训练得到目标识别模型,所述方法包括:获取待识别图像;利用所述目标识别模型对所述待识别图像进行文本识别,得到识别结果。
[0009]第三方面,本申请实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的文本识别模型训练方法,及/或文本识别方法。
[0010]第四方面,本申请实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的文本识别模型训练方法,及/或文本识别方法。
[0011]本申请实施例提供了一种文本识别模型训练方法、文本识别方法、设备及介质,能够利用不同类型的图像数据训练出具有较强泛化能力的文本识别模型,与单一场景下训练模型相比较降低了标注成本,进一步通过字频压缩训练数据,在保证模型准确性的同时降低了模型训练的计算成本,并提升了模型训练及优化的效率。
附图说明
[0012]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本申请实施例提供的文本识别模型训练方法的应用场景示意图;图2为本申请实施例提供的文本识别模型训练方法的流程示意图;图3为本申请实施例提供的文本识别模型训练方法中预处理过程的示意图;图4为本申请实施例提供的文本识别方法的流程示意图;图5为本申请实施例提供的文本识别模型训练装置的示意性框图;图6为本申请实施例提供的文本识别装置的示意性框图;图7为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
[0014]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完
整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0015]应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和
ꢀ“
包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0016]还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0017]还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0018]请参阅图1和图2,图1为本申请实施例提供的文本识别模型训练方法的应用场景示意图;图2为本申请实施例提供的文本识别模型训练方法的流程示意图,该文本识别模型训练方法可应用于服务器中,并可通过安装于服务器中的应用软件进行执行。
[0019]如图2所示,该方法包括步骤S101~S110。
[0020]S101、采集本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本识别模型训练方法,其特征在于,包括:采集第一类型图像数据及第二类型图像数据,并对所述第一类型图像数据进行预处理,得到第一图像数据集,对所述第二类型图像数据进行预处理,得到第二图像数据集;其中,所述第一类型图像数据的数据量大于所述第二类型图像数据的数据量;获取预先构建的字典,并利用所述字典对所述第一图像数据集进行拆分,得到第一训练集及第一测试集;按照配置比例对所述第二图像数据集进行拆分,得到第二训练集及第二测试集;检测所述第一训练集中的高频字及低频字;根据所述高频字及所述低频字对所述第一训练集进行压缩,得到第三训练集;组合所述第二训练集及所述第三训练集,得到第四训练集;利用所述第一训练集及所述第一测试集训练预设识别模型,得到第一识别模型;利用所述第四训练集训练所述第一识别模型;在所述第一识别模型的训练过程中,分别利用所述第一测试集及所述第二测试集对每次迭代的模型进行测试,得到测试结果;根据所述测试结果从每次迭代的模型中选择目标识别模型。2.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述对所述第一类型图像数据进行预处理,得到第一图像数据集,包括:利用文本检测模型检测每个第一类型图像数据的行文本区域,并对检测出的行文本区域进行裁剪,得到每个第一类型图像数据的行文本特征;对每个第一类型图像数据的行文本特征进行标注,得到每个行文本特征所包括的文字;组合标注后的每个第一类型图像数据,得到所述第一图像数据集。3.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述利用所述字典对所述第一图像数据集进行拆分,得到第一训练集及第一测试集,包括:获取所述字典内的每个字符;在所述第一图像数据集中检测出包含每个字符的行文本,得到每个字符对应的行文本特征;从每个字符对应的行文本特征中为每个字符抽取第一预设数量的行文本特征构建所述第一测试集;利用所述第一图像数据集中除所述第一测试集以外的其余数据构建所述第一训练集。4.根据权利要求1所述的文本识别模型训练方法,其特征在于,所述检测所述第一训练集中的高频字及低频字,包括:获取所述字典内所有字符的总数量;计算所述总数量与预设值的乘积,得到目标数量;计算所述第一训练集中每个字符的出现频率;按照所述出现频率由高到低的顺序从所述第一训练集的每个字符中抽取所述目标数量的字符作为所述高频字;将所述第一训练集中除所述高频字以外的其余字符确定为所述低频字。5.根据权利要求1所述的文本...

【专利技术属性】
技术研发人员:莫秀云王国鹏王洁瑶
申请(专利权)人:深圳前海环融联易信息科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1