自动生成文本识别模型训练数据的方法及装置、存储介质制造方法及图纸

技术编号:37477785 阅读:16 留言:0更新日期:2023-05-07 09:19
本发明专利技术涉及数据处理技术领域,具体提供一种自动生成文本识别模型训练数据的方法及装置、存储介质,旨在解决当前以人工标注的方式收集文本识别模型的训练数据存在效率低,费时费力以及无法获取大批量的训练数据的问题。为此目的,本发明专利技术的自动生成文本识别模型训练数据的方法包括:获取包含图片名称、图片中文本内容的数据文件以及标签文件的通用数据集;根据通用数据集训练文本识别模型,得到训练后的文本识别模型;获取限定数据领域的图片,以及对图片进行历史审核并修正过的文本信息所构成的Excel表格;根据限定数据领域的图片、通用数据集的标签文件、所述Excel表格以及文本识别模型生成限定数据领域的训练数据。别模型生成限定数据领域的训练数据。别模型生成限定数据领域的训练数据。

【技术实现步骤摘要】
自动生成文本识别模型训练数据的方法及装置、存储介质


[0001]本专利技术涉及数据处理
,具体提供一种自动生成文本识别模型训练数据的方法及装置、存储介质及控制装置。

技术介绍

[0002]OCR(Optical Character Recognition,光学字符识别)技术是指对输入图像进行分析识别处理,它通过扫描把所有文稿、书籍等材料进行扫描,对扫描的图片进行分析,获取图像中文本信息的过程,是当前应用最为广泛的人工智能技术之一。
[0003]在第三方支付公司为了提高商业审核自动化率及审单人员的审核效率,满足各服务商入网审核的时效要求,提升客户服务的体验感,增强工单大批量入网时审单处理能力,减少因处理不及时引起的客诉问题。审核环节包括审核客户在注册账户时提交的营业执照与其录入到系统中的信息是否一致,此环节应用OCR进行识别。
[0004]然而OCR应用场景的日益增多,从网络下载数据集时,数据集中包含的数据多但不针对任何特定数据领域,对于例如营业执照数据领域,无法获得大量的数据集,目前获取营业执照数据领域的数据集的方式大多为使用人工制作营业执照数据,需要人工使用图像编辑器截取包含文本的图片并保存到本地,以及人工将图片中涉及的文本输入到制表符分隔值(Tab

Separated Values,TSV)格式的数据文件中。这一过程会导致获取大量的营业执照数据领域的训练数据的效率十分低下、费时费力,时间耗费较长等问题。
[0005]相应地,本领域需要一种新的自动生成文本识别模型训练数据的方案来解决上述问题。

技术实现思路

[0006]本专利技术旨在解决上述技术问题,即,解决当前以人工标注的方式收集文本识别模型的训练数据存在效率低,费时费力以及无法获取大批量的训练数据的问题,本专利技术提供了一种自动生成文本识别模型训练数据的方法及装置、存储介质及控制装置。
[0007]在第一方面,本专利技术提供一种自动生成文本识别模型训练数据的方法,该方法包括:
[0008]获取包含图片名称、图片中文本内容的数据文件以及标签文件的通用数据集,其中,所述通用数据集不限定数据领域,所述标签文件中包含通用数据集中出现的所有文本对应的索引值;
[0009]根据所述通用数据集训练文本识别模型,得到训练后的文本识别模型;
[0010]获取限定数据领域的图片,以及对所述图片进行历史审核并修正过的文本信息所构成的Excel表格,其中,所述Excel表格内包括图片名称,以及图片内包含的各项标签名称及各项标签名称对应的文本信息;
[0011]根据限定数据领域的图片、通用数据集的标签文件、所述Excel表格以及文本识别模型生成限定数据领域的训练数据。
[0012]在上述自动生成文本识别模型训练数据的方法的一个技术方案中,所述根据所述通用数据集训练文本识别模型,得到训练后的文本识别模型,包括:
[0013]将通用数据集作为训练数据输入到文本识别模型,文本识别模型输出通用数据集中对应图片的索引值;
[0014]计算文本识别模型输出的索引值和所述标签文件中的索引值的损失函数Loss,并根据Loss的值更新文本识别模型中的权重;
[0015]当文本识别模型中的权重不再更新时,文本识别模型训练完成,得到训练后的文本识别模型。
[0016]在上述自动生成文本识别模型训练数据的方法的一个技术方案中,所述根据Loss的值更新文本识别模型中的权重为:
[0017][0018]其中,α为学习率,wki

为更新后的权重参数,wki为上一次权重参数,Loss为损失函数。
[0019]在上述自动生成文本识别模型训练数据的方法的一个技术方案中,所述限定数据领域为营业执照数据领域,所述图片内包含的各项内容包括统一社会信用代码、注册名称、法人名称和注册日期。
[0020]在上述自动生成文本识别模型训练数据的方法的一个技术方案中,所述根据限定数据领域的图片、通用数据集的标签文件、所述Excel表格以及文本识别模型生成限定数据领域的训练数据,包括:
[0021]将营业执照数据领域的图片输入文本检测模块,文本检测模块将图片中的统一社会信用代码、注册名称、法人名称和注册日期对应的文本内容框选出来;
[0022]将框选出来的图片中的统一社会信用代码、注册名称、法人名称和注册日期对应的图像输入到训练后的文本识别模型,文本识别模型输出图片中的统一社会信用代码、注册名称、法人名称和注册日期对应的框选图像的索引值;
[0023]根据通用数据集中的标签文件,得到索引值对应的文本;
[0024]根据历史审核并修正过的文本信息所构成的Excel表格获取表格中对应图片的统一社会信用代码、注册名称、法人名称和注册日期的文本信息;
[0025]将索引值对应的文本与Excel表格记载的文本进行相似度计算,得到索引值对应的文本与Excel表格记载的文本的相似度得分;
[0026]若相似度得分高于第二阈值,则将输入图片的名称以及根据图片得到的索引值对应的文本生成为训练数据的图片名称和图片中文本内容的数据文件。
[0027]在上述自动生成文本识别模型训练数据的方法的一个技术方案中,该方法还包括:
[0028]若通用数据集的标签文件中未包含营业执照数据领域的图片中包含的文本的索引值,则自动给营业执照数据领域的图片中未包含的文本一个新的索引值,并更新所述通用数据集的标签文件;
[0029]根据营业执照数据领域的图片、更新后的通用数据集的标签文件以及文本识别模型生成包含图片名称和图片中文本内容的数据文件的训练数据。
[0030]在上述自动生成文本识别模型训练数据的方法的一个技术方案中,所述将索引值对应的文本与Excel表格记载的文本进行相似度计算,得到索引值对应的文本与Excel表格记载的文本的相似度得分,包括:
[0031]加载Albert预训练模型;
[0032]构建Albert预训练模型的分词器,将索引值对应的文本与Excel表格记载的文本输入到Albert预训练模型;
[0033]Albert预训练模型输出索引值对应的文本与Excel表格记载的文本的向量表征;
[0034]利用Albert预训练模型输出的索引值对应的文本与Excel表格记载的文本的向量计算两个文本之间欧式距离;
[0035]根据欧式距离,计算索引值对应的文本与Excel表格记载的文本的相似度得分。
[0036]在第二方面,本专利技术提供一种自动生成文本识别模型训练数据的装置,该装置包括:
[0037]第一获取模块,用于获取包含图片名称、图片中文本内容的数据文件以及标签文件的通用数据集,其中,所述通用数据集不限定数据领域,所述标签文件中包含通用数据集中出现的所有文本对应的索引值;
[0038]训练模块,用于根据所述通用数据集训练文本识别模型,得到训练后的文本识别模型;
[0039]第二本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动生成文本识别模型训练数据的方法,其特征在于,包括:获取包含图片名称、图片中文本内容的数据文件以及标签文件的通用数据集,其中,所述通用数据集不限定数据领域,所述标签文件中包含通用数据集中出现的所有文本对应的索引值;根据所述通用数据集训练文本识别模型,得到训练后的文本识别模型;获取限定数据领域的图片,以及对所述图片进行历史审核并修正过的文本信息所构成的Excel表格,其中,所述Excel表格内包括图片名称,以及图片内包含的各项标签名称及各项标签名称对应的文本信息;根据限定数据领域的图片、通用数据集的标签文件、所述Excel表格以及文本识别模型生成限定数据领域的训练数据。2.根据权利要求1所述的自动生成文本识别模型训练数据的方法,其特征在于,所述根据所述通用数据集训练文本识别模型,得到训练后的文本识别模型,包括:将通用数据集作为训练数据输入到文本识别模型,文本识别模型输出通用数据集中对应图片的索引值;计算文本识别模型输出的索引值和所述标签文件中的索引值的损失函数Loss;根据Loss的值更新文本识别模型中的权重;当文本识别模型中的权重不再更新时,文本识别模型训练完成,得到训练后的文本识别模型。3.根据权利要求3所述的自动生成文本识别模型训练数据的方法,其特征在于,所述根据Loss的值更新文本识别模型中的权重为:其中,α为学习率,wki

为更新后的权重参数,wki为上一次权重参数,Loss为损失函数。4.根据权利要求1所述的自动生成文本识别模型训练数据的方法,其特征在于,所述限定数据领域为营业执照数据领域,所述图片内包含的各项内容包括统一社会信用代码、注册名称、法人名称和注册日期。5.根据权利要求4所述的自动生成文本识别模型训练数据的方法,其特征在于,所述根据限定数据领域的图片、通用数据集的标签文件、所述Excel表格以及文本识别模型生成限定数据领域的训练数据,包括:将营业执照数据领域的图片输入文本检测模块,文本检测模块将图片中的统一社会信用代码、注册名称、法人名称和注册日期对应的文本内容框选出来;根据框选出来的图片中的统一社会信用代码、注册名称、法人名称和训练后的文本识别模型得到图片中的统一社会信用代码、注册名称、法人名称和注册日期对应的框选图像的索引值;根据通用数据集中的标签文件,得到索引值对应的文本;根据历史审核并修正过的文本信息所构成的Excel表格获取表格中对应图片的统一社会信用代码、注册名称、法人名称和注册日期的文本信息;将索引值对应的文本与Excel表格记载的文本进行相似度计算,得到索引值对应的文<...

【专利技术属性】
技术研发人员:王闯
申请(专利权)人:北京结慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1