自动生成文本识别模型训练数据的方法及装置、存储介质制造方法及图纸

技术编号：37477785 阅读：16 留言：0更新日期：2023-05-07 09:19

本发明专利技术涉及数据处理技术领域，具体提供一种自动生成文本识别模型训练数据的方法及装置、存储介质，旨在解决当前以人工标注的方式收集文本识别模型的训练数据存在效率低，费时费力以及无法获取大批量的训练数据的问题。为此目的，本发明专利技术的自动生成文本识别模型训练数据的方法包括：获取包含图片名称、图片中文本内容的数据文件以及标签文件的通用数据集；根据通用数据集训练文本识别模型，得到训练后的文本识别模型；获取限定数据领域的图片，以及对图片进行历史审核并修正过的文本信息所构成的Excel表格；根据限定数据领域的图片、通用数据集的标签文件、所述Excel表格以及文本识别模型生成限定数据领域的训练数据。别模型生成限定数据领域的训练数据。别模型生成限定数据领域的训练数据。

全部详细技术资料下载

【技术实现步骤摘要】
自动生成文本识别模型训练数据的方法及装置、存储介质

[0001]本专利技术涉及数据处理
，具体提供一种自动生成文本识别模型训练数据的方法及装置、存储介质及控制装置。

技术介绍

[0002]OCR(Optical Character Recognition，光学字符识别)技术是指对输入图像进行分析识别处理，它通过扫描把所有文稿、书籍等材料进行扫描，对扫描的图片进行分析，获取图像中文本信息的过程，是当前应用最为广泛的人工智能技术之一。
[0003]在第三方支付公司为了提高商业审核自动化率及审单人员的审核效率，满足各服务商入网审核的时效要求，提升客户服务的体验感，增强工单大批量入网时审单处理能力，减少因处理不及时引起的客诉问题。审核环节包括审核客户在注册账户时提交的营业执照与其录入到系统中的信息是否一致，此环节应用OCR进行识别。
[0004]然而OCR应用场景的日益增多，从网络下载数据集时，数据集中包含的数据多但不针对任何特定数据领域，对于例如营业执照数据领域，无法获得大量的数据集，目前获取营业执照数据领域的数据集的方式大多为使用人工制作营业执照数据，需要人工使用图像编辑器截取包含文本的图片并保存到本地，以及人工将图片中涉及的文本输入到制表符分隔值(Tab
‑
Separated Values，TSV)格式的数据文件中。这一过程会导致获取大量的营业执照数据领域的训练数据的效率十分低下、费时费力，时间耗费较长等问题。
[0005]相应地，本领域需要一种新的自动生成文本识别模型训...

【技术保护点】

【技术特征摘要】
1.一种自动生成文本识别模型训练数据的方法，其特征在于，包括：获取包含图片名称、图片中文本内容的数据文件以及标签文件的通用数据集，其中，所述通用数据集不限定数据领域，所述标签文件中包含通用数据集中出现的所有文本对应的索引值；根据所述通用数据集训练文本识别模型，得到训练后的文本识别模型；获取限定数据领域的图片，以及对所述图片进行历史审核并修正过的文本信息所构成的Excel表格，其中，所述Excel表格内包括图片名称，以及图片内包含的各项标签名称及各项标签名称对应的文本信息；根据限定数据领域的图片、通用数据集的标签文件、所述Excel表格以及文本识别模型生成限定数据领域的训练数据。2.根据权利要求1所述的自动生成文本识别模型训练数据的方法，其特征在于，所述根据所述通用数据集训练文本识别模型，得到训练后的文本识别模型，包括：将通用数据集作为训练数据输入到文本识别模型，文本识别模型输出通用数据集中对应图片的索引值；计算文本识别模型输出的索引值和所述标签文件中的索引值的损失函数Loss；根据Loss的值更新文本识别模型中的权重；当文本识别模型中的权重不再更新时，文本识别模型训练完成，得到训练后的文本识别模型。3.根据权利要求3所述的自动生成文本识别模型训练数据的方法，其特征在于，所述根据Loss的值更新文本识别模型中的权重为：其中，α为学习率，wki
′
为更新后的权重参数，wki为上一次权重参数，Loss为损失函数。4.根据权利要求1所述的自动生成文本识别模型训练数据的方法，其特征在于，所述限定数据领域为营业执照数据领域，所述图片内包含的各项内容包括统一社会信用代码、注册名称、法人名称和注册日期。5.根据权利要求4所述的自动生成文本识别模型训练数据的方法，其特征在于，所述根据限定数据领域的图片、通用数据集的标签文件、所述Excel表格以及文本识别模型生成限定数据领域的训练数据，包括：将营业执照数据领域的图片输入文本检测模块，文本检测模块将图片中的统一社会信用代码、注册名称、法人名称和注册日期对应的文本内容框选出来；根据框选出来的图片中的统一社会信用代码、注册名称、法人名称和训练后的文本识别模型得到图片中的统一社会信用代码、注册名称、法人名称和注册日期对应的框选图像的索引值；根据通用数据集中的标签文件，得到索引值对应的文本；根据历史审核并修正过的文本信息所构成的Excel表格获取表格中对应图片的统一社会信用代码、注册名称、法人名称和注册日期的文本信息；将索引值对应的文本与Excel表格记载的文本进行相似度计算，得到索引值对应的文<...

【专利技术属性】
技术研发人员：王闯，
申请(专利权)人：北京结慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人