光学字符识别模型训练方法、装置、设备及介质制造方法及图纸

技术编号:33247544 阅读:10 留言:0更新日期:2022-04-27 18:02
本发明专利技术涉及人工智能领域,揭露一种光学字符识别模型训练方法,包括:利用搜索引擎对实际生产中的原始图片集及原始数据集进行错误数据筛选,确定错误数据组成负样本数据集和非错误数据组成正样本数据集;利用光学字符识别模型识别正样本数据集、负样本数据集及原始图片集的预测字符集;计算预测字符集与真实字符标注集及错误字符标注集的损失值,若损失值不满足预设条件,调整该模型的参数,直到损失值满足预设条件,得到训练完成的光学字符识别模型。本发明专利技术还涉及一种区块链技术,训练完成的光学字符识别模型可存储在区块链节点中。本发明专利技术还提出一种光学字符识别模型训练装置、设备以及介质。本发明专利技术可以提高光学字符识别模型训练的效率和准确率。练的效率和准确率。练的效率和准确率。

【技术实现步骤摘要】
光学字符识别模型训练方法、装置、设备及介质


[0001]本专利技术涉及人工智能领域,尤其涉及一种光学字符识别模型训练方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着人工智能技术的研究和发展,对光学字符识别模型(比如OCR深度学习识别模型)的识别准确率提出了越来越高的要求,由于一个成熟的OCR深度学习识别模型需要经过几十次甚至上百次的迭代,所以一些科技企业为了获取成熟的OCR深度学习识别模型投入了大量人力物力,实现OCR深度学习识别模型的快速开发和迭代,以满足业务增长的需求。
[0003]但是,传统的光学字符识别模型在训练中存在开发环境训练数据与生产环境数据分布有差异,导致在开发环境中识别效果较佳的光学字符识别模型未必可以在生产环境达到一样好的识别效果,导致光学字符识别模型准确率低下;当识别效果不佳时,仍不断重复构建测试数据进行测试,导致光学字符识别模型训练效率低下且准确率依旧无法得到提高。

技术实现思路

[0004]本专利技术提供一种光学字符识别模型训练方法、装置、电子设备及计算机可读存储介质,其主要目的是为了提高光学字符识别模型训练的效率和准确率。
[0005]为实现上述目的,本专利技术提供的一种光学字符识别模型训练方法,包括:
[0006]获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中;
[0007]当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集;
[0008]获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新;
[0009]将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集;
[0010]通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
[0011]可选地,所述对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集,包括:
[0012]利用预设的搜索引擎获取所述原始数据集中原始数据的序列长度,并利用预设的搜索引擎中的预设筛选语句设置序列长度索引;
[0013]将所述序列长度与所述序列长度索引作长度对比,将与所述序列长度索引的长度不一致的序列长度对应的原始数据组成负样本数据集,并将与所述序列长度索引的长度一致的序列长度对应的原始数据组成正样本数据集。
[0014]可选地,所述确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集之后,所述方法还包括:
[0015]获取所述正样本数据集和所述负样本数据集的数据字段,识别所述数据字段中的敏感字段;
[0016]利用预设的脱敏函数对所述敏感字段进行脱敏操作。
[0017]可选地,所述利用预设的光学字符识别模型识别所述训练数据集的预测字符集,包括:
[0018]利用预设的光学字符识别模型中的卷积层提取所述训练数据集的特征序列,得到字符向量集;
[0019]利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集;
[0020]利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集。
[0021]可选地,所述利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集,包括:
[0022]利用所述循环层中的输入门计算所述字符向量集的状态值;
[0023]利用所述循环层中的遗忘门计算所述字符向量集的激活值;
[0024]根据所述状态至和激活值计算所述字符向量集的状态更新值;
[0025]利用所述循环层中的输出门计算所述状态更新值的字符标签集,得到所述字符向量集的字符标签集。
[0026]可选地,所述利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集,包括:
[0027]利用所述转录层获取所述字符标签集的所有路径概率,从多个所述路径概率中查找每个字符标签对应的最大路径概率;
[0028]合并每个所述最大路径概率,得到所述字符标签集的预测字符集。
[0029]可选地,所述将所述原始图片集和所述原始数据集存入预设的消息队列通道中之前,所述方法还包括:
[0030]建立所述原始数据集和所述原始图片集同所述消息中间件的链接,通过所述链接形成消息队列通道;
[0031]通过所述消息队列通道存储所述原始图片集和原始数据集。
[0032]为了解决上述问题,本专利技术还提供一种光学字符识别模型训练装置,所述装置包括:
[0033]数据集获取模块,用于获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中;
[0034]数据集筛选模块,用于当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集;
[0035]数据集标注模块,用于获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新;
[0036]训练数据集识别模块,用于将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集;
[0037]模型训练模块,用于通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
[0038]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0039]存储器,存储至少一个计算机程序;及
[0040]处理器,执行所述存储器中存储的计算机程序以实现上述所述的光学字符识别模型训练方法。
[0041]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的光学字符识别模型训练方法。
[0042]本专利技术实施例中,首先获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,可以避免开发环境和生产本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种光学字符识别模型训练方法,其特征在于,所述方法包括:获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中;当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集;获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新;将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集;通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。2.如权利要求1所述的光学字符识别模型训练方法,其特征在于,所述对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集,包括:利用预设的搜索引擎获取所述原始数据集中原始数据的序列长度,并利用预设的搜索引擎中的预设筛选语句设置序列长度索引;将所述序列长度与所述序列长度索引作长度对比,将与所述序列长度索引的长度不一致的序列长度对应的原始数据组成负样本数据集,并将与所述序列长度索引的长度一致的序列长度对应的原始数据组成正样本数据集。3.如权利要求1所述的光学字符识别模型训练方法,其特征在于,所述确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集之后,所述方法还包括:获取所述正样本数据集和所述负样本数据集的数据字段,识别所述数据字段中的敏感字段;利用预设的脱敏函数对所述敏感字段进行脱敏操作。4.如权利要求1所述的光学字符识别模型训练方法,其特征在于,所述利用预设的光学字符识别模型识别所述训练数据集的预测字符集,包括:利用预设的光学字符识别模型中的卷积层提取所述训练数据集的特征序列,得到字符向量集;利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集;利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集。5.如权利要求4所述的光学字符识别模型训练方法,其特征在于,所述利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集,包括:利用所述循环层中的输入门计算所述字符向量集的状态值;利用所述循环层中...

【专利技术属性】
技术研发人员:吴天学刘鹏
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1