一种字符识别模型自学习方法、系统、设备及介质技术方案

技术编号:39038441 阅读:12 留言:0更新日期:2023-10-10 11:51
本发明专利技术公开了一种字符识别模型自学习方法、系统、设备及介质,其包括:利用预设识别模型识别待处理图片;将识别结果与关联设备发送的正确标识号进行对比,将对比结果为不一致的数据保存并进行审核;筛选出审核结果为识别错误的数据,将正确标识号与数据中待验证标识号进行逐个对比,将对比不一致的字符进行记录,并查询数据库中字符对应的字符集和坐标集,选取正确的字符进行替换,得到修正数据;将修正数据转换至训练集,对预设识别模型进行迭代训练。从而达到提升识别准确率的目的。从而达到提升识别准确率的目的。从而达到提升识别准确率的目的。

【技术实现步骤摘要】
一种字符识别模型自学习方法、系统、设备及介质


[0001]本专利技术涉及机器学习的
,尤其涉及一种字符识别模型自学习方法、系统、设备及介质。

技术介绍

[0002]机器学习是指机器通过统计学算法,对大量历史数据进行学习,进而利用生成的经验模型指导业务。其主要分为监督学习、无监督学习和强化学习。监督学习是指在输入数据后,通过学习有标记的数据来对数据进行分类或回归分析;无监督学习是指直接对无标记的数据进行分类或回归分析;而强化学习是指通过模拟反馈信号来训练智能体,以使其能够执行指定的任务。
[0003]其中,常规字符识别模型训练的方法是手动制作大量数据集,使用训练模型对做好的数据集进行合理训练后,得到识别准确度较高的成熟模型,通过该模型进行应用检测。但实际检测情况各种各样,再成熟的模型也无法做到识别准确率100%,由此需要一种字符识别模型自学习方法、系统、设备及介质来不断地提高识别模型的准确率。

技术实现思路

[0004]本专利技术实施例通过提供一种字符识别模型自学习方法、系统、设备及介质,至少部分解决了现有技术中对于识别错误,不能进行更新的技术问题,实现了针对识别模型识别的错误进行再次学习并进行迭代的技术效果。
[0005]第一方面,为解决上述技术问题,本专利技术的实施例提供了如下技术方案:
[0006]一种字符识别模型自学习方法,包括:
[0007]利用预设识别模型识别待处理图片;
[0008]将识别结果与关联设备发送的正确标识号进行对比,将对比结果为不一致的数据保存并进行审核;
[0009]筛选出上述审核结果为识别错误的数据,将上述正确标识号与上述数据中待验证标识号进行逐个对比,将对比不一致的字符进行记录,并查询数据库中上述字符对应的字符集和坐标集,选取正确的字符进行替换,得到修正数据;
[0010]将上述修正数据转换至训练集,对上述预设识别模型进行迭代训练。
[0011]可选的,在上述将识别结果与关联设备发送的正确标识号进行对比之前,上述方法还包括:
[0012]将上述预设识别模型识别得到的字符,以预设的标识字符作为开头;
[0013]计算任一上述字符框选的中心坐标,并根据各字符与上述标识字符的距离进行排序,并将结果存入数据库。
[0014]可选的,上述识别结果包括字符和字符框,上述字符以数组形式存储,任一上述字符对应一个坐标数组,上述坐标数组内每个坐标点由图像的横纵坐标组成。
[0015]可选的,上述并根据各字符与上述标识字符的距离进行排序的步骤,还包括:
[0016]将上述标识字符存入字符识别结果数组中的第一位,其余字符按照上述中心坐标距离由小到大在上述数组中进行排序。
[0017]可选的,将上述修正数据转换至训练集的步骤,还包括:
[0018]将上述修正数据中,以任一上述字符在后,对应的坐标点数组内容在前,中间以预设符号隔开,每个上述字符占一行的形式整合成训练集数据。
[0019]可选的,在将上述修正数据转换至训练集之前,上述方法还包括:
[0020]预设不同的文件夹,分别存放被识别错误的图片和图片中各字符对应坐标集;
[0021]上述文件夹在创建时将名称存入数据库中,从中取出上述名称的字符,替换模型训练配置文件中的对应文件夹名称。
[0022]可选的,对上述预设识别模型进行迭代训练的步骤,还包括:
[0023]启动模型训练程序,调用配置文件以及对应的数据集文件夹,利用训练模型在预设识别模型的基础上基于上述训练集进行训练,得到新的识别模型,并替换上述预设识别模型。
[0024]第二方面,提供一种字符识别模型自学习系统,包括:
[0025]图像识别模块,用于利用预设识别模型识别待处理图片;
[0026]核对模块,用于将识别结果与关联设备发送的正确标识号进行对比,将对比结果为不一致的数据保存并进行审核;
[0027]数据集制作模块,用于筛选出上述审核结果为识别错误的数据,将上述正确标识号与上述数据中待验证标识号进行逐个对比,将对比不一致的字符进行记录,并查询数据库中上述字符对应的字符集和坐标集,选取正确的字符进行替换,得到修正数据;
[0028]模型迭代模块,用于将上述修正数据转换至训练集,对上述预设识别模型进行迭代训练。
[0029]第三方面,提供一种电子设备,包括:存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如第一方面上述方法对应的步骤。
[0030]第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面上述方法对应的步骤。
[0031]本专利技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0032]为了提高识别准确率,利用在原识别模型上针对性训练错误识别的数据,并由此产生新的识别模型进行迭代。同时设置程序以流程化的方式进行数据集制作,从而无需进行人工逐一制作,提高了便捷性。
附图说明
[0033]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1为本专利技术提供的一种字符识别模型自学习方法的流程图;
[0035]图2为本专利技术中图像上单个字符识别结果示意图;
[0036]图3为本专利技术中图像上整体字符识别结果示意图;
[0037]图4为本专利技术提供的一种字符识别模型自学习系统的结构示意图;
[0038]图5为本专利技术提供的一种电子设备的结构示意图。
具体实施方式
[0039]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0040]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0041]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0042]应当理解本专利技术实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
[0043]本专利技术实施例的技术方案为解决上述技术问题,总体思路如下:
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种字符识别模型自学习方法,其特征在于,所述方法包括:利用预设识别模型识别待处理图片;将识别结果与关联设备发送的正确标识号进行对比,将对比结果为不一致的数据保存并进行审核;筛选出所述审核结果为识别错误的数据,将所述正确标识号与所述数据中待验证标识号进行逐个对比,将对比不一致的字符进行记录,并查询数据库中所述字符对应的字符集和坐标集,选取正确的字符进行替换,得到修正数据;将所述修正数据转换至训练集,对所述预设识别模型进行迭代训练。2.如权利要求1所述的方法,其特征在于,在所述将识别结果与关联设备发送的正确标识号进行对比之前,所述方法还包括:将所述预设识别模型识别得到的字符,以预设的标识字符作为开头;计算任一所述字符框选的中心坐标,并根据各字符与所述标识字符的距离进行排序,并将结果存入数据库。3.如权利要求2所述的方法,其特征在于,所述识别结果包括字符和字符框,所述字符以数组形式存储,任一所述字符对应一个坐标数组,所述坐标数组内每个坐标点由图像的横纵坐标组成。4.如权利要求3所述的方法,其特征在于,所述并根据各字符与所述标识字符的距离进行排序的步骤,还包括:将所述标识字符存入字符识别结果数组中的第一位,其余字符按照所述中心坐标距离由小到大在所述数组中进行排序。5.如权利要求1所述的方法,其特征在于,将所述修正数据转换至训练集的步骤,还包括:将所述修正数据中,以任一所述字符在后,对应的坐标点数组内容在前,中间以预设符号隔开,每个所述字符占一行的形式整合成训练集数据。6.如权利要求1所述的方法,其特征...

【专利技术属性】
技术研发人员:贾为征马柯
申请(专利权)人:北京首钢自动化信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1