识别模型的优化方法和装置制造方法及图纸

技术编号:21893112 阅读:163 留言:0更新日期:2019-08-17 14:58
本发明专利技术涉及图像处理的技术领域,本发明专利技术提供一种识别模型的优化方法和装置,所述方法包括获取识别模型在生产中待识别的第一字段图片;将所述第一字段图片发送至众包平台进行标注,得到对应的标注信息;其中,所述众包平台的用户对所述第一字段图片进行识别标注;定期接收所述众包平台返回的第一字段图片的标注信息,根据所述第一字段图片的标注信息,获取训练字段图片;将所述训练字段图片添加至所述识别模型的训练数据集中,并利用所述训练数据集对所述识别模型进行优化。本发明专利技术避免了不能在短时间内不能获取可信度高的训练字段图片的问题,保证及时对所述识别模型的训练样本进行更新,提升了所述识别模型的识别能力。

Optimizing Method and Device of Recognition Model

【技术实现步骤摘要】
识别模型的优化方法和装置
本专利技术涉及图像处理的
,具体而言,本专利技术涉及一种识别模型的优化方法和装置。
技术介绍
随着智能识别发展的趋势,文字智能识别已经运用至各领域中。目前,文字识别技术主要是通过训练字段识别模型,然后再对目标字段进行识别。但是,生成字段识别模型常常受限于业务方提供的数据,且难以在短时间内完成对字段识别模型进行优化,不利于提高识别模型的识别度。
技术实现思路
为克服以上技术问题,特别是现有技术中识别模型常常受限于业务方提供的数据的问题,特提出以下技术方案:第一方面,本专利技术提供一种识别模型的优化方法,包括以下步骤:获取识别模型在生产中待识别的第一字段图片;将所述第一字段图片发送至众包平台进行标注,得到对应的标注信息;其中,所述众包平台的用户对所述第一字段图片进行识别标注;定期接收所述众包平台返回的第一字段图片的标注信息,根据所述第一字段图片的标注信息,获取训练字段图片;将所述训练字段图片添加至所述识别模型的训练数据集中,并利用所述训练数据集对所述识别模型进行优化。在其中一个实施例中,所述标注信息包括所述第一字段图片的标注编码和众包平台对带有标注编码的第一字段图片的第一识别结果;所述根据所述第一字段图片的标注信息,获取训练字段图片的步骤包括:根据所述标注编码对对应的字段图片的所述第一识别结果进行编码;根据编码的结果,为所述第一识别结果分配对应的标注编码,得到的完成识别的第一字段图片作为训练字段图片。在其中一个实施例中,所述将所述训练字段图片添加至所述识别模型的训练数据集中的步骤前,还包括:对所述第一字段图片进行数据增强处理,得到第二字段图片;将所述第二字段图片发送至所述众包平台进行标注,根据对应的标注编码,获取所述第二字段图片的第二识别结果;将所述第一识别结果与所述第二识别结果进行比较;若两者一致,则将所述第二字段图片作为训练字段图片。在其中一个实施例中,所述对所述第一字段图片进行数据增强处理,得到第二字段图片的步骤,包括:对所述第一字段图片进行有效内容的识别,确定所述第一字段图片的第一有效区域;在所述第一有效区域的边界外对所述第一字段图片进行裁剪;其中,裁剪得到的区域边框为检测框;将所述检测框向内缩减若干个像素,得到第二有效区域,根据所述第二有效区域截取第二字段图片;其中,所述有效内容为所述第一字段图片的字段内容。在其中一个实施例中,在所述将所述有效区域向内缩减若干个像素的步骤之前,还包括:将所述检测框向外扩充若干个像素,得到所述第一有效区域;其中,所述向外扩充的像素大于向内缩减的像素。在其中一个实施例中,所述对所述第一字段图片进行数据增强处理,得到第二字段图片的步骤,包括:将所述第一字段图片向随机方向进行移动的模糊处理,得到所述第二字段图片。在其中一个实施例中,所述对所述第一字段图片进行数据增强处理,得到第二字段图片的步骤,包括:对所述第一字段图片进行若干倍率的下采样处理,降低所述第一字段图片的分辨率,得到所述第二字段图片。第二方面,本专利技术还提供一种识别模型的优化装置,其包括:获取模块,用于获取识别模型在生产中待识别的第一字段图片;标注模块,用于将所述第一字段图片发送至众包平台进行标注,得到对应的标注信息;其中,所述众包平台的用户对所述第一字段图片进行识别标注;接收模块,用于定期接收所述众包平台返回的第一字段图片的标注信息,根据所述第一字段图片的标注信息,获取训练字段图片;优化模块,用于将所述训练字段图片添加至所述识别模型的训练数据集中,并利用所述训练数据集对所述识别模型进行优化。第三方面,本专利技术还提供一种服务器,其包括:一个或多个处理器;存储器;一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行第一方面任一实施例所述的识别模型的优化方法。第四方面,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现第一方面任一实施例所述的识别模型的优化方法。本专利技术所提供的一种识别模型的优化方法和装置,利用所述众包平台完成对大量字段图片进行识别标注,能在较短时间内向所述识别模型提供大量且可信度高的训练字段图片,从而避免了不能在短时间内不能获取可信度高的训练字段图片,也可解决了生产中所产生的大量字段数据,但因未能进行标注而可信度不高的问题,保证及时对所述识别模型的训练样本进行更新,保证所述识别模型在能以较短的时间间隔完成优化,提升所述识别模型的识别能力。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术中的一个实施例的识别模型的优化方法的流程图;图2为本专利技术中的又一个实施例的识别模型的优化方法的流程图;图3为本专利技术中的另一个实施例的识别模型的优化方法的流程图;图4为本专利技术中的所述识别模型的优化方法的一个具体实施例流程图;图5为本专利技术中的一个实施例的识别模型的优化装置的示意图;图6为本专利技术中的一个实施例的服务器的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。为了解决目前字段识别受限于业务方提供的数据,导致影响了识别模型优化的问题,本专利技术提供了一种识别模型的优化方法,请参考图1所示,图1是一个实施例的识别模型的优化方法的流程图,包括以下步骤:S110、获取识别模型在生产中待识别的第一字段图片。在本步骤中,通过服务器获取在业务生产中所产生的字段图片,该字段图片是用于向所述识别模型提供训练数据集的材料,在本实施例中该字段图片被定位为第一字段图片。所述第一字段图片是对识别对象所截取关于字段内容的图片。所述字段内容是未经过结果识别的,若直接将其作为训练数据集对识别模型进行优化,得到的识别模型的识别能力会受到一定程度的影响。S120、将所本文档来自技高网
...

【技术保护点】
1.一种识别模型的优化方法,其特征在于,包括以下步骤:获取识别模型在生产中待识别的第一字段图片;将所述第一字段图片发送至众包平台进行标注,得到对应的标注信息;其中,所述众包平台的用户对所述第一字段图片进行识别标注;定期接收所述众包平台返回的第一字段图片的标注信息,根据所述第一字段图片的标注信息,获取训练字段图片;将所述训练字段图片添加至所述识别模型的训练数据集中,并利用所述训练数据集对所述识别模型进行优化。

【技术特征摘要】
1.一种识别模型的优化方法,其特征在于,包括以下步骤:获取识别模型在生产中待识别的第一字段图片;将所述第一字段图片发送至众包平台进行标注,得到对应的标注信息;其中,所述众包平台的用户对所述第一字段图片进行识别标注;定期接收所述众包平台返回的第一字段图片的标注信息,根据所述第一字段图片的标注信息,获取训练字段图片;将所述训练字段图片添加至所述识别模型的训练数据集中,并利用所述训练数据集对所述识别模型进行优化。2.根据权利要求1所述的方法,其特征在于,所述标注信息包括所述第一字段图片的标注编码和众包平台对带有标注编码的第一字段图片的第一识别结果;所述根据所述第一字段图片的标注信息,获取训练字段图片的步骤包括:根据所述标注编码对对应的第一字段图片的所述第一识别结果进行编码;根据编码的结果,为所述第一识别结果分配对应的标注编码,得到完成识别的第一字段图片作为训练字段图片。3.根据权利要求2所述的方法,其特征在于,所述将所述训练字段图片添加至所述识别模型的训练数据集中的步骤前,还包括:对所述第一字段图片进行数据增强处理,得到第二字段图片;将所述第二字段图片发送至所述众包平台进行标注,根据对应的标注编码获取所述第二字段图片的第二识别结果;将所述第一识别结果与所述第二识别结果进行比较;若两者一致,则将所述第二字段图片作为训练字段图片。4.根据权利要求3所述的方法,其特征在于,所述对所述第一字段图片进行数据增强处理,得到第二字段图片的步骤,包括:对所述第一字段图片进行有效内容的识别,确定所述第一字段图片的第一有效区域;在所述第一有效区域的边界外对所述第一字段图片进行裁剪;其中,裁剪得到的区域边框为检测框;将所述检测框向内缩减若干个像素,得到第二有效区域,根据所述第二有效区域截取第二字段图片;其中...

【专利技术属性】
技术研发人员:许洋刘鹏王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1