检测模型的训练集更新方法和装置制造方法及图纸

技术编号:21832889 阅读:13 留言:0更新日期:2019-08-10 18:05
本发明专利技术涉及数据更新的技术领域,本发明专利技术提供一种检测模型的训练集更新方法和装置,所述方法包括获取样本图片,并根据字段检测算法从所述样本图片中识别字段区域并标注第一检测框;依据设定比例将所述第一检测框向四周进行扩张得到第二检测框,并根据所述第二检测框对所述样本图片进行裁剪,得到目标字段图片;利用众包平台识别所述目标字段图片的所述第二检测框是否错位,并进行错位标注;接收所述众包平台返回的已识别目标字段图片,若所述众包平台的标注用户根据所述错位标注,对错位的所述目标字段图片进行修正,确定所述字段检测算法存在错误;将所述修正过的目标字段图片更新到检测模型的训练集。本发明专利技术能提高检测模型的检测能力。

Training Set Updating Method and Device for Detection Model

【技术实现步骤摘要】
检测模型的训练集更新方法和装置
本专利技术涉及数据更新的
,具体而言,本专利技术涉及一种检测模型的训练集更新方法和装置。
技术介绍
在字段检测的领域中,为了对提高字段检测的精准度和效率,通常对字段检测模型进行优化。目前,尤其是对包含多个字段的检测,相应的字段检测模型的优化方案将字段检测的认为平摊至两个字段检测模型上执行,虽然检测效果比只在一个字段检测模型执行的效果要好,但其所占用的服务器资源会增加。
技术实现思路
为克服以上技术问题,特别是现有技术的检测模型检测速度慢或占用服务器大量资源的问题,特提出以下技术方案:第一方面,本专利技术提供一种检测模型的训练集更新方法,包括以下步骤:获取样本图片,并根据字段检测算法从所述样本图片中识别字段区域并标注第一检测框;依据设定比例将所述第一检测框向四周进行扩张得到第二检测框,并根据所述第二检测框对所述样本图片进行裁剪,得到目标字段图片;利用众包平台识别所述目标字段图片的所述第二检测框是否错位,并进行错位标注;接收所述众包平台返回的已识别目标字段图片,若所述众包平台的标注用户根据所述错位标注,对错位的所述目标字段图片进行修正,确定所述字段检测算法存在错误;将所述修正过的目标字段图片更新到检测模型的训练集。在其中一个实施例中,在所述利用众包平台识别所述目标字段图片的检测框是否错位,并进行错位标注的步骤之前,还包括:将所述目标字段图片发送至众包平台,并得到所述众包平台的标注用户对所述目标字段图片的字段内容的语义进行判断;根据判断的结果,得到所述字段内容的类别,并进行类别标注。在其中一个实施例中,在所述得到目标字段图片的步骤之后,还包括:根据所述字段检测算法对所述目标字段图片进行类别识别;在所述根据判断的结果,得到所述字段内容的类别,并进行类别标注的步骤之后,还包括:将所述类别识别的结果与所述类别标注的结果进行对比;若对比的结果不同,则标注为类别识别错误,对对应的目标字段图片进行丢弃。在其中一个实施例中,所述利用众包平台识别所述目标字段图片的检测框是否错位,并进行错位标注的步骤包括:所述对比的结果相同,则根据将所述目标字段图片分配至所述众包平台的标注用户进行识别;根据识别的结果,判断对所述目标字段图片的第二检测框是否错位;若所述检测框错位,进行错位标注。在其中一个实施例中,所述检测模型的训练集更新方法还包括:若所述标注用户没有对所述目标字段图片进行修正,将对应的目标字段图片进行丢弃。在其中一个实施例中,所述获取样本图片,并根据字段检测算法从所述样本图片中识别字段区域并标注第一检测框的步骤包括:获取样本图片,以检测模型的训练集的字段数据为依据,根据字段检测算法将所述样本图片分成不同字段构成的各个字段区域;根据各个字段区域的边界,各自标注对应的第一检测框。在其中一个实施例中,所述将所述修正过的目标字段图片更新到检测模型的训练集的步骤包括:将所述修正过的目标字段图片的保存;定期获取经过修正的目标字段图片,对所述训练集进行更新。第二方面,本专利技术还提供一种检测模型的训练集更新装置,其包括:区域标注模块,用于获取样本图片,并根据字段检测算法从所述样本图片中识别字段区域并标注第一检测框;裁剪模块,用于依据设定比例将所述第一检测框向四周进行扩张得到第二检测框,并根据所述第二检测框对所述样本图片进行裁剪,得到目标字段图片;错位标注模块,用于利用众包平台识别所述目标字段图片的所述第二检测框是否错位,并进行错位标注;修正模块,用于接收所述众包平台返回的已识别目标字段图片,若所述众包平台的标注用户根据所述错位标注,对错位的所述目标字段图片进行修正,确定所述字段检测算法存在错误;更新模块,用于将所述修正过的目标字段图片更新到检测模型的训练集。第三方面,本专利技术还提供一种服务器,其包括:一个或多个处理器;存储器;一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行第一方面任一实施例所述的检测模型的训练集更新方法。第四方面,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现第一方面任一实施例所述的检测模型的训练集更新方法。本专利技术所提供的一种检测模型的训练集更新方法和装置,利用所述众包平台对样本图片处理后形成的目标字段图片进行识别并得到对应的修正结果,最终完成对检测模型进行更新的目的。这样,结合所述众包平台对检测模型进行更新,可以避免使用两个检测模型增加服务器资源的情况,或者是现有仅仅使用一个检测模型延长了整体样本图片的识别时间,在较短的时间内完成对样本图片的检测,且可以利用所述众包平台的标注用户的修正结果,对目标字段图片进行及时的更正,以提高对所述检测模型的更新的准确性和速度。本专利技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术中的一个实施例的检测模型的训练集更新方法的流程图;图2为本专利技术中的另一个实施例的检测模型的训练集更新方法的流程图;图3为本专利技术中的所述检测模型的训练集更新方法的一个具体实施例流程图;图4为本专利技术中的一个实施例的检测模型的训练集更新装置的示意图;图5为本专利技术中的一个实施例的服务器的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本
技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本专利技术的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。本
技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本专利技术所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。为了解决目前字段检测方法占用服务器资源的问题,本专利技术提供了一种检测模型的训练集更新方法,请参考图1所示,图1是一个实施例的检测模型的训练集更新方法的流程图,包括以下步骤:S110、获取样本图片,并根据字段检测算法从所述样本图片中识别字段区域并标注第一检测框。从实际生产的过程中获取样本图片,其中,所述样本图片需进行字段识别检测。所述样本图片可以是包括少数或单独的字段内容的图片,也可以是关于一份文本文档来自技高网
...

【技术保护点】
1.一种检测模型的训练集更新方法,其特征在于,包括以下步骤:获取样本图片,并根据字段检测算法从所述样本图片中识别字段区域并标注第一检测框;依据设定比例将所述第一检测框向四周进行扩张得到第二检测框,并根据所述第二检测框对所述样本图片进行裁剪,得到目标字段图片;利用众包平台识别所述目标字段图片的所述第二检测框是否错位,并进行错位标注;接收所述众包平台返回的已识别目标字段图片,若所述众包平台的标注用户根据所述错位标注,对错位的所述目标字段图片进行修正,确定所述字段检测算法存在错误;将所述修正过的目标字段图片更新到检测模型的训练集。

【技术特征摘要】
1.一种检测模型的训练集更新方法,其特征在于,包括以下步骤:获取样本图片,并根据字段检测算法从所述样本图片中识别字段区域并标注第一检测框;依据设定比例将所述第一检测框向四周进行扩张得到第二检测框,并根据所述第二检测框对所述样本图片进行裁剪,得到目标字段图片;利用众包平台识别所述目标字段图片的所述第二检测框是否错位,并进行错位标注;接收所述众包平台返回的已识别目标字段图片,若所述众包平台的标注用户根据所述错位标注,对错位的所述目标字段图片进行修正,确定所述字段检测算法存在错误;将所述修正过的目标字段图片更新到检测模型的训练集。2.根据权利要求1所述的方法,其特征在于,在所述利用众包平台识别所述目标字段图片的检测框是否错位,并进行错位标注的步骤之前,还包括:将所述目标字段图片发送至众包平台,并得到所述众包平台的标注用户对所述目标字段图片的字段内容的语义进行判断;根据判断的结果,得到所述字段内容的类别,并进行类别标注。3.根据权利要求2所述的方法,其特征在于,在所述得到目标字段图片的步骤之后,还包括:根据所述字段检测算法对所述目标字段图片进行类别识别;在所述根据判断的结果,得到所述字段内容的类别,并进行类别标注的步骤之后,还包括:将所述类别识别的结果与所述类别标注的结果进行对比;若对比的结果不同,则标注为类别识别错误,对对应的目标字段图片进行丢弃。4.根据权利要求3所述的方法,其特征在于,所述利用众包平台识别所述目标字段图片的检测框是否错位,并进行错位标注的步骤包括:所述对比的结果相同,则根据将所述目标字段图片分配至所述众包平台的标注用户进行识别;根据识别的结果,判断对所述目标字段图片的第二检测框是否错位;若所述检测框错位,进行错位标注。5.根据权利要求4所述的方法,其特征在于,还包括:若所述标注用户没有对所述目标字段图片进行修...

【专利技术属性】
技术研发人员:许洋刘鹏王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1