训练样本保存方法、装置、电子设备及存储介质制造方法及图纸

技术编号:22330320 阅读:37 留言:0更新日期:2019-10-19 12:19
本发明专利技术提供了一种训练样本保存方法、装置、电子设备及存储介质,其中,所述方法包括:根据基准样本确定用于生成训练样本的制作模板;填充预设训练字段至所述空白区域,得到待处理训练样本;生成所述待处理训练样本对应的若干仿真训练样本;生成最终训练样本;根据所述预设训练字段,生成最终训练样本的样本名称;以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。本发明专利技术所提供的训练样本保存方法能够快速且自动的生成训练样本的样本名称,从而提高训练样本的保存效率。

Storage method, device, electronic equipment and storage medium of training samples

【技术实现步骤摘要】
训练样本保存方法、装置、电子设备及存储介质
本申请涉及图像处理
,尤其涉及一种训练样本保存方法、装置、电子设备及存储介质。
技术介绍
在图像处理的过程中,可以通过增加训练样本的数量,有效提高识别真实样本图像的准确度。然而大量的训练样本在生成之后,只有经过有效地命名和保存,才能够为真实样本图像提供有序的识别环境。通常,技术人员会采用人工手动操作的方式对训练样本进行命名和保存。具体处理过程中,在训练样本生成后,首先技术人员需要识别该训练样本的文本信息,然后根据文本信息确定该训练样本的名称,最后根据训练样本的名称,人工确定训练样本保存时的命名。例如:已生成的训练样本的具体内容为×××有限公司,则首先识别该训练样本的文本信息为单位名称;然后根据该文本信息确定该训练样本的名称为单位名称训练样本;最后人工将该训练样本命名为单位名称训练样本,并对其进行保存,进而完成训练样本的人工保存工作。然而由以上保存过程可知,人工手动操作的方式不仅需要对训练样本的文本信息进行识别,还需要对训练样本进行人工手动命名,在训练样本数量庞大的情况下,人工手动操作难以保证训练样本的保存效率。
技术实现思路
本申请提供了一种训练样本保存方法、装置、电子设备及存储介质,以解决现有训练样本保存方法保存效率低的问题。第一方面,本专利技术实施例提供了一种训练样本保存方法,包括:根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;生成所述待处理训练样本对应的若干仿真训练样本,所述仿真训练样本的样本效果与所述基准样本在预设环境参数下的样本效果相同;生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;根据所述预设训练字段,生成最终训练样本的样本名称;以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。在本专利技术实施例第一方面一种可能的实现方式中,所述根据基准样本,确定用于生成训练样本的制作模板包括:确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同;清除全部所述目标字段,获得空白区域和模板框架;根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。在本专利技术实施例第一方面一种可能的实现方式中,所述填充预设训练字段至空白区域,得到待处理训练样本包括:根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;根据所述标题,确定对应的空白区域;填充所述预设训练字段至所述空白区域,得到待处理训练样本。在本专利技术实施例第一方面一种可能的实现方式中,所述生成待处理训练样本对应的若干仿真训练样本包括:根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。在本专利技术实施例第一方面一种可能的实现方式中,所述生成最终训练样本包括:确定各所述预设训练字段对应的空白区域;以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。在本专利技术实施例第一方面一种可能的实现方式中,所述根据预设训练字段,生成最终训练样本的样本名称包括:获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。在本专利技术实施例第一方面一种可能的实现方式中,所述方法还包括:根据所述训练样本库,识别真实样本;如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。第二方面,本专利技术实施例提供了一种训练样本保存装置,包括:制作模板确定模块,用于根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;填充模块,用于填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;仿真模块,用于生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;剪切模块,用于剪切所述仿真训练样本中各所述训练字段所对应的区域,获得最终训练样本;命名模块,用于根据所述预设训练字段,生成最终训练样本的样本名称;保存模块,用于以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。在本专利技术实施例第二方面一种可能的实现方式中,所述制作模板确定模块包括:目标确定模块,用于确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同;清除模块,用于清除全部所述目标字段,获得空白区域和模板框架;制作模板生成模块,用于根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。在本专利技术实施例第二方面一种可能的实现方式中,所述填充模块包括:标题确定模块,用于根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;定位模块,用于根据所述标题,确定对应的空白区域;待处理训练样本生成模块,用于填充所述预设训练字段至所述空白区域,得到待处理训练样本。在本专利技术实施例第二方面一种可能的实现方式中,所述仿真模块包括:仿真参数确定模块,用于根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;参数添加模块,用于添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。在本专利技术实施例第二方面一种可能的实现方式中,所述剪切模块包括:空白区域确定模块,用于确定各所述预设训练字段对应的空白区域;最终训练样本生成模块,用于以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。在本专利技术实施例第二方面一种可能的实现方式中,所述命名模块包括:属性获取模块,用于获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;样本名称生成模块,用于根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。在本专利技术实施例第二方面一种可能的实现方式中,所述装置还包括:识别模块,用于根据所述训练样本库,识别真实样本;扩充模块,用于如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。第三方面,本专利技术实施例提供了一种电子设备,包括:处理器,以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的训练样本保存方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的训练样本保存方法。本专利技术实施例提供的训练样本保存方法、装置、电子设备及存储介质,其中,在训练样本保存方法中,根据基准样本确定用于生成训练样本的制作模板;填充预设训练字段至所述空白区域,得到待处理训练样本;生成所述待处理训练样本对应的若干仿真训本文档来自技高网...

【技术保护点】
1.一种训练样本保存方法,其特征在于,所述方法包括:根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;生成所述待处理训练样本对应的若干仿真训练样本,所述仿真训练样本的样本效果与所述基准样本在预设环境参数下的样本效果相同;生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;根据所述预设训练字段,生成最终训练样本的样本名称;以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。

【技术特征摘要】
1.一种训练样本保存方法,其特征在于,所述方法包括:根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基准样本中相应字段在语义类型和结构类型上相同;生成所述待处理训练样本对应的若干仿真训练样本,所述仿真训练样本的样本效果与所述基准样本在预设环境参数下的样本效果相同;生成最终训练样本,所述最终训练样本为所述仿真训练样本中各所述预设训练字段所对应的区域;根据所述预设训练字段,生成最终训练样本的样本名称;以所述样本名称为文件名保存所述最终训练样本,得到训练样本库。2.根据权利要求1所述的方法,其特征在于,所述根据基准样本,确定用于生成训练样本的制作模板包括:确定基准样本中的目标字段,以及所述目标字段对应的标题,所述目标字段与预设训练字段的语义类型和结构类型均相同;清除全部所述目标字段,获得空白区域和模板框架;根据所述模板框架、所述标题和所述空白区域,确定用于生成训练样本的制作模板。3.根据权利要求2所述的方法,其特征在于,所述填充预设训练字段至空白区域,得到待处理训练样本包括:根据所述预设训练字段的语义类型和结构类型,确定所述预设训练字段对应的标题;根据所述标题,确定对应的空白区域;填充所述预设训练字段至所述空白区域,得到待处理训练样本。4.根据权利要求1所述的方法,其特征在于,所述生成待处理训练样本对应的若干仿真训练样本包括:根据各所述预设环境参数,确定仿真参数,所述仿真参数包括噪声参数、亮度参数和色度参数;添加所述噪声参数、所述亮度参数和所述色度参数至所述待处理训练样本,得到仿真训练样本。5.根据权利要求1所述的方法,其特征在于,所述生成最终训练样本包括:确定各所述预设训练字段对应的空白区域;以所述空白区域的边缘为边界,剪切所述仿真训练样本中各预设训练字段所对应的区域,得到最终训练样本,所述最终训练样本包括预设训练字段和预设训练字段填充至对应空白区域后的留白区域。6.根据权利要求1所述的方法,其特征在于,所述根据预设训练字段,生成最终训练样本的样本名称包括:获取所述预设训练字段的属性,所述属性包括语义、关键词和文本内容;根据所述语义、所述关键词和所述文本内容,直接生成最终训练样本的样本名称。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述训练样本库,识别真实样本;如果所述真实样本识别通过,则添加所述真实样本至所述训练样本库。8.一种训练样本保存装置,其特征在于,所述装置包括:制作模板确定模块,用于根据基准样本确定用于生成训练样本的制作模板,所述制作模板带有可填充训练字段的空白区域;填充模块,用于填充预设训练字段至所述空白区域,得到待处理训练样本,其中,所述预设训练字段与所述基...

【专利技术属性】
技术研发人员:娄康史忠伟
申请(专利权)人:五八有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1