一种训练样本标注方法、装置、设备及介质制造方法及图纸

技术编号:21715648 阅读:28 留言:0更新日期:2019-07-27 19:32
本发明专利技术公开了一种训练样本标注方法、装置、设备及介质,该方法的步骤包括:通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果;当各识别结果的内容一致时,以识别结果标注目标训练样本。本方法通过具有不同结构类型的识别模型共同对目标训练样本进行内容识别,以此达到多种结构类型识别模型的识别效果相互迭代的效果,因此各结构类型的识别模型之间能够相互补充对目标训练样本的识别全面性以及准确性,相对降低了标注训练样本的整体人工成本,并相对保证了对训练样本的标注效率。此外,本发明专利技术还提供一种训练样本标注装置、设备及介质,有益效果同上所述。

A Training Sample Labeling Method, Device, Equipment and Media

【技术实现步骤摘要】
一种训练样本标注方法、装置、设备及介质
本专利技术涉及深度学习领域,特别是涉及一种训练样本标注方法、装置、设备及介质。
技术介绍
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本,识别模型是深度学习的阶段性成果,识别模型能够类型于人脑,具有辨别所学内容的能力。当前对深度学习网络进行数据样本训练,以生成识别模型的过程,首先需要技术人员对训练样本进行标注,以此明确训练样本中的实际内容,进而将训练样本输入深度学习网络进行识别,并通过不断修改深度学习网络中的参数,逐渐增加深度学习网络对训练样本的识别准确性,当识别准确率达到一定的范围时,则可认为深度学习网络转化为识别模型。但是在真实的应用场景中,由于用户对于识别模型的识别准确性要求较高,因此在识别模型的训练过程中需要输入海量的数据样本,并且在训练海量的数据样本之前,需要技术人员逐一对数据样本进行内容的标注,因此大大增加了标注训练样本的人工成本并且难以确保对训练样本的标注效率。由此可见,提供一种训练样本标注方法,以相对降低标注训练样本的整体人工成本,并相对保证训练样本的标注效率,是本领域技术人员需要解决的问题。
技术实现思路
本专利技术的目的是提供一种训练样本标注方法、装置、设备及介质,以相对降低标注训练样本的整体人工成本,并相对保证训练样本的标注效率。为解决上述技术问题,本专利技术提供一种训练样本标注方法,包括:通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果;当各识别结果的内容一致时,以识别结果标注目标训练样本。优选的,在当各识别结果的内容一致时,以识别结果标注目标训练样本之后,方法还包括:利用目标训练样本对多种结构类型的识别模型进行训练,生成多种结构类型的新识别模型;通过多种结构类型的新识别模型对新目标训练样本进行标注。优选的,在通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果之后,方法还包括:当各识别结果的内容存在差异时,将目标训练样本标记为新目标训练样本。优选的,当存在多个目标训练样本时,利用目标训练样本对多种结构类型的识别模型进行训练,生成多种结构类型的新识别模型,包括:通过将各目标训练样本平均分配至多种结构类型的识别模型的方式,利用目标训练样本对多种结构类型的识别模型进行训练,生成多种结构类型的新识别模型。优选的,通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果,包括:通过多种结构类型的识别模型分别对目标证件图片样本进行内容识别,获取相应的识别结果;当各识别结果的内容一致时,以识别结果标注目标训练样本,包括:当各识别结果的内容一致时,以识别结果标注目标证件图片样本。优选的,通过多种结构类型的识别模型分别对目标证件图片样本进行内容识别,获取相应的识别结果,包括:通过多种结构类型的识别模型分别对目标证件图片样本的训练区域进行内容识别,获取相应的识别结果;当各识别结果的内容一致时,以识别结果标注目标证件图片样本,包括:当各识别结果的内容一致时,以识别结果标注目标证件图片样本的训练区域。此外,本专利技术还提供一种训练样本标注装置,包括:多模型识别模块,用于通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果;结果标注模块,用于当各识别结果的内容一致时,以识别结果标注目标训练样本。此外,本专利技术还提供一种训练样本标注设备,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现如上述的训练样本标注方法的步骤。此外,本专利技术还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述的训练样本标注方法的步骤。本专利技术所提供的训练样本标注方法,首先通过多种结构类型的识别模型分别对目标训练样本进行内容识别,以此获取相应的识别结果,进而当多种结构类型的识别模型对应的识别结果的内容一致时,则以该识别结果标注该目标训练样本。本方法通过具有不同结构类型的识别模型共同对目标训练样本进行内容识别,以此达到多种结构类型识别模型的识别效果相互迭代的效果,因此各结构类型的识别模型之间能够相互补充对目标训练样本的识别全面性以及准确性,进而当各结构类型的识别模型在识别结果方面达成共识时,才将识别结果标注至目标训练样本,由于标注的过程均由识别模型内部计算实现,无需人工参与,因此相对降低了标注训练样本的整体人工成本,并相对保证了对训练样本的标注效率。此外,本专利技术还提供一种训练样本标注装置、设备及介质,有益效果同上所述。附图说明为了更清楚地说明本专利技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种训练样本标注方法的流程图;图2为本专利技术实施例提供的另一种训练样本标注方法的流程图;图3为本专利技术实施例提供的另一种训练样本标注方法的流程图;图4为本专利技术实施例提供的另一种训练样本标注方法的流程图;图5为本专利技术实施例提供的一种训练样本标注装置的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本专利技术保护范围。当前对深度学习网络进行数据样本训练,以生成识别模型的过程,首先需要技术人员对训练样本进行标注,以此明确训练样本中的实际内容,进而将训练样本输入深度学习网络进行识别,并通过不断修改深度学习网络中的参数,逐渐增加深度学习网络对训练样本的识别准确性,当识别准确率达到一定的范围时,则可认为深度学习网络转化为识别模型。但是在真实的应用场景中,由于用户对于识别模型的识别准确性要求较高,因此在识别模型的训练过程中需要输入海量的数据样本,并且在训练海量的数据样本之前,需要技术人员逐一对数据样本进行内容的标注,因此大大增加了标注训练样本的人工成本并且难以确保对训练样本的标注效率。本专利技术的核心是提供一种训练样本标注方法,以相对降低标注训练样本的整体人工成本,并相对保证训练样本的标注效率。此外,本专利技术还提供一种训练样本标注装置、设备及介质,有益效果同上所述。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。图1为本专利技术实施例提供的一种训练样本标注方法的流程图。请参考图1,训练样本标注方法的具体步骤包括:步骤S10:通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果。需要说明的是,本步骤中的识别模型是指经过深度学习网络训练,且具有一定识别能力的网络模型,此外,本步骤中的多种结构类型的识别模型是指各识别模型基于不同网络结构的深度学习网络训练产生,因此各个识别模型在对目标训练样本进行内容识别时所采用的运算函数各不相同,即对于目标训练样本的识别方向不同。另外,需要说明的是,本步骤中的目标训练样本是对于众多训练样本中的某一个训练样本的特指,对于本文档来自技高网
...

【技术保护点】
1.一种训练样本标注方法,其特征在于,包括:通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果;当各所述识别结果的内容一致时,以所述识别结果标注所述目标训练样本。

【技术特征摘要】
1.一种训练样本标注方法,其特征在于,包括:通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果;当各所述识别结果的内容一致时,以所述识别结果标注所述目标训练样本。2.根据权利要求1所述的训练样本标注方法,其特征在于,在所述当各所述识别结果的内容一致时,以所述识别结果标注所述目标训练样本之后,所述方法还包括:利用所述目标训练样本对多种结构类型的所述识别模型进行训练,生成多种结构类型的新识别模型;通过多种结构类型的所述新识别模型对新目标训练样本进行标注。3.根据权利要求2所述的训练样本标注方法,其特征在于,在所述通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的识别结果之后,所述方法还包括:当各所述识别结果的内容存在差异时,将所述目标训练样本标记为所述新目标训练样本。4.根据权利要求2所述的训练样本标注方法,其特征在于,当存在多个所述目标训练样本时,所述利用所述目标训练样本对多种结构类型的所述识别模型进行训练,生成多种结构类型的新识别模型,包括:通过将各所述目标训练样本平均分配至多种结构类型的所述识别模型的方式,利用所述目标训练样本对多种结构类型的所述识别模型进行训练,生成多种结构类型的所述新识别模型。5.根据权利要求1至4任意一项所述的训练样本标注方法,其特征在于,所述通过多种结构类型的识别模型分别对目标训练样本进行内容识别,获取相应的...

【专利技术属性】
技术研发人员:陈鑫赵明
申请(专利权)人:杭州智趣智能信息技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1