模型的训练样本选择方法、装置及计算机设备制造方法及图纸

技术编号:26378477 阅读:21 留言:0更新日期:2020-11-19 23:47
本发明专利技术提供了一种模型的训练样本选择方法、装置及计算机设备,涉及人工智能技术领域,包括;确定训练好的模型对于各个目标类别的识别能力值;获取标签文件,所述标签文件包括多张带有类别标签的图像;针对每张图像,根据所述图像携带的所有类别标签,以及所述图像携带的类别标签对应的所述识别能力值,确定所述图像的贡献度;基于各个所述图像的贡献度对所述标签文件中的图像进行筛选,剔除贡献度低于阈值的图像。以此可以降低训练样本的数量,提升训练样本的质量,从而提升训练的效率以及训练得到的模型的准确率。

【技术实现步骤摘要】
模型的训练样本选择方法、装置及计算机设备
本专利技术涉及人工智能
,尤其是涉及一种模型的训练样本选择方法、装置及计算机设备。
技术介绍
深度学习近年来快速发展,在图像识别、目标检测等领域表现出惊人的准确性,在视觉伺服领域使用越来越广泛。深度学习需要大量的训练集进行训练,虽然现在有很多开源的深度学习数据集可以用来训练网络模型,但是对于一个特定的视觉伺服系统,需要检测的图像并不是一些常见的物体,比如本专利技术的方法用于的视觉伺服系统,其需要检测的物体是某特殊设备上的一个电源插口,这时候需要我们自己采集图像作为训练集。训练集的大小直接影响深度学习的性能,训练集太小将导致深度学习过拟合,这意味着这个深度学习模型仅适用于其训练使用的训练集,对于实际运行时采集到的新的图像将不起作用。每张训练使用的训练集图片都需要打上标签,我们模拟系统实际运行时的情景采集图像,之后人工给图像打上标签,对于庞大的训练集,人工打标签耗费大量时间,另外训练集过大又影响着训练的效率。自己采集的训练集一定会存在大量重复的或者极容易检测的图片,当神经网络训练到一定程度时,对于这种图像检测准确率已经非常高了,再用这种图像训练对检测准确率的提升作用不大。
技术实现思路
本专利技术的目的在于提供一种模型的训练样本选择方法、装置及计算机设备,以缓解了现有技术中存在的训练效率低的技术问题。第一方面,本专利技术实施例提供的一种模型的训练样本选择方法。包括:确定训练好的模型对于各个目标类别的识别能力值;获取标签文件,所述标签文件包括多张带有类别标签的图像;针对每张图像,根据所述图像携带的所有类别标签,以及所述图像携带的类别标签对应的所述识别能力值,确定所述图像的贡献度;基于各个所述图像的贡献度对所述标签文件中的图像进行筛选,剔除贡献度低于阈值的图像。在一些可选的实现中,所述识别能力值与所述贡献度负相关。在一些可选的实现中,所述识别能力值为MAP值。在一些可选的实现中,获取标签文件的步骤,包括:针对所述标签文件中的每张图像,统计所述图像中包括的类别标签种类的数量,以及每种类别标签的数量。在一些可选的实现中,所述图像携带的类别标签的种类与所述贡献度正相关;所述图像携带的类别标签的数量与所述贡献度正相关。在一些可选的实现中,所述标签文件来自于开源标签数据集,也可以为通过标记得到的标签数据集。在一些可选的实现中,还包括:将剔除后的标签文件作为训练样本对所述模型进行训练。第二方面,提供了一种模型的训练样本选择装置。包括:第一确定模块,用于确定训练好的模型对于各个目标类别的识别能力值;获取模块,用于获取标签文件,所述标签文件包括多张带有类别标签的图像;第二确定模块,用于针对每张图像,根据所述图像携带的所有类别标签,以及所述图像携带的类别标签对应的所述识别能力值,确定所述图像的贡献度;筛选模块,用于基于各个所述图像的贡献度对所述标签文件中的图像进行筛选,剔除贡献度低于阈值的图像。第三方面,本专利技术实施例提供一种计算机设备,包括存储器、处理器以及摄像头;存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述前述实施方式任一项的方法的步骤。第四方面,本专利技术实施例提供一种计算机可读存储介质,计算机可读存储介质存储有机器可运行指令,计算机可运行指令在被处理器调用和运行时,计算机可运行指令促使处理器运行前述实施方式任一项的方法。本专利技术提供的一种模型的训练样本选择方法、装置及计算机设备;通过确定训练好的模型对于各个目标类别的识别能力值;获取标签文件,所述标签文件包括多张带有类别标签的图像;针对每张图像,根据所述图像携带的所有类别标签,以及所述图像携带的类别标签对应的所述识别能力值,确定所述图像的贡献度;基于各个所述图像的贡献度对所述标签文件中的图像进行筛选,剔除贡献度低于阈值的图像。以此可以降低训练样本的数量,提升训练样本的质量,从而提升训练的效率以及训练得到的模型的准确率。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种模型的训练样本选择方法流程示意图;图2为本申请实施例提供的一种模型的训练样本选择方法的一个示例;图3为本申请实施例提供的一种模型的训练样本选择装置结构示意图;图4为本申请实施例提供的一种计算机设备结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。下面结合附图,对本专利技术的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。图1为本专利技术实施例提供的一种模型的训练样本选择方法流程示意图。其中,该方法应用于计算机设备,该方法包括:S110,确定训练好的模型对于各个目标类别的识别能力值;该识别能力可以是指识别目标类别的准确率或者覆盖率等等,该识别能力值可以为MAP(meanaverageprecision,平均精度)值。结合现有训练好的模型中每个目标类别的MAP值,该MAP值反映模型对目标类别的学习能力,例如现有模型对车的MAP值很高,而一张图像中全部是车,则可以认为贡献度本文档来自技高网...

【技术保护点】
1.一种模型的训练样本选择方法,其特征在于,包括:/n确定训练好的模型对于各个目标类别的识别能力值;/n获取标签文件,所述标签文件包括多张带有类别标签的图像;/n针对每张图像,根据所述图像携带的所有类别标签,以及所述图像携带的类别标签对应的所述识别能力值,确定所述图像的贡献度;/n基于各个所述图像的贡献度对所述标签文件中的图像进行筛选,剔除贡献度低于阈值的图像。/n

【技术特征摘要】
1.一种模型的训练样本选择方法,其特征在于,包括:
确定训练好的模型对于各个目标类别的识别能力值;
获取标签文件,所述标签文件包括多张带有类别标签的图像;
针对每张图像,根据所述图像携带的所有类别标签,以及所述图像携带的类别标签对应的所述识别能力值,确定所述图像的贡献度;
基于各个所述图像的贡献度对所述标签文件中的图像进行筛选,剔除贡献度低于阈值的图像。


2.根据权利要求1所述的方法,其特征在于,所述识别能力值为MAP值。


3.根据权利要求1所述的方法,其特征在于,获取标签文件的步骤,包括:
针对所述标签文件中的每张图像,统计所述图像中包括的类别标签种类的数量,以及每种类别标签的数量。


4.根据权利要求3所述的方法,其特征在于,所述图像携带的类别标签的种类与所述贡献度正相关;所述图像携带的类别标签的数量与所述贡献度正相关。


5.根据权利要求4所述的方法,其特征在于,所述识别能力值与所述贡献度负相关。


6.根据权利要求1所述的方法,其特征在于,还包括:
将剔除后的标签文件作...

【专利技术属性】
技术研发人员:苏英菲
申请(专利权)人:东软睿驰汽车技术沈阳有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1