确定训练样本的方法及装置、训练深度学习模型的方法制造方法及图纸

技术编号:26599525 阅读:31 留言:0更新日期:2020-12-04 21:22
本发明专利技术提供了一种确定训练样本的方法及装置、训练深度学习模型的方法。确定训练样本的方法包括:获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。通过根据N个待标注样本的特征向量之间的差异性选取待标注样本,能够更有效率地从待标注样本集中筛选样本进行标注,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。

【技术实现步骤摘要】
确定训练样本的方法及装置、训练深度学习模型的方法
本专利技术涉及深度学习
,具体涉及一种确定训练样本的方法及装置、训练深度学习模型的方法。
技术介绍
近年来,深度学习技术已经改变了计算机视觉,并且已经在大量面向消费者的产品中得到了应用。例如,在医学影像领域,医学图像的分割对精度要求很高,得益于深度学习技术的发展,取得了超越传统分割方法的优异效果,对于临床的分析、诊断、治疗及预后具有重要的意义。但是,一种有效的深度学习模型,通常需要大量的高质量的标注好的训练样本,标记工作量大。而且,训练样本的标注是一项非常耗时耗力的工作,例如,分割标注任务需要人工勾画目标的边缘轮廓,医学影像的标注更需要有相应的临床知识才能标记准确,标注成本较高。
技术实现思路
有鉴于此,本专利技术实施例提供了一种确定训练样本的方法及装置、训练深度学习模型的方法,能够更有效率地确定待标注样本,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。根据本专利技术实施例的第一方面,提供一种确定训练样本的方法,包括:获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。在本专利技术的一个实施例中,标注样本集包括第一标注样本集,上述根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,包括:将第一待标注样本集中的第一样本分别与其余每个待标注样本进行特征相似度计算,获得第一相似度结果,其中,第一样本为第一待标注样本集中的任意一个待标注样本;根据第一相似度结果,从第一待标注样本集中确定与第一样本存在最大差异的至少一个第一训练样本,以对至少一个第一训练样本进行标注,获得第一标注样本集。在本专利技术的一个实施例中,标注样本集包括第一标注样本集和标注样本集,上述根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,还包括:根据至少一个第一训练样本,得到第二待标注样本集,其中第二待标注样本集包括第一待标注样本集中除至少一个第一训练样本之外的待标注样本;根据特征向量,分别将第二待标注样本集中的每个待标注样本分别与第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果;根据第二相似度结果,从第二待标注样本集中确定与第一标注样本集存在最大差异的至少一个第二训练样本,以对至少一个第二训练样本进行标注,获得第二标注样本集。在本专利技术的一个实施例中,特征相似度计算包括特征距离计算,上述分别将第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果,包括:分别计算第二待标注样本集中的每个待标注样本与第一标注样本集中的每个标注样本的特征距离之和,获得第二相似度结果。在本专利技术的一个实施例中,上述确定训练样本的方法还包括:根据M个训练样本中的每个训练样本的标识符,对M个训练样本进行去重处理,其中,上述对M个待标注样本进行标注,获得标注样本集,包括:对去重后的训练样本进行标注,获得标注样本集。在本专利技术的一个实施例中,标注样本集用于对医学图像分割模型进行训练,训练样本为医学图像,医学图像的标识符是通过哈希算法对医学图像对应的医疗数据记录计算得到。在本专利技术的一个实施例中,上述获取第一待标注样本集中的N个待标注样本的特征向量,包括:获取N个待标注样本中的每个待标注样本中的待标注目标区域;对待标注目标区域进行特征提取,获得特征向量。根据本专利技术实施例的第二方面,提供一种训练深度学习模型的方法,包括:根据上述任一所述的确定训练样本的方法确定待标注样本,以对所述待标注样本进行标注,获得标注样本集;利用标注样本集训练深度学习模型。根据本专利技术实施例的第三方面,提供一种确定训练样本的装置,包括:获取模块,用于获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;标注模块,用于根据N个待标注样本的特征向量之间的差异性,从N个待标注样本中确定M个待标注样本,以对M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。根据本专利技术实施例的第四方面,提供一种训练深度学习模型的装置,包括:获取模块,用于根据上述任一所述的确定训练样本的方法得到标注样本集;训练模块,用于利用标注样本集训练深度学习模型。根据本专利技术实施例的第五方面,提供一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的方法。根据本专利技术实施例的第六方面,提供一种电子设备,其特征在于,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述任一所述的方法。根据本专利技术实施例提供的技术方案,通过根据N个待标注样本的特征向量之间的差异性选取待标注样本,能够更有效率地从待标注样本集中筛选样本进行标注,减少需要标注的训练样本的数量,以更有效地利用标注资源和提升深度学习模型的性能。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1所示为本专利技术一实施例提供的确定训练样本的方法的流程示意图。图2所示为本专利技术一实施例提供的位置特征的示意图。图3所示为本专利技术另一实施例提供的确定训练样本的方法的流程示意图。图4所示为本专利技术另一实施例提供的确定训练样本的方法的流程示意图。图5所示为本专利技术另一实施例提供的确定训练样本的方法的流程示意图。图6所示为本专利技术另一实施例提供的确定训练样本的方法的流程示意图。图7所示为本专利技术一实施例提供的训练深度学习模型的方法的流程示意图。图8所示为本专利技术一实施例提供的确定训练样本的装置的框图。图9所示为本专利技术一实施例提供的训练深度学习模型的装置的框图。图10所示为本专利技术一实施例提供的电子设备的框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1所示为本专利技术一实施例提供的确定训练样本的方法的流程示意图。该方法可以由计算机设备(例如,服务器)执行。如图1所示,该方法包括如下内容。S110:获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数。上述第一待标注样本集可以包括自然图像、医学影像和/或视频等,其中,医学影本文档来自技高网...

【技术保护点】
1.一种确定训练样本的方法,其特征在于,包括:/n获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;/n根据所述N个待标注样本的特征向量之间的差异性,从所述N个待标注样本中确定M个待标注样本,以对所述M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。/n

【技术特征摘要】
1.一种确定训练样本的方法,其特征在于,包括:
获取第一待标注样本集中的N个待标注样本的特征向量,其中,N为正整数;
根据所述N个待标注样本的特征向量之间的差异性,从所述N个待标注样本中确定M个待标注样本,以对所述M个待标注样本进行标注,获得标注样本集,其中M为正整数,并且M小于N。


2.根据权利要求1所述的方法,其特征在于,所述标注样本集包括第一标注样本集,所述根据所述N个待标注样本的特征向量之间的差异性,从所述N个待标注样本中确定M个待标注样本,以对所述M个待标注样本进行标注,获得标注样本集,包括:
将所述第一待标注样本集中的第一样本分别与其余每个待标注样本进行特征相似度计算,获得第一相似度结果,其中,所述第一样本为所述第一待标注样本集中的任意一个待标注样本;
根据所述第一相似度结果,从所述第一待标注样本集中确定与所述第一样本存在最大差异的至少一个第一训练样本,以对所述至少一个第一训练样本进行标注,获得第一标注样本集。


3.根据权利要求2所述的方法,其特征在于,所述标注样本集包括所述第一标注样本集和第二标注样本集,所述根据所述N个待标注样本的特征向量之间的差异性,从所述N个待标注样本中确定M个待标注样本,以对所述M个待标注样本进行标注,获得标注样本集,还包括:
根据所述至少一个第一训练样本,得到第二待标注样本集,其中所述第二待标注样本集包括所述第一待标注样本集中除所述至少一个第一训练样本之外的待标注样本;
根据所述特征向量,分别将所述第二待标注样本集中的每个待标注样本与所述第一标注样本集中的每个标注样本进行特征相似度计算,获得第二相似度结果;
根据所述第二相似度结果,从所述第二待标注样本集中确定与所述第一标注样本集存在最大差异的至少一个第二训练样本,以对所述至少一个第二训练样本进行标注,获得所述第二标注样本集。


4.根据权利要求3所述的方法,其特征在于,所述特征相似度计算包括特征距离计算,所述分别将所述第...

【专利技术属性】
技术研发人员:张荣国李新阳王少康陈宽
申请(专利权)人:北京推想科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1