深度学习分类模型的训练装置和方法制造方法及图纸

技术编号:20589650 阅读:21 留言:0更新日期:2019-03-16 07:23
本发明专利技术实施例提供一种深度学习分类模型的训练装置和方法。所述训练方法包括:为目标数据的目标属性生成多个相关属性以相应地增加多个相关训练分支;基于所述目标数据生成相似数据以相应地增加相似训练分支;针对训练主干、所述相似训练分支和多个所述相关训练分支分别进行训练;以及基于分别训练的结果对特征提取和/或属性分类的参数进行调整。由此,即使在小数据集的情况下,也能够减少或避免深度学习分类模型的过拟合问题。

【技术实现步骤摘要】
深度学习分类模型的训练装置和方法
本专利技术实施例涉及信息处理
,尤其涉及一种深度学习(deeplearning)分类模型的训练装置和方法。
技术介绍
随着机器学习方法的不断完善和发展,深度学习方法越来越受到重视。通过深度学习对分类模型进行训练的方法已经应用到许多
,成为图像识别、语音分析等领域的研究热点。一般来说,在对分类模型进行训练时,训练数据越多则深度学习训练的性能越高。但是数据的收集有时候是非常困难的,甚至可能没有足够的数据进行训练,这样可能导致过拟合(overfitting)的问题。如何在小数据集的情况下降低过拟合,对于深度学习分类模型的训练具有重要意义。应该注意,上面对技术背景的介绍只是为了方便对本专利技术的技术方案进行清楚、完整的说明,并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本专利技术的
技术介绍
部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
技术实现思路
本专利技术实施例提供一种深度学习分类模型的训练装置和方法。为目标数据的目标属性生成多个相关属性以相应地增加多个相关训练分支;基于所述目标数据生成相似数据以相应地增加相似训练分支;针对训练主干、所述相似训练分支和多个所述相关训练分支分别进行训练;以及基于分别训练的结果对特征提取和/或属性分类的参数进行调整。由此,即使在小数据集的情况下,也能够减少或避免深度学习分类模型的过拟合问题。根据本专利技术实施例的第一方面,提供了一种深度学习分类模型的训练装置,包括:属性生成单元,其基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;数据生成单元,其基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;训练单元,其针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及参数调整单元,其基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。根据本专利技术实施例的第二方面,提供了一种深度学习分类模型的训练方法,包括:基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。根据本专利技术实施例的第三方面,提供了一种电子设备,所述电子设备包括如第一方面所述的深度学习分类模型的训练装置。本专利技术实施例的有益效果在于:为目标数据的目标属性生成多个相关属性以相应地增加多个相关训练分支;基于所述目标数据生成相似数据以相应地增加相似训练分支;针对训练主干、所述相似训练分支和多个所述相关训练分支分别进行训练;以及基于分别训练的结果对特征提取的参数和/或属性分类的参数进行调整。由此,即使在小数据集的情况下,也能够减少或避免深度学习分类模型的过拟合问题。参照后文的说明和附图,详细公开了本专利技术实施例的特定实施方式,指明了本专利技术实施例的原理可以被采用的方式。应该理解,本专利技术的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内,本专利技术的实施方式包括许多改变、修改和等同。针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。应该强调,术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在,但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。附图说明所包括的附图用来提供对本专利技术实施例的进一步的理解,其构成了说明书的一部分,用于例示本专利技术的实施方式,并与文字描述一起来阐释本专利技术的原理。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本专利技术实施例的深度学习分类模型的训练方法的一示意图;图2是本专利技术实施例的深度学习分类模型的训练方法的另一示意图;图3是本专利技术实施例的训练模型的一示例图;图4是本专利技术实施例的深度学习分类模型的训练装置的一示意图;图5是本专利技术实施例的深度学习分类模型的训练装置的另一示意图;图6是本专利技术实施例的电子设备的一示意图。具体实施方式参照附图,通过下面的说明书,本专利技术实施例的前述以及其它特征将变得明显。在说明书和附图中,具体公开了本专利技术的特定实施方式,其表明了其中可以采用本专利技术实施例的原则的部分实施方式,应了解的是,本专利技术不限于所描述的实施方式,相反,本专利技术实施例包括落入所附权利要求的范围内的全部修改、变型以及等同物。下面结合附图对本专利技术的各种实施方式进行说明。这些实施方式只是示例性的,不是对本专利技术的限制。在本专利技术实施例中,术语“第一”、“第二”等用于对不同元素从称谓上进行区分,但并不表示这些元素的空间排列或时间顺序等,这些元素不应被这些术语所限制。术语“和/或”包括相关联列出的术语的一种或多个中的任何一个和所有组合。术语“包含”、“包括”、“具有”等是指所陈述的特征、元素、元件或组件的存在,但并不排除存在或添加一个或多个其他特征、元素、元件或组件。在本专利技术实施例中,单数形式“一”、“该”等可以包括复数形式,应广义地理解为“一种”或“一类”而并不是限定为“一个”的含义;此外术语“所述”应理解为既包括单数形式也包括复数形式,除非上下文另外明确指出。此外术语“根据”应理解为“至少部分根据……”,术语“基于”应理解为“至少部分基于……”,除非上下文另外明确指出。实施例1本专利技术实施例提供一种深度学习分类模型的训练方法。图1是本专利技术实施例的深度学习分类模型的训练方法的一示意图,如图1所示,训练方法100包括:步骤101,基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;步骤102,基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;步骤103,针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及步骤104,基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。在本实施例中,可以通过对所述目标数据增加标注而获得所述多个相关属性。例如可以使用S来表示目标数据,使用A来表示模型所需要分类的目标属性,增加后的多个相关属性表示为Bi,i∈[1,……,n],n为大于1的正整数。例如,以图像分类为例,A可以是人物的服饰类型,例如衬衫、西服等;B1可以是人物造型,例如站立、坐着等;B2可以是为人物拍照时的光线条件,例如阴天、晴天等;B3可以是为人物拍照时的相机视角,例如正面、侧面等;……。在本实施例中,可以将目标数据的目标属性所对应的训练过程或路径称为训练主干;将目标本文档来自技高网...

【技术保护点】
1.一种深度学习分类模型的训练装置,其特征在于,所述训练装置包括:属性生成单元,其基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;数据生成单元,其基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;训练单元,其针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及参数调整单元,其基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。

【技术特征摘要】
1.一种深度学习分类模型的训练装置,其特征在于,所述训练装置包括:属性生成单元,其基于目标数据的目标属性生成多个相关属性;其中所述目标数据的目标属性对应一训练主干,所述目标数据的所述多个相关属性对应多个相关训练分支;数据生成单元,其基于所述目标数据以及训练数据集生成相似数据;其中所述相似数据的目标属性对应一相似训练分支;训练单元,其针对所述训练主干、所述相似训练分支和多个所述相关训练分支,分别进行包括特征提取和属性分类的训练;以及参数调整单元,其基于分别训练的结果对所述特征提取的参数和/或所述属性分类的参数进行调整,以对整个网络模型进行训练。2.根据权利要求1所述的训练装置,其中,所述属性生成单元通过对所述目标数据增加标注而获得所述多个相关属性;所述数据生成单元通过从所述训练数据集中选择多个样本数据而获得所述相似数据;其中所述相似数据中的一部分样本数据的所述目标属性的值与所述目标数据中的一部分样本数据的所述目标属性的值相同。3.根据权利要求1所述的训练装置,其中,所述训练装置还包括:标签集生成单元,其针对所述训练主干生成一主干标签集,针对多个所述相关训练分支生成多个相关标签集,以及针对所述相似训练分支生成一相似标签集。4.根据权利要求3所述的训练装置,其中,在所述训练主干、所述相似训练分支和所述相关训练分支中,多个所述特征提取共享并使用预先训练得到的一个或多个初始参数。5.根据权利要求3所述的训练装置,其中,所述训练装置还包括:相似度计算单元,其根据所述相似训练分支中的所述属性分类的结果以及所述训练主干中的所述属性分类的结果,计算所述目标数据和所述相似数据关于所述目标属性的相似度。6.根据权利要求5所述的训练装置,其中,所述训练装置还包括:损耗计算单元,其根据所述相似度以及...

【专利技术属性】
技术研发人员:刘晓青谭志明
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1