当前位置: 首页 > 专利查询>清华大学专利>正文

针对乏样本分类的分层迁移学习方法、介质、装置和设备制造方法及图纸

技术编号:21036292 阅读:29 留言:0更新日期:2019-05-04 06:08
本发明专利技术的实施方式提供了一种针对乏样本分类的分层迁移学习方法。该方法包括:建立待处理对象的层次化模型,使得其最少包括每一层次的控制参数以及至少一个层次基于区别特征的签名;利用不同类别的样本得到所述每一层次的控制参数。通过上述方法可以建立通用的行业样本数据处理模型,以众包的方法,得到多个行业众多的语义标注,从企业样本类别丰富的行业数据中得到模型参数,并将其迁移到样本数据数量匮乏的行业样本分析中,降低样本数量少带来的标注的不准确性。此外,本发明专利技术的实施方式提供了一种针对乏样本分类的分层迁移学习介质、装置和设备。

Hierarchical migration learning methods, media, devices and devices for classification of missing samples

【技术实现步骤摘要】
针对乏样本分类的分层迁移学习方法、介质、装置和设备
本专利技术的实施方式涉及数据处理领域,更具体地,本专利技术的实施方式涉及一种针对乏样本分类的分层迁移学习方法、介质、装置和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。企业的能力评价对于指导制造业企业的升级和行业主管部门推动制造业的发展具有重要的意义。企业的能力评价通常需要以企业的能力等级模型作为主要的基础,但是在实际的过程中,通常面临不同行业之间评估样本数量不平衡的问题。即在部分领域的企业数据比较多,而在其他领域的数据则相对匮乏。对乏样本行业的评级是一个具有挑战性的问题。传统的方法通常是利用专家知识,对不同的数据样本构造多维度的属性特征描述,但是这往往需要大量的专家工作量,对专家的要求也比较高,代价相对比较高。如果能够从大众的评价和企业的自评中得到相应的语义属性,则可以极大的降低评价的难度,为样本的迁移学习带来帮助。但是,在实际的过程中,尽管人们每时每刻都在用特征来做决定,但是这个过程常常是下意识的,难以被描述出来的,而且,不同人的感官不同,所以关注的特征也不同,所以直接让群众回答某类评价的特征或者依据通常是不可行的。
技术实现思路
在本上下文中,本专利技术的实施方式期望提供一种针对乏样本分类的分层迁移学习方法、介质、装置和设备。在本专利技术实施方式的第一方面中,提供了一种针对乏样本分类的分层迁移方法,包括:建立待处理对象的层次化模型,使得其最少包括每一层次的控制参数以及至少一个层次基于区别特征的签名;利用不同类别的样本得到所述每一层次的控制参数。在本专利技术的又一个实施例中,所述层次至少包括类别层次、样本层次和任务层次中的一种。在本专利技术的又一个实施例中,利用不同类别的样本得到所述每一层次的控制参数包括:利用不同类别的样本得到预定数量的训练数据;利用所述训练数据得到所述每一层次的控制参数。在本专利技术的又一个实施例中,利用不同类别的样本得到预定数量的训练数据包括:重复执行任务直到得到预定数量的训练数据,其中所述任务包括:从所述样本中选取多个不同类别的样本;将选取出的样本之一作为目标样本;提取所述选取出的样本中除所述目标样本之外的其他样本之间的区别特征;基于所述目标样本、所述选取出的样本中除所述目标样本之外的其他样本以及区别特征确定所述目标样本的训练数据。在本专利技术的又一个实施例中,所述训练数据表征其所属的样本与提取出区别特征的样本之一基于所述区别特征近似。在本专利技术的又一个实施例中,所述训练数据按照预设方式编码。在本专利技术的又一个实施例中,每一任务中除目标样本外包括两个其他样本。在本专利技术的又一个实施例中,每一训练数据被编码为其中b代表训练数据,x代表所述训练数据所属样本的序号,i和j分别代表任务中其他不同样本的序号,t代表所述训练数据所属任务的序号。在本专利技术的又一个实施例中,所述类别层次基于区别特征的签名用于表征所述类别下的标准样本在提取出的各个区别特征上的表现。在本专利技术的又一个实施例中,所述样本层次基于区别特征的签名用于表征所述样本与其所属类别下的标准样本基于提取出的各个区别特征的距离。在本专利技术的又一个实施例中,构建各个层次基于区别特征的签名之前,所述方法还包括:合并两两之间相似度达到预设阈值的区别特征,直到任意两个区别特征之间的相似度均小于预设阈值。在本专利技术的又一个实施例中,基于所述区别特征的特征签名计算各个区别特征之间的相似度。在本专利技术的又一个实施例中,所述特征签名用于表征所述样本中除提取出所述区别特征的样本所属类别之外的其他各个类别的标准样本在所述区别特征上的表现。在本专利技术的又一个实施例中,在一个区别特征上的表现包括:在区别特征上与提取出所述区别特征的样本之一近似;和/或不具备所述区别特征。在本专利技术的又一个实施例中,利用后验推断法和所述训练数据获得所述控制参数。在本专利技术的又一个实施例中,在所述后验推断法中,基于任务中目标样本在所述区别特征上的所有表现分别构建似然函数,基于所述似然函数构建后验概率分布。在本专利技术的又一个实施例中,基于任务中目标样本在所述区别特征上的所有表现分别构建似然函数包括:基于任务中目标样本的个体签名的概率分布与任务中任一其他样本的概率分布的JS散度构建所述似然函数。在本专利技术的又一个实施例中,在所述后验推断法中,引入变分分布基于所述后验概率分布进行最大后验估计以获取控制参数。在本专利技术的又一个实施例中,所述方法还包括:不断优化所述变分分布,以使得所述变分分布接近所述后验概率分布。在本专利技术的又一个实施例中,不断优化所述变分分布的证据下界以使得所述变分分布接近所述后验概率分布。在本专利技术的又一个实施例中,采用坐标上升法优化所述变分分布的证据下界。在本专利技术实施方式的第二方面中,提供了一种针对乏样本分类的分层迁移学习装置,包括:模型建立模块,被配置为建立待处理对象的层次化模型,使得其最少包括每一层次的控制参数以及至少一个层次基于区别特征的签名;参数计算模块,被配置为利用不同类别的样本得到所述每一层次的控制参数。在本专利技术实施方式的第三方面中,提供了一种计算机可读存储介质,存储有程序代码,所述程序代码当被处理器执行时,实现以上实施例之一所述的方法。在本专利技术实施方式的第四方面中,提供了一种计算设备,包括处理器和存储有程序代码的存储介质,所述程序代码当被处理器执行时,实现以上实施例之一所述的方法。根据本专利技术实施方式的方法,可以以众包的方法,得到高质量的语义标注,从企业样本类别丰富的行业数据中得到类别属性,并将其迁移到样本数据数量匮乏的行业样本分析中,降低样本数量少带来的标注的不准确性。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:图1示意性地示出了根据本专利技术实施方式的场景示意图;图2示意性地示出了根据本专利技术的针对乏样本分类的分层迁移学习方法一实施方式的流程示意图;图3示意性地示出了根据本专利技术的方法中获取训练数据的步骤的流程示意图;图4示意性地示出了根据本专利技术一实施方式提供的方法所构建模型的结构框图;图5示意性地示出了根据本专利技术一实施方式提供的特征-类别关系图表;图6示意性地示出了根据本专利技术实施方式提供的一种计算机可读存储介质的示意图;图7示意性地示出了根据本专利技术实施方式提供的一种针对乏样本分类的分层迁移学习装置的示意图;图8示意性地示出了根据本专利技术实施方式提供的一种计算设备的示意图;在附图中,相同或对应的标号表示相同或对应的部分。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。本领域技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。根据本专利技术的实施方式,提出了一种针对本文档来自技高网...

【技术保护点】
1.一种针对乏样本分类的分层迁移学习方法,包括:建立待处理对象的层次化模型,使得其最少包括每一层次的控制参数以及至少一个层次基于区别特征的签名;利用不同类别的样本得到所述每一层次的控制参数。

【技术特征摘要】
1.一种针对乏样本分类的分层迁移学习方法,包括:建立待处理对象的层次化模型,使得其最少包括每一层次的控制参数以及至少一个层次基于区别特征的签名;利用不同类别的样本得到所述每一层次的控制参数。2.如权利要求1所述的方法,其中,所述层次至少包括类别层次、样本层次和任务层次中的一种。3.如权利要求1或2所述的方法,其中,利用不同类别的样本得到所述每一层次的控制参数包括:利用不同类别的样本得到预定数量的训练数据;利用所述训练数据得到所述每一层次的控制参数。4.如权利要求3所述的方法,其中,利用不同类别的样本得到预定数量的训练数据包括:重复执行任务直到得到预定数量的训练数据,其中所述任务包括:从所述样本中选取多个不同类别的样本;将选取出的样本之一作为目标样本;提取所述选取出的样本中除所述目标样本之外的其他样本之间的区别特征;基于所述目标样本、所述选取出的样本中除所述目标样本之外的...

【专利技术属性】
技术研发人员:朱军田天杨建军王思宇宋世虹郭楠程雨航
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1