获取特征排序模型的装置和方法以及特征排序方法制造方法及图纸

技术编号:14416432 阅读:64 留言:0更新日期:2017-01-12 09:25
本公开提供了获取特征排序模型的装置和方法以及特征排序方法。获取特征排序模型的方法基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述获取特征排序模型的方法包括:针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。

【技术实现步骤摘要】

本公开总体上涉及一种用于获取特征排序模型的装置和方法以及一种特征排序装置和方法,具体而言,涉及能够基于特征的子特征通过学习而获取特征排序模型的装置和方法以及根据所获取的特征排序模型来确定特征排序的特征排序装置和方法。
技术介绍
随着互联网的发展和大数据的应用需求,诸如监督学习等数据分析需要从样本中提取特征并选择合适的特征。除了监督学习之外,诸如分类和预测等数据处理也依赖于特征的提取和特征的选择。在这些处理中,如何识别好的特征并加以选择起到决定作用。在上述技术中,期望能够以准确、高效的方式选择合适的特征。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于现有技术的上述缺陷,本专利技术的目的之一是提供一种用于获取特征排序模型的装置和方法以及一种特征排序装置和方法,以至少克服现有的问题。根据本公开的一个方面,提供了一种获取特征排序模型的方法,所述方法基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述方法包括:针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。根据本公开的另一方面,提供了一种特征排序方法,其基于通过上述的用于获取特征排序模型的方法获得的特征排序模型来对多个待测样本的特征进行排序,所述多个待测样本中的每一个均具有多个特征,该多个特征与获得所述特征排序模型时所使用的原始样本的多个特征相对应,所述特征排序方法包括:基于所述多个待测样本,提取所述多个特征中的每个特征的子特征;以及利用从所述多个待测样本提取的子特征,根据所述特征排序模型,确定所述多个待测样本的所述多个特征的排序。根据本公开的再一方面,提供了一种获取特征排序模型的装置,所述装置基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述装置包括:排序标签获取单元,其针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;子特征提取单元,其针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及学习单元,其基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。依据本公开的其它方面,还提供了一种使得计算机用作如上所述的获取特征排序模型的装置的程序。依据本公开的又一方面,还提供了相应的计算机可读存储介质,该计算机可读存储介质上存储有能够由计算设备执行的计算机程序,该计算机程序在执行时能够使计算设备执行上述获取特征排序模型的方法。上述根据本公开实施例的各个方面,至少能够获得以下益处至少之一:以将特征视为样本的方式,从特征中提取子特征,并通过学习获取基于子特征的特征排序模型,从而能够实现准确、高效的特征排序,以有利于选择合适的特征。通过以下结合附图对本公开的最佳实施例的详细说明,本公开的这些以及其他优点将更加明显。附图说明本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:图1是示意性地示出根据本公开实施例的用于获取特征排序模型的装置的示例结构的框图。图2是用于说明根据本公开实施例的用于获取特征排序模型的装置中的排序标签获取单元所进行的示例处理的说明图。图3是用于说明根据本公开实施例的用于获取特征排序模型的装置中的子特征提取单元所进行的示例处理的说明图。图4是示意性地示出根据本公开实施例的用于获取特征排序模型的装置中的学习单元的示例结构的框图。图5是示意性地示出根据本公开实施例的特征排序装置的示例结构的框图。图6是示出了根据本公开实施例的用于获取特征排序模型的方法的示例流程的流程图。图7是示出了根据本公开实施例的用于获取特征排序模型的方法中的学习步骤的示例流程的流程图。图8是示出了根据本公开实施例的特征排序方法的示例流程的流程图。图9是示出了可用来实现根据本公开实施例的用于获取特征排序模型的装置和方法的一种可能的硬件配置的结构简图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。本专利技术人发现,在现有的监督学习以及分类和预测等数据分析技术中,对特征的选择基于简单的排序处理。例如,基于原始样本构建回归树,并根据回归树的分裂点获得特征排序等。然而,以这种方式对特征进行排序得到的结果不一定准确。基于此,本公开提出了一种用于获取特征排序模型的装置和方法以及根据所获取的特征排序模型来确定特征排序的特征排序装置和方法,其中以将特征视为样本的方式,从特征中提取子特征,并通过学习获取基于子特征的特征排序模型,从而能够实现准确、高效的特征排序,以有利于选择合适的特征。根据本公开的一个方面,提供了一种用于获取特征排序模型的装置。图1是示意性地示出根据本公开实施例的用于获取特征排序模型的装置的示例结构的框图。图1示出了用于获取特征排序模型的装置10。所述装置10基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数。如图1所示,所述装置10包括:排序标签获取单元101,其针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;子特征提取单元102,其针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及学习单元103,其基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。利用如图1所示的用于获取特征排序模型的装置10,能够以将原始样本的特征视为新样本的方式,通过对N个原始样本组的处理而获得这些特征(新样本)的排序标签以及这些特征的子特征,并通过基于如此本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201510333995.html" title="获取特征排序模型的装置和方法以及特征排序方法原文来自X技术">获取特征排序模型的装置和方法以及特征排序方法</a>

【技术保护点】
一种获取特征排序模型的方法,所述方法基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述方法包括:针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。

【技术特征摘要】
1.一种获取特征排序模型的方法,所述方法基于N个原始样本组进行学习,所述N个原始样本组各自包括多个原始样本,并且每个原始样本具有多个特征,其中,N为大于1的自然数,所述方法包括:针对每个原始样本组,基于该组中的原始样本,获取所述多个特征的排序标签;针对每个原始样本组,基于该组中的原始样本,提取所述多个特征中的每个特征的子特征;以及基于针对所述N个原始样本组分别得到的所述多个特征的排序标签以及所述多个特征中的每个特征的子特征,通过学习获得所述特征排序模型。2.如权利要求1所述的方法,其中,通过学习获得所述特征排序模型包括:针对每个原始样本组,基于该组中的原始样本,获取基于所述多个特征的所述排序标签的、所述多个特征当中的每两个特征之间的交换成本;针对每个原始样本组,对于所述多个特征当中的每个两个特征,基于该组中的该两个特征之间的交换成本以及该组中的该两个特征的子特征的函数来计算该两个特征的比较概率;基于针对所述N个原始样本组而各自计算的、所述多个特征当中的每两个特征之间的比较概率,计算所述特征排序模型的损失函数;以及通过使所述损失函数最小化,确定所述特征排序模型。3.如权利要求1所述的方法,其中,针对一个原始样本组获取所述多个特征的排序标签包括:为该组中的原始样本构建分裂点与所述多个特征相关的回归树,并基于所述回归树中的分裂点的重要程度来获取所述多个特征的排序标签。4.如权利要求3所述的方法,其中,针对一个原始样本组提取一个特征的子特征包括:基于为该组中的原始样本构建的回归树中与该特征相关的分裂点,为该特征划分多个特征区域,并提取该特征的、基于所述多个特征区域的子特征。5.如权利要求2所述的方法,其中,在计算两个特征的比较概率时,使用该两个特征的子特征之间的差的Sigmoid函数,作为该两个特征的子特征的函数,以及通过计算所述Sigmoid函数与该两个特征之间的交换成本的乘积而计算所述比较概率。6.如权利要求1所述的方法,其中,所述N个原始样本组是通过从T个原始样本中进行带放回的随机抽取而得到的,并且每个原始样本组包括k个原始样本,其中T、k均...

【专利技术属性】
技术研发人员:孙健夏迎炬杨铭
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1