分类装置、分类方法以及电子设备制造方法及图纸

技术编号:9866500 阅读:321 留言:0更新日期:2014-04-03 02:43
本发明专利技术提供了分类装置、分类方法以及电子设备,以克服利用传统的基于图的学习方法所获得的测试样本的类别分值不准确的问题。上述分类装置包括:用于对目标样本进行聚类的聚类单元;用于确定与目标样本的每个聚类相关的训练样本的确定单元;用于删除类别分值不准确的训练样本的类别分值的删除单元;以及用于将上述目标样本作为测试样本并根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度来计算上述测试样本的类别分值的计算单元。上述分类方法用于执行能够实现上述分类装置的功能的处理。上述电子设备包括上述分类装置。本发明专利技术的上述技术能够应用于信息处理领域。

【技术实现步骤摘要】
分类装置、分类方法以及电子设备
[0001 ] 本专利技术涉及信息处理领域,尤其涉及一种分类装置、分类方法以及电子设备。
技术介绍
作为一种能够有效描述数据之间关系的方法,基于图的学习已经被广泛地应用于诸多领域,比如网页分类、图像检索、视频概念检测等。上述网页分类、图像检索以及视频概念检测等,从广义上都可以看成一个分类过程。需要注意的是,这里所说的图是带权图,它是一种数据关系,而并非真正意义上的图像。传统的基于图的学习方法,通常是在某种优化的框架下利用训练样本之间的相似度,通过最优解的解析表达式或者迭代的求解方法,来为每个训练样本计算出一个能够反映其类别属性的类别分值。为了将学习结果推广到测试样本,一般需要基于平滑性约束设计另一个待优化的代价函数。然而,在上述传统的基于图的学习方法中,在将学习结果推广到测试样本的过程中,训练样本的类别分值往往保持不变,这使得一些类别分值可能不准确的训练样本会对测试样本类别分值的计算造成负面的影响,也即,使得计算所得的测试样本的类别分值不准确。此外,为了将学习结果推广到测试样本,上述传统的基于图的学习方法通常是依次处理各个测试样本,而完全没有考虑测试样本之间的关系,这也同样有可能使得测试样本的类别分值计算不准确。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。鉴于此,本专利技术提供了一种分类装置、分类方法以及电子设备,以至少解决利用传统的基于图的学习方法所获得的测试样本的类别分值不准确的问题。根据本专利技术的一个方面,提供了一种分类装置,该分类装置包括:聚类单元,其被配置用于对目标样本进行聚类,以获得目标样本的至少一个聚类;确定单元,其被配置用于分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;删除单元,其被配置用于针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及计算单元,其被配置用于将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。根据本专利技术的另一个方面,还提供了一种分类方法,该分类方法包括:对目标样本进行聚类,以获得上述目标样本的至少一个聚类;分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。根据本专利技术的另一个方面,还提供了一种电子设备,该电子设备包括如上所述的分类装置。上述根据本专利技术的实施例的分类装置、分类方法以及电子设备,能够至少实现以下益处之一:通过确定类别分值不准确的训练样本并删除这些训练样本的类别分值,使得训练样本能够更加准确地反映数据的真实分布信息;保证了在计算测试样本的类别分值的过程中所使用的训练样本的类别分值的准确性;以及通过在计算过程中引入测试样本之间的相似性关系,使得获得的测试样本的类别分值更加准确。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优点将更加明显。【附图说明】本专利技术可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本专利技术的优选实施例和解释本专利技术的原理和优点。在附图中:图1是示意性地示出根据本专利技术的实施例的分类装置的一种示例结构的框图。图2A-2C是示意性地示出传统的分类技术在处理测试样本时的基本原理图。图2D是示意性地示出根据本专利技术的实施例的分类装置在处理测试样本时的基本原理图。图3是示意性地示出如图1所示的计算单元的一种可能的示例结构的框图。图4是示意性地示出根据本专利技术的实施例的分类装置的另一种示例结构的框图。图5是示意性地示出根据本专利技术的实施例的分类方法的一种示例性处理的流程图。图6是示出了可用来实现根据本专利技术的实施例的分类装置和分类方法的一种可能的信息处理设备的硬件配置的结构简图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其他元件放大了,以便有助于提高对本专利技术实施例的理解。【具体实施方式】在下文中将结合附图对本专利技术的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。本专利技术的实施例提供了一种分类装置,该分类装置包括:聚类单元,其被配置用于对目标样本进行聚类,以获得目标样本的至少一个聚类;确定单元,其被配置用于分别确定与上述目标样本的每个聚类相关的训练样本,其中,上述训练样本中的每一个均具有类别分值;删除单元,其被配置用于针对上述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在上述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及计算单元,其被配置用于将上述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得上述测试样本的类别分值。下面结合图1来详细描述根据本专利技术的实施例的分类装置的一个示例。如图1所示,根据本专利技术的实施例的分类装置100包括聚类单元110、确定单元120、删除单元130和计算单元140。 在分类装置100中,聚类单元110用于对目标样本进行聚类,以获得目标样本的至少一个聚类。其中,这里所说的目标样本可以是图像,也可以是视频,还可以是文本、网页等对象。在根据本专利技术的实施例的分类装置的一个具体实现方式中,可以通过聚类单元110对目标样本的聚类处理,来使得每个聚类中的每个目标样本与该聚类下的至少一个其他目标样本的相似度大于第四预定阈值。例如,可以采用分本文档来自技高网...

【技术保护点】
一种分类装置,包括:聚类单元,其被配置用于对目标样本进行聚类,以获得所述目标样本的至少一个聚类;确定单元,其被配置用于分别确定与所述目标样本的每个聚类相关的训练样本,其中,所述训练样本中的每一个均具有类别分值;删除单元,其被配置用于针对所述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在所述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及计算单元,其被配置用于将所述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得所述测试样本的类别分值。

【技术特征摘要】
1.一种分类装置,包括: 聚类单元,其被配置用于对目标样本进行聚类,以获得所述目标样本的至少一个聚类; 确定单元,其被配置用于分别确定与所述目标样本的每个聚类相关的训练样本,其中,所述训练样本中的每一个均具有类别分值; 删除单元,其被配置用于针对所述目标样本的每个聚类,获得与该聚类相关的训练样本的类别分值中的最大值和最小值之差,并在所述差大于第一预定阈值时,删除与该聚类相关的训练样本的类别分值;以及 计算单元,其被配置用于将所述目标样本作为测试样本,根据每个测试样本与每个剩下的训练样本之间的相似度、以及每两个测试样本之间的相似度,利用剩下的训练样本的类别分值,通过求解优化问题的方法获得所述测试样本的类别分值。2.根据权利要求1所述的分类装置,其中,所述计算单元包括: 代价函数构造模块,其被配置用于构造反映下述约束条件的代价函数: 相似度越高的测试样本与训练样本的类别分值越接近,以及 相似度越高的两个测试样本的类别分值越接近; 代价函数求解模块,其被配置用于通过求解所述代价函数的最小化问题来获得所述测试样本的类别分值。3.根据权利要求1或2所述的分类装置,其中,所述训练样本包括具有预定的类别分值的标注样本和类别分值是在`训练阶段基于所述标注样本的类别分值而获得的机器标注样本。4.根据权利要求3所述的分类装置,其中,所述确定单元所确定的与所述目标样本的每个聚类相关的训练样本是所述机器标注样本。5.根据权利要求3或4所述的分类装置,其中,所述计算单元被配置成:...

【专利技术属性】
技术研发人员:李斐刘汝杰杉村昌彦马场孝之上原祐介
申请(专利权)人:富士通株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1