用于构建多级别分类模型的方法和系统技术方案

技术编号:5954103 阅读:215 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了用于构建多级别分类模型的方法和系统。提出的方法包括:输入标注数据样本;利用标注数据样本生成初始多级别分类模型;以及对初始多级别分类模型进行优化,其中,所述优化步骤可以包括基于所有级别之间的全局级别值间距对初始多级别分类模型进行调整。在另一实施例中,优化步骤还包括基于数据样本之间的序关系对初始多级别分类模型进行调整。在又一实施例中,本发明专利技术的方法被扩展应用到半监督学习情形,通过参考标注和未标注数据样本两者,可以基于数据样本之间的相似性以及级别之间的相似性对初始多级别分类模型进行进一步平滑。

【技术实现步骤摘要】

本专利技术一般地涉及信息分类,尤其是将信息样本分类到多个类别的多类别 (multi-class)分类和多级别(multi-level)分类。更具体而言,本专利技术涉及用于构建多级 别分类模型的方法和系统。
技术介绍
在传统的多类别信息分类方法中,类别通常是相互独立和无序的。例如,在新闻分 类中,新闻的类别可以包括政治、经济、军事、科学等等。然而,在现实生活中,存在另一种特殊的多类别问题。即,各个类别之间有序关联 并且平滑分布。这种分类问题被称为多级别分类问题。在多级别分类问题中,信息样本被 分类到不同的级别而非不同的类别。例如,在产品评价分类中,用户对产品的评价意见的等 级可以包括差、一般、好、非常好等等。因特网上信息的不断增长使得对信息分类的需求越来越明显。因此,近年来,针对 传统的多类别分类问题已经进行了很多研究。但是,作为一种特殊的多类别问题,对多级别 分类问题的研究尚不充分。下面将简单介绍几个与本专利技术相关的现有自动信息分类算法的 示例。Chu>S. Sathiya Keerhi 白勺 11 “New Approaches toSupport Vector Ordinal Regression”的论文(参见ICML2005,第145-152页)中,提出了两种用于序回归 (ordinal regression)的监督支持向量方法。该方法用于优化多个有序的尺度阈值,这多 个阈值限定了多个平行的分类超平面。要了解更多细节,请具体参考第7节“专利技术的详细描 述”。另外,于2008年3月17日递交的美国专利US 7533076B2 (下称“现有技术1 ”)提 出了一种有效的多类别支持向量机分类方法。该方法通过使用一组监督二元支持向量机分 类器将各个数据样本分类到多个类别中。在构建分类模型的过程中,该方法基于各个相邻 级别之间的局部邻接性(local level adjacency)对初始分类模型进行调整。图1示出根 据该现有技术的用于产生和优化分类模型的系统100的结构框图。在图1中,系统100主 要包括分类模型初始化装置101和基于本地级别邻接性的分类模型调整装置102。在信息 分类中,分类模型需要被表示为某种机器可读格式。例如,在该方法中,多级别分类模型由 一系列平行的分类超平面组成,各个超平面具有相应的级别阈值,这些级别阈值指示相邻 级别之间的边界(margin)。在学习分类模型的最初,首先需要生成一初始模型。分类模型 初始化装置101用于基于输入的标注训练数据产生初始分类模型。产生初始分类模型的方 法可以采用本领域技术人员所公知的方法,这里不对此进行赘述。调整装置102用于基于 各个级别之间的局部级别邻接性对所生成的初始分类模型进行调整和优化。在多级别问题 中,级别是顺序相关的,即,级别距离越近则越相似。因此,在该方法中,这种级别关系被表 示为第i级别的阈值必须低于第(i+Ι)级别的阈值。这种表示级别相邻关系的局部级别 邻接性被用于调整已生成的初始分类模型,从而得到优化的分类模型。再例如,在P. N. M. Belkin 和 V. Sindhwani 的题为 “ManifoldRegularization :A Geometric Framework for Learning from Labeled andUnlabeled Examples,,的论文(参 见 Journal of Machine Learning Research,第 23"_2434 页,2OO6 年)(下称“现有技术 2”)中,提出一种学习一系列半监督多类别分类模型的方法。该方法是一种典型的半监督 学习方法,其核心组件在于“基于样本相似性的分类模型平滑”。图2示出根据该现有技术 的用于产生和优化分类模型的系统200的结构框图。在图2中,系统200包括分类模型初 始化装置201和基于样本相似性的分类模型平滑装置202。在半监督学习情形中,大多数 数据样本是未标注的。就是说,大多数数据样本的类别标签是未知的。但是,这些未标注的 训练数据样本的存在可被用于更好地拟合总体的数据分布内在几何结构。其基于这样的假 设相似的数据样本更可能处于相同的类别中。样本相似性可以根据数据样本的特征来计 算,并随后被用于调整标注数据样本和未标注数据样本上的预测的类别标签。这样一来,这 些类别标签可以根据总体上的数据分布而平滑地变化,从而达到优化分类模型的目的。在多类别分类模型中,并没有考虑到多级别情形下各个级别之间的两两有序关 系。这一点姑且不论,即便是现有技术的多级别分类模型优化方法也不可避免地存在诸多 缺陷。在上述现有技术1的序回归模型优化方法中,仅仅考虑到有限的相邻级别之间的顺 序关系。并且,序回归模型中的输出级别标签是离散的,不能被连续地测量。此外,在诸如 现有技术2之类的半监督学习情形中,没有现有的多级别或序回归方法可以被应用。
技术实现思路
本专利技术正是考虑到上述现有技术中存在的问题而研制的。本专利技术的多级别分类模型优化方案主要包括四种分别用于监督和半监督情形的 分类模型优化功能,即,基于全局级别值间距的分类模型调整功能(第一调整),基于数据 样本序关系的分类模型调整功能(第二调整),基于数据样本相似性的分类模型平滑功能 (第一平滑)和基于级别相似性的分类模型平滑功能(第二平滑)。其中,第一和第二调整 主要应用于监督情形,即,基于标注数据样本,而第一和第二平滑是在第一和第二调整的基 础上引入的,用于使模型可被应用到半监督情形,即,基于标注和未标注数据样本两者。第一调整(即,基于全局级别值间距的分类模型调整)是基于所有分类级别之间 的全局关系对分类模型进行调整的功能。不同于上述现有技术1所记载的仅局限于相邻 级别之间的局部顺序的情形,该第一调整功能利用级别值之间的间距来惩罚全局误分类误 差,从而使得所有级别之间的全局序关系被引入分类模型的调整过程。因此,在使得关于所 有数据样本的总误分类误差最小化的同时,分类模型的全局级别序关系也可以被宏观地优 化。第二调整(即,基于数据样本序关系的分类模型调整)是基于如下考量而设计的 基于多个级别之间序的本质,级别之间的序也可以反映在每个数据样本上。因此,该第二调 整功能被设计成使得每两个标注数据样本之间的序关系,与它们的级别标签所对应的级别 序关系保持一致。从而,级别的序关系可以根据数据样本被微观地进一步优化。第一平滑(即,基于数据样本相似性的分类模型平滑)类似于现有方法,例如上述 现有技术2所描述的方法。在本专利技术中,标注数据样本和未标注数据样本两者的预测级别 标签都基于它们之间的相似性被平滑。第二平滑(即,基于级别相似性的分类模型平滑)是根据数据样本的级别相似性 来调整分类模型的功能。在基于样本相似性的第一平滑功能中,仅仅利用了数据分布的内 在几何结构。进一步的,第二平滑被用于对级别分布的内在几何结构建模。基于分类级别之 间的距离以及数据样本属于某一级别的概率,数据样本之间的级别相似性可以被计算。因 此,分类模型可以根据数据样本的级别相似性被进一步优化。从而,预测的级别标签不仅能 够针对总体的数据分布平滑地变化,还可以与级别之间的序关系保持一致。根据不同的实施例,本专利技术利用上述第一调整、第二调整本文档来自技高网
...

【技术保护点】
1.一种用于构建多级别分类模型的方法,包括:输入标注数据样本;利用所述标注数据样本生成初始多级别分类模型;以及对所述初始多级别分类模型进行优化,其中,所述优化步骤包括基于所有级别之间的全局级别值间距对所述初始多级别分类模型进行调整。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈博钱明杰齐红威杉山高弘
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1