用于构建多级别分类模型的方法和系统技术方案

技术编号：5954103 阅读：215 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供了用于构建多级别分类模型的方法和系统。提出的方法包括：输入标注数据样本；利用标注数据样本生成初始多级别分类模型；以及对初始多级别分类模型进行优化，其中，所述优化步骤可以包括基于所有级别之间的全局级别值间距对初始多级别分类模型进行调整。在另一实施例中，优化步骤还包括基于数据样本之间的序关系对初始多级别分类模型进行调整。在又一实施例中，本发明专利技术的方法被扩展应用到半监督学习情形，通过参考标注和未标注数据样本两者，可以基于数据样本之间的相似性以及级别之间的相似性对初始多级别分类模型进行进一步平滑。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术一般地涉及信息分类，尤其是将信息样本分类到多个类别的多类别 (multi-class)分类和多级别(multi-level)分类。更具体而言，本专利技术涉及用于构建多级别分类模型的方法和系统。
技术介绍
在传统的多类别信息分类方法中，类别通常是相互独立和无序的。例如，在新闻分类中，新闻的类别可以包括政治、经济、军事、科学等等。然而，在现实生活中，存在另一种特殊的多类别问题。即，各个类别之间有序关联并且平滑分布。这种分类问题被称为多级别分类问题。在多级别分类问题中，信息样本被分类到不同的级别而非不同的类别。例如，在产品评价分类中，用户对产品的评价意见的等级可以包括差、一般、好、非常好等等。因特网上信息的不断增长使得对信息分类的需求越来越明显。因此，近年来，针对传统的多类别分类问题已经进行了很多研究。但是，作为一种特殊的多类别问题，对多级别分类问题的研究尚不充分。下面将简单介绍几个与本专利技术相关的现有自动信息分类算法的示例。Chu>S. Sathiya Keerhi 白勺 11 “New Approaches toSupport Vector Ordinal Regression”的论文(参见ICML2005，第145-152页)中，提出了两种用于序回归 (ordinal regression)的监督支持向量方法。该方法用于优化多个有序的尺度阈值，这多个阈值限定了多个平行的分类超平面。要了解更多细节，请具体参考第7节“专利技术的详细描述”。另外，于2008年3月17日递交的美国专利US 7533076B2 (下称“现有技...

【技术保护点】
１．一种用于构建多级别分类模型的方法，包括：输入标注数据样本；利用所述标注数据样本生成初始多级别分类模型；以及对所述初始多级别分类模型进行优化，其中，所述优化步骤包括基于所有级别之间的全局级别值间距对所述初始多级别分类模型进行调整。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈博，钱明杰，齐红威，杉山高弘，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人