A system, method, data processing apparatus, and articles for classifying data are disclosed. A data classification method using a machine learning method is also disclosed.
【技术实现步骤摘要】
用于对文档和数据的转导分类方法本申请是分案申请,其原申请的国际申请号为PCT/US2007/013484,国际申请日是2007年6月7日,中国国家申请号为200780001197.9,进入中国的日期为2008年4月23日,专利技术名称为“用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法”。
本专利技术主要涉及用于数据分类的方法和装置。具体地,本专利技术提供了改进的转导机器学习方法。本专利技术还涉及使用机器学习方法的新的应用。
技术介绍
在信息时代、以及近期各行各业(包括,特别是,扫描文件、网上资料、搜索引擎数据、文本数据、图像、音频数据文件,等等)电子数据的大爆炸,如何处理数据已经变得非常重要。刚刚开始探索的一个领域是非人工数据分类。在许多分类方法中,机器或计算机必须依据人工输入以及建立的规则设置和/或人工建立的训练样例学习。在使用训练样例的机器学习中,学习样例的数量通常比所需估算的参数数量小,即,满足由训练样例所给定的限制条件的解的数量更大。机器学习的一项挑战在于去发现一种不管欠缺限定仍归纳完好的解决方案。因此需要克服这些和/或其它现有技术的问题。还进一步需要各种类型的机器学习方法的实际应用。
技术实现思路
在一个基于计算机的系统中,根据本专利技术的一个实施例,一种用于数据分类的方法,包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;接收无标记数据点;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;通过迭代计算,使用所述至少 ...
【技术保护点】
一种用于文档分类的方法,其特征在于包括:接收至少一个有标记种子文档,该种子文档具有一个已知的置信级别;接收无标记文档;接收至少一个预设的成本因子;通过迭代计算,使用所述至少一个预设的成本因子、所述至少一个种子文档、以及所述无标记文档,训练一个转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数;在至少部分迭代之后,为所述无标记文档存储置信分值;和将具有最高置信分值的无标记文档的标识符输出给一个用户、另一系统、另一过程中的至少一个。
【技术特征摘要】
2006.07.12 US 60/830,311;2007.05.23 US 11/752,634;1.一种用于文档分类的方法,其特征在于包括:接收至少一个有标记种子文档,该种子文档具有一个已知的置信级别;接收无标记文档;接收至少一个预设的成本因子;通过迭代计算,使用所述至少一个预设的成本因子、所述至少一个种子文档、以及所述无标记文档,训练一个转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数;在至少部分迭代之后,为所述无标记文档存储置信分值;和将具有最高置信分值的无标记文档的标识符输出给一个用户、另一系统、另一过程中的至少一个。2.根据权利要求1所述的方法,其特征在于:一个或多个所述种子文档中的每一个具有一个标记,指示该种子文档是否被纳入一个指定的类别。3.根据权利要求1所述的方法,其特征在于:每一次迭代后存储置信分值,其中,在每一次迭代后,具有最高置信分值的无标记文档的标识符被输出。4.根据权利要求1所述的方法,其特征在于:还包括为所述有标记和无标记文档接收一个数据点标记先验概率;其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。5.根据权利要求1所述的方法,其特征在于:还包括:接收第三个无标记文档;将所述第三个无标记文档与至少部分具有最高置信分值的无标记文档比较;以及响应于如下确定来输出所述第三个无标记文档的标识符:(1)所述第三个无标记文档的置信级别指示所述第三个无标记文档属于与所述种子文档相同的类别;并且(2)所述第三个无标记文档的所述置信级别大于预定义的置信阈值。6.在一个基于计算机的系统中,一种用于数据分类的方法,其特征在于包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定的类别的数据点的训练样例,还是从一个指定的类别被排除的数据点的训练样例;接收无标记数据点;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;通过迭代计算,使用所述至少一个成本因子,以及所述有标记数据点和无标记数据点作为训练样例,使用最大熵判别(MED),训练一个转导分类器,其中,对于每一次迭代计算,调节所述无标记数据点成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调节一个数据点标记先验概率;使用所述训练的分类器分类所述无标记数据点、所述有标记数据点、以及输入数据点中的至少一个;和将所述分类的数据点的类别或其衍生物输出给一个用户、另一系统、和另一过程中的至少一个。7.根据权利要求6所述的方法,其特征在于:所述函数为一个数据点的期望标记的绝对值。8.根据权利要求6所述的方法,其特征在于:还包括接收有标记和无标记数据点的先验概率信息的步骤。9.根据权利要求8所述的方法,其特征在于:所述转导分类器使用所述有标记和无标记数据的先验概率信息学习。10.根据权利要求6所述的方法,其特征在于:还包括使用判定函数参数的一个高斯先验,给定所述被纳入和被排除的训练样例,根据它们的期望标记,利用所述有标记和无标记数据作为训练样例,确定具有最小的KL发散的判定函数的步骤。11.根据权利要求6所述的方法,其特征在于,还包括使用判定函数参数的多项式先验分布,确定具有最小的KL散度的判定函数...
【专利技术属性】
技术研发人员:毛里蒂乌斯·A·R·施密特勒,克里斯托弗·K·哈里斯,罗兰·博雷,安东尼·萨拉,妮古拉·卡鲁索,
申请(专利权)人:柯法克斯公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。