用于对文档和数据的转导分类方法技术

技术编号:16233617 阅读:36 留言:0更新日期:2017-09-19 14:55
本发明专利技术公开了一种用于分类数据的系统、方法、数据处理装置和制品。还公开了使用机器学习方法的数据分类方法。

A classification method for the classification of documents and data

A system, method, data processing apparatus, and articles for classifying data are disclosed. A data classification method using a machine learning method is also disclosed.

【技术实现步骤摘要】
用于对文档和数据的转导分类方法本申请是分案申请,其原申请的国际申请号为PCT/US2007/013484,国际申请日是2007年6月7日,中国国家申请号为200780001197.9,进入中国的日期为2008年4月23日,专利技术名称为“用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法”。
本专利技术主要涉及用于数据分类的方法和装置。具体地,本专利技术提供了改进的转导机器学习方法。本专利技术还涉及使用机器学习方法的新的应用。
技术介绍
在信息时代、以及近期各行各业(包括,特别是,扫描文件、网上资料、搜索引擎数据、文本数据、图像、音频数据文件,等等)电子数据的大爆炸,如何处理数据已经变得非常重要。刚刚开始探索的一个领域是非人工数据分类。在许多分类方法中,机器或计算机必须依据人工输入以及建立的规则设置和/或人工建立的训练样例学习。在使用训练样例的机器学习中,学习样例的数量通常比所需估算的参数数量小,即,满足由训练样例所给定的限制条件的解的数量更大。机器学习的一项挑战在于去发现一种不管欠缺限定仍归纳完好的解决方案。因此需要克服这些和/或其它现有技术的问题。还进一步需要各种类型的机器学习方法的实际应用。
技术实现思路
在一个基于计算机的系统中,根据本专利技术的一个实施例,一种用于数据分类的方法,包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;接收无标记数据点;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;通过迭代计算,使用所述至少一个成本因子,以及所述有标记数据点和无标记数据点作为训练样例,使用最大熵判别(MED),训练一个转导分类器,其中,对于每一次迭代计算,调整无标记数据点的成本因子作为一个期望标记值的函数,并根据数据点组成员概率的估算,调整一个数据点标记的先验概率;将训练的分类器用于分类所述无标记数据点、有标记数据点、和输入数据点中的至少一个;并将所述分类的数据点或其衍生物的类别输出给一个用户、另一系统、和另一过程中的至少一个。根据本专利技术的另一个实施例,一种用于数据分类的方法,包括向计算机系统提供需要使用的可执行程序代码,并在计算机系统上执行,所述程序代码包括多个指令,用于:访问存储在计算机存储器的有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;从计算机存储器访问无标记的数据点;从计算机存储器访问所述有标记数据点和无标记数据点的至少一个预设的成本因子;通过迭代计算,使用所述至少一个成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,训练一个最大熵判别(MED)转导分类器,其中,对于每一次迭代计算,调整无标记数据点成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调整所述数据点标记的先验概率;将训练的分类器用于分类所述无标记数据点、有标记数据点、和输入数据点中的至少一个;并将所述分类的数据点或其衍生物的类别输出给一个用户、另一系统、和另一过程中的至少一个。根据本专利技术的另一个实施例,一种数据处理装置,包括:至少一个存储器,用于存储:(i)有标记数据点,所述每一个有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;(ii)无标记数据点;和(iii)所述有标记数据点和无标记数据点的至少一个预设的成本因子;以及一个转导分类器训练器,以使用所述至少一个存储的成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,使用转导的最大熵判别(MED),循环地训练转导分类器,其中,对于每一次MED迭代计算,调整无标记数据点成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调整所述数据点标记的先验概率;其中,由转导分类器训练器训练的分类器用于分类无标记数据点、有标记数据点、以及输入数据点中的至少一个;其中,所述分类的数据点或其衍生物的类别,被输出给一个用户、另一系统、和另一过程中的至少一个。根据本专利技术的另一个实施例,一种制品,包括:一个计算机可读的程序存储介质,该介质确切地包含有一个或多个计算机可执行的指令程序,以执行一种数据分类的方法,包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;接收无标记数据点;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;使用所述至少一个存储的成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,利用迭代的最大熵判别(MED)计算,训练一个转导分类器,其中,在每一次MED迭代计算中,调整无标记数据点的成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调整一个数据点标记先验概率;将训练的分类器用于分类所述无标记数据点、有标记数据点、以及输入数据点中的至少一个;并将分类的数据点或其衍生物的类别输出给一个用户、另一系统、以及另一过程中的至少一个。在一个基于计算机的系统中,根据本专利技术的另一个实施例,一种无标记数据的分类方法,包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;接收有标记和无标记数据点;接收有标记数据点和无标记数据点的先验标记概率信息;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;根据所述数据点的标记先验概率,确定每一个有标记和无标记数据点的期望的标记;重复下面的子步骤,直至数据值足够收敛。●为每一个与数据点的期望标记的绝对值成比例的无标记数据点生成一个调节的成本值;●通过确定判定函数,给定被纳入训练和被排除训练的样例,使用所述有标记和无标记数据点作为训练样例,训练一个分类器,根据它们的期望标记,该判定函数将KL发散最小化为判定函数参数的先验概率分布;●使用所述训练的分类器,确定所述有标记和无标记数据点的分类分值;●将训练的分类器的输出校准为组成员概率;●根据所述确定的组成员概率,更新所述无标记数据点的标记先验概率;●利用所述更新的标记先验概率和之前确定的分类分值,使用最大熵判别(MED),确定所述标记和界限概率分布;●使用之前确定的标记概率分布,计算新的期望标记;和●通过将之前迭代的所述期望标记插入所述新的期望标记,为每一个数据点更新期望标记。输入数据点或其衍生物的一个分类被输出给一个用户、另一系统、以及另一过程中的至少一个。根据本专利技术的另一个实施例,一种文件分类方法,包括:接收至少一个有标记的种子文件,其具有标记分配的已知置信级别;接收无标记文件;接收至少一个预设的成本因子;使用所述至少一个预设的成本因子、所述至少一个种子文件、以及所述无标记文件,通过迭代计算训练一个转导分类器,其中,对于每一次迭代计算,调整所述成本因子作为一个期望标记值的函数;在至少部分迭代之后,为所述无标记文件存储置信分值;以及将具有最高置信分值的无标记文件的标识符输出给一个用户、另一系统本文档来自技高网...
用于对文档和数据的转导分类方法

【技术保护点】
一种用于文档分类的方法,其特征在于包括:接收至少一个有标记种子文档,该种子文档具有一个已知的置信级别;接收无标记文档;接收至少一个预设的成本因子;通过迭代计算,使用所述至少一个预设的成本因子、所述至少一个种子文档、以及所述无标记文档,训练一个转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数;在至少部分迭代之后,为所述无标记文档存储置信分值;和将具有最高置信分值的无标记文档的标识符输出给一个用户、另一系统、另一过程中的至少一个。

【技术特征摘要】
2006.07.12 US 60/830,311;2007.05.23 US 11/752,634;1.一种用于文档分类的方法,其特征在于包括:接收至少一个有标记种子文档,该种子文档具有一个已知的置信级别;接收无标记文档;接收至少一个预设的成本因子;通过迭代计算,使用所述至少一个预设的成本因子、所述至少一个种子文档、以及所述无标记文档,训练一个转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数;在至少部分迭代之后,为所述无标记文档存储置信分值;和将具有最高置信分值的无标记文档的标识符输出给一个用户、另一系统、另一过程中的至少一个。2.根据权利要求1所述的方法,其特征在于:一个或多个所述种子文档中的每一个具有一个标记,指示该种子文档是否被纳入一个指定的类别。3.根据权利要求1所述的方法,其特征在于:每一次迭代后存储置信分值,其中,在每一次迭代后,具有最高置信分值的无标记文档的标识符被输出。4.根据权利要求1所述的方法,其特征在于:还包括为所述有标记和无标记文档接收一个数据点标记先验概率;其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。5.根据权利要求1所述的方法,其特征在于:还包括:接收第三个无标记文档;将所述第三个无标记文档与至少部分具有最高置信分值的无标记文档比较;以及响应于如下确定来输出所述第三个无标记文档的标识符:(1)所述第三个无标记文档的置信级别指示所述第三个无标记文档属于与所述种子文档相同的类别;并且(2)所述第三个无标记文档的所述置信级别大于预定义的置信阈值。6.在一个基于计算机的系统中,一种用于数据分类的方法,其特征在于包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定的类别的数据点的训练样例,还是从一个指定的类别被排除的数据点的训练样例;接收无标记数据点;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;通过迭代计算,使用所述至少一个成本因子,以及所述有标记数据点和无标记数据点作为训练样例,使用最大熵判别(MED),训练一个转导分类器,其中,对于每一次迭代计算,调节所述无标记数据点成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调节一个数据点标记先验概率;使用所述训练的分类器分类所述无标记数据点、所述有标记数据点、以及输入数据点中的至少一个;和将所述分类的数据点的类别或其衍生物输出给一个用户、另一系统、和另一过程中的至少一个。7.根据权利要求6所述的方法,其特征在于:所述函数为一个数据点的期望标记的绝对值。8.根据权利要求6所述的方法,其特征在于:还包括接收有标记和无标记数据点的先验概率信息的步骤。9.根据权利要求8所述的方法,其特征在于:所述转导分类器使用所述有标记和无标记数据的先验概率信息学习。10.根据权利要求6所述的方法,其特征在于:还包括使用判定函数参数的一个高斯先验,给定所述被纳入和被排除的训练样例,根据它们的期望标记,利用所述有标记和无标记数据作为训练样例,确定具有最小的KL发散的判定函数的步骤。11.根据权利要求6所述的方法,其特征在于,还包括使用判定函数参数的多项式先验分布,确定具有最小的KL散度的判定函数...

【专利技术属性】
技术研发人员:毛里蒂乌斯·A·R·施密特勒克里斯托弗·K·哈里斯罗兰·博雷安东尼·萨拉妮古拉·卡鲁索
申请(专利权)人:柯法克斯公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1