分类评估系统、方法和程序技术方案

技术编号:2863612 阅读:140 留言:0更新日期:2012-04-11 18:40
文档分类系统通过将输入文档匹配于类别模型而自动将输入文档分类为预先确定的文档类别。输入文档的内容随时间而改变并且类别模型也退化。相对于每个类别计算训练文档组和实际文档组(其分类为多个类别)之间的相似性。选择具有低相似性的类别。可选地,通过计算每个单独类别中的训练文档组和所有其他类别中的实际文档组之间的相似性来检测已发生退化的类别。计算具有低相似性的类别对。通过计算训练文档组和所有类别对之间的相似性来检测相近主题的类别对。选择具有低相似性的类别对。

【技术实现步骤摘要】

本专利技术涉及对文档和其他模式进行分类的技术。更为具体地,本专利技术目的在于每种情况来实现对类别(class)模型的适当性的正确评估,从而提高运行效率。
技术介绍
文档分类是将文档分类为预定组的技术,并随着信息交流的日益增长而变得更为重要。就文档分类而言,各种方法-例如向量空间模型、k最近邻域法(KNN法)、朴素贝叶斯方法(native Bayes)、决策树方法、向量支持机方法以及助推(boosting)方法,已经在此之前研究和开发过。文档分类处理的新趋势已在日本信息处理学会(IPSJ)杂志第42卷第1期(2001年1月)中Masaaki Nagata和Hirotoshi Taira的“学习理论的文本分类示范(Text Classification-Showcase of LeamingTheories)”一文中详细描述。在每一种这样的分类方法中,关于文档类别的信息以特定的形式描述并且与输入文档相匹配。该信息在下文中将被称做“类别模型”。类别模型使用例如属于向量空间模型中每个类别的文档的平均向量来表示,一组文档向量属于kNN方法中的每个类别,和所述助推方法中的一系列简单假设。为获得精确的分类,所述类别模型必须精确地描述每个类别。类别模型通常是利用大量文档作为每个类别的训练(training)数据而加以构建的。文档分类是基于识别技术的,正像符号识别和语音识别一样。然而,在与符号识别和语音识别相比时,在以下情形中文档分类是独特的。(1).就字符识别和语音识别而言,不可能想像逐秒的变化出现在属于相同类别的模式中。属于类别“2”的字符模式在现在和一年前应该是相同的。然而,就文档而言,即使在相同类别中文档的内容也将逐秒地发生变化。例如,如果一个人设想一个称为“国际政治”的类别,那么属于这个类别的文档主题在伊拉克战争前后会发生显著地变化。因此,“国际政治”使用的类别模型必须要随着时间的推移而加以重建。(2).就字符和语音表达而言,一个人能够立即判断出输入的字符或语音表达属于哪个类别。因此,收集训练数据以构建类别模型并不难。然而,就文档而言,在不阅读输入的文档的情况下,不可能判断出输入的文档属于哪个类别。即使是浏览的话,对一个人而言也需要花费大量的时间来阅读文档。因此,就文档而言,在收集大量,可靠的训练数据时存在极大的负担。(3)由于原因(2)中所述的相同原因,就文档分类而言,难以知道如何对大量的未知文档正确地进行分类。(4).就字符和语音表达而言,输入的字符和语音表达存在于什么类别事实上是不言而喻的。例如,就字符识别而言,对识别数字而言有10个类别。然而,文档识别的类别可以自由设置,并且使用的类别的形式由用户的需要,系统设计者的目标等确定。因此,就文档识别而言,原因(1)要求类别模型的频繁重建以在实际操作中根据每种情况正确地对文档进行分类。然而,由于原因(2),类别模型的重建并不容易。为了减轻重建类别模型中的负担,不重建所有的类别是优选的。更为合适地,只重建其中类别模型已退化(deteriorate)的那些类别是优选的。然而,原因(3)也使得难于检测到在哪个类别中已出现退化。由于这些原因,文档分类中实际操作的费用并不便宜。而且,就文档分类而言,当由人为确定的类别所代表的主题彼此之间差别很大(也就是,不同)之时,不存在任何问题,但具有存在类别对(class-pair)的情况,该类别对代表彼此相近(也就是,类似)的主题。这样的类别对会在类别对之间导致误分类的出现,并会导致系统性能的退化。因此,当设计文档分类系统时,尽快地检测主题上相近的类别对并重新考虑该类别是很必要的。为此,在设计文档分类系统之后,可以通过使用测试数据执行评估来检测有问题的类别对,但是这需要人力和时间。令人期待的是,就在训练数据准备好之后,也就是说,一旦收集了训练数据并完成了每个文档的类别标注(label)就检测这些主题上相近的类别对。
技术实现思路
本专利技术的目的在于能够对主题上相近的类别对和其中类别模型已退化的类别进行容易的检测,从而减轻设计文档分类系统的负担和重建类别模型的负担。首先,对于类别模型退化作出一些评论。对于类别“A”的类别模型退化会以两种情况表现其影响。一种情况是,属于类别A的输入文档不会被检测为属于类别A。另一种情况是,该文档被误分类为类别“B”而不是“A”。假设将类别A的“查全率(recall)”定义为经判断属于类别A的文档数量与属于类别A的文档数量的比率,并且将类别A的“精确度”定义为在经判断属于类别A的文档中实际上属于类别A的文档数量的比率。因此,类别模型退化的影响表现为在查全率或精确度上的下降。因此,问题在于如何检测查全率和精确度都已降低的类别。本专利技术使用了以下方法。(这里假设即使当指定类别的查全率和精确度下降,还仍存在许多正确分类为相应类别的文档。)在类别A的查全率已经降低的情况下,可以想像在属于类别A的输入文档的主题与类别A的类别模型所代表的主题之间将会出现失配。当类别模型被构建时,类别模型中所代表的类别A的主题由训练数据确定。在文档分类系统的实际操作过程中分类于类别A的一组文档称为“类别A实际文档组”。上述失配是否已出现是由类别A实际文档组和用于构建类别A的类别模型的训练文档组之间的紧密度(也就是说“相似性”)来确定的。如果相似性高,那么类别A实际文档组的内容和用于构建类别模型的训练文档组的内容是彼此相近的。因此,可以判断出没有出现退化。相反,如果相似性低,那么属于类别A的输入文档的主题已经发生变化。因此,可以判断出类别模型已经退化。对判断出已出现退化的类别,必须要重建类别模型。而且,如果在许多情况中,属于类别A的输入文档误分类为类别B,那么可以理解为,属于类别A的文档所代表的主题已经发生变化,并且已经变得与类别B的类别模型极为相似。因此,可以理解为在类别A实际文档组和用于构建类别B类别模型的训练文档组之间的紧密度(也就是“相似性”)是很高的。因此,高相似性证明了属于类别A的文档的主题内容与类别B相近。当这发生时,可以判断出在类别A和类别B的类别模型中都已出现了退化。因此,重建类别A和类别B的类别模型是必要的。接下来,对于主题上彼此相近的类别对给出解释。当类别对主题上彼此相近时,该类别的文档组之间的相似性必定是高的。因此,通过获取所有类别对之间的相似性,并选择具有高于指定值的相似性的那些类别对,判断出这些类别是具有彼此相近主题的那些类别。对于这些类别对,有必要重新考虑是否适当进行了类别设置,类别的定义是否合适,以及类似的考虑。如上所述,本专利技术不仅为每个类别收集了训练文档组,也为每个类别收集了实际文档组,并接着获取所有类别对的训练文档组之间的相似性,所有类别的训练文档组和实际文档组之间的相似性,以及所有类别对的训练文档组和实际文档组之间的相似性。这使得对有必要重新构建和重新考虑的类别进行检测,从而能够对文档分类系统设计和类别模型的重建进行极为简易的修改。本专利技术提供如下系统、方法和存储介质(一)、一种文档分类评估系统,具有一个单元,用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型,执行对输入文档的分类,该系统包括(a)第一计算器,用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性;以及(b本文档来自技高网
...

【技术保护点】
一种文档分类评估系统,具有一个单元,用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型,执行对输入文档的分类,该系统包括:    (a)第一计算器,用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性;以及    (b)检测器,用于检测相似性大于阈值的类别对。

【技术特征摘要】
JP 2003-10-31 371881/03;JP 2004-2-12 34729/041.一种文档分类评估系统,具有一个单元,用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型,执行对输入文档的分类,该系统包括(a)第一计算器,用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性;以及(b)检测器,用于检测相似性大于阈值的类别对。2.根据权利要求1所述的文档分类评估系统,其中第一计算器包括(a)第一选择器,用于检测和选择用于从每个训练文档中检测类别对的词语;(b)第一划分器,用于将每个训练文档划分为文档段;(c)第一向量产生器,为每个训练文档产生具有相应分量的文档段向量,该相应分量具有与出现在文档段中的词语的出现频率相关的值;以及(d)第二计算器,用于根据每个训练文档的文档段向量计算所有类别对的训练文档组之间的相似性。3.一种文档分类评估系统,具有一个单元,用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型,执行对输入文档的分类,该系统包括(a)第一构建器,用于基于训练文档组为每个文档类别构建类别模型;(b)第二构建器,用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中,来构建实际文档组;(c)计算器,用于相对于所有文档类别计算训练文档组和相同类别中的实际文档组之间的相似性;以及(d)检测器,用于检测相似性小于阈值的类别。4.一种文档分类评估系统,具有一个单元,用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型,以执行对输入文档的分类,该系统包括(a)第一构建器,用于基于训练文档组为每个文档类别构建类别模型;(b)第二构建器,用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中,来构建实际文档组;(c)计算器,用于计算每个单独文档类别中的训练文档组和所有其他文档类别中的实际文档组之间的相似性;以及(d)检测器,用于检测相似性大于第三阈值的类别对。5.根据权利要求4所述的文档分类评估系统,其中计算器包括(a)选择器,用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语;(b)划分器,用于将每个训练文档和每个实际文档划分为文档段;(c)向量产生器,用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量,该相应分量具有与出现在文档段中的词语的出现频率相关的值;以及(d)另一计算器,用于根据每个训练文档和每个实际文档的文档段向量计算相似性。6.根据权利要求3所述的文档分类评估系统,其中计算器包括(a)选择器,用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语;(b)划分器,用于将每个训练文档和每个实际文档划分为文档段;(c)向量产生器,用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量,该相应分量具有与出现在文档段中的词语的出现频率相关的值;以及(d)另一计算器,用于根据每个训练文档和每个实际文档的文档段向量计算相似性。7.根据权利要求5所述的文档分类评估系统,还包括另一计算器,根据两个和矩阵之间的相应分量的乘积和计算相似性,其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得,其中文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中词语的类型数目是M,有Y个文档段,并且第y文档段的向量定义为dy=(dy1,...,dyM)T,此处T代表向量转置。8.根据权利要求1所述的文档分类评估系统,还包括另一计算器,用于根据两个和矩阵之间的相应分量的乘积和计算相似性,其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得,其中文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中词语的类型数目是M,有Y个文档段,并且第y文档段的向量定义为dy=(dy1,...,dyM)T,此处T代表向量转置。9.根据权利要求3所述的文档分类评估系统,还包括另一计算器,用于根据两个和矩阵之间的相应分量的乘积和计算相似性,其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得,其中文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中词语的类型数目是M,有Y个文档段,并且第y文档段的向量定义为dy=(dy1,...,dyM)T,此处T代表向量转置。10.根据权利要求4所述的文档分类评估系统,还包括另一计算器,用于根据两个和矩阵之间的相应分量的乘积和计算相似性,其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得,其中文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中词语的类型数目是M,有Y个文档段,并且第y文档段的向量定义为dy=(dy1,...,dyM)T,此处T代表向量转置。11.一种存储文档分类评估程序的存储介质或存储器设备,该程序使计算机运行一个单元,用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型,来执行对输入文档的分类,该程序进一步使计算机如下运行(a)计算器,用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性;以及(b)检测器,用于检测相似性大于阈值的类别对。12.根据权利要求11所述的介质或设备,其中文档分类评估程序使计算器包括(a)选择器,用于检测和选择用于从每个训练文档中检测类别对的词语;(b)划分器,用于将每个训练文档划分为文档段;(c)向量产生器,用于为每个训练文档产生具有相应分量的文档段向量,该相应分量具有与出现在文档段中的词语的出现频率相关的值;以及(d)另一计算器,用于根据每个训练文档的文档段向量计算所有类别对的训练文档组之间的相似性。13.一种存储文档分类评估程序的存储介质或存储器设备,该程序使计算机运行一个单元,用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型,执行对输入文档的分类,该程序进一步使计算机如下运行(a)第一构建器,用于基于训练文档组为每个文档类别构建类别模型;(b)第二构建器,用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中,来构建实际文档组;(c)计算器,用于相对于所有文档类别计算训练文档组和相同类别中的实际文档组之间的相似性;以及(d)检测器,用于检测相似性小于阈值的类别。14.一种存储文档分类评估程序的存储介质或存储器设备,该程序使计算机运行一个单元,用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型,执行对输入文档的分类,该程序进一步使计算机如下运行(a)第一构建器,用于基于训练文档组为每个文档类别构建类别模型;(b)第二构建器,用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中,来构建实际文档组;(c)计算器,用于计算每个单独文档类别中的训练文档组和所有其他文档类别中的实际文档组之间的相似性;以及(d)检测器,用于检测相似性大于第三阈值的类别对。15.根据权利要求14所述的存储文档分类评估程序的存储介质或存储器设备,其中所述计算器包括(a)选择器,用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语;(b)划分器,用于将每个训练文档和每个实际文档划分为文档段;(c)向量产生器,用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量,该相应分量具有与出现在文档段中的词语的出现频率相关的值;以及(d)另一计算器,用于根据每个训练文档和每个实际文档的文档段向量计算相似性。16.根据权利要求13所述的存储文档分类评估程序的存储介质或存储器设备,其中所述计算器包括(a)选择器,用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语;(b)划分器,用于将每个训练文档和每个实际文档划分为文档段;(c)向量产生器,用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量,该相应分量具有与出现在文档段中的词语的出现频率相关的值;以及(d)另一计算器,用于根据每个训练文档和每个实际文档的文档段向量计算相似性。17.根据权利要求11所述的介质或设备,其中文档分类评估程序使计算机运行另一个计算器,用于根据两个和矩阵之间的相应分量的乘积和计算相似性,其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得,假设文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中出现的词语的类型数目是M,有Y个文档段,并且第y文档段的向量定义为dy=(dy1,...,dyM)T,此处T代表向量转置。18.根据权利要求13所述的介质或设备,其中文档分类评估程序使计算机运行另一个计算器,用于根据两个和矩阵之间的相应分量的乘积和计算相似性,其中每个和矩阵是由每个文档组中所有文档的同现...

【专利技术属性】
技术研发人员:川谷隆彦
申请(专利权)人:惠普开发有限公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1