分类评估系统、方法和程序技术方案

技术编号：2863612 阅读：140 留言：0更新日期：2012-04-11 18:40

文档分类系统通过将输入文档匹配于类别模型而自动将输入文档分类为预先确定的文档类别。输入文档的内容随时间而改变并且类别模型也退化。相对于每个类别计算训练文档组和实际文档组（其分类为多个类别）之间的相似性。选择具有低相似性的类别。可选地，通过计算每个单独类别中的训练文档组和所有其他类别中的实际文档组之间的相似性来检测已发生退化的类别。计算具有低相似性的类别对。通过计算训练文档组和所有类别对之间的相似性来检测相近主题的类别对。选择具有低相似性的类别对。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及对文档和其他模式进行分类的技术。更为具体地，本专利技术目的在于每种情况来实现对类别(class)模型的适当性的正确评估，从而提高运行效率。
技术介绍
文档分类是将文档分类为预定组的技术，并随着信息交流的日益增长而变得更为重要。就文档分类而言，各种方法-例如向量空间模型、k最近邻域法(KNN法)、朴素贝叶斯方法(native Bayes)、决策树方法、向量支持机方法以及助推(boosting)方法，已经在此之前研究和开发过。文档分类处理的新趋势已在日本信息处理学会(IPSJ)杂志第42卷第1期(2001年1月)中Masaaki Nagata和Hirotoshi Taira的“学习理论的文本分类示范(Text Classification-Showcase of LeamingTheories)”一文中详细描述。在每一种这样的分类方法中，关于文档类别的信息以特定的形式描述并且与输入文档相匹配。该信息在下文中将被称做“类别模型”。类别模型使用例如属于向量空间模型中每个类别的文档的平均向量来表示，一组文档向量属于kNN方法中的每个类别，和所述助推方法中的一系列简单假设。为获得精确的分类，所述类别模型必须精确地描述每个类别。类别模型通常是利用大量文档作为每个类别的训练(training)数据而加以构建的。文档分类是基于识别技术的，正像符号识别和语音识别一样。然而，在与符号识别和语音识别相比时，在以下情形中文档分类是独特的。(1).就字符识别和语音识别而言，不可能想像逐秒的变化出现在属于相同类别的模式中。属于类别“2”的字符模式在现在和一年前应该是相...

【技术保护点】
一种文档分类评估系统，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，执行对输入文档的分类，该系统包括：　　　　（ａ）第一计算器，用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性；以及　　　　（ｂ）检测器，用于检测相似性大于阈值的类别对。

【技术特征摘要】
JP 2003-10-31 371881/03;JP 2004-2-12 34729/041.一种文档分类评估系统，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，执行对输入文档的分类，该系统包括(a)第一计算器，用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性；以及(b)检测器，用于检测相似性大于阈值的类别对。2.根据权利要求1所述的文档分类评估系统，其中第一计算器包括(a)第一选择器，用于检测和选择用于从每个训练文档中检测类别对的词语；(b)第一划分器，用于将每个训练文档划分为文档段；(c)第一向量产生器，为每个训练文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及(d)第二计算器，用于根据每个训练文档的文档段向量计算所有类别对的训练文档组之间的相似性。3.一种文档分类评估系统，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，执行对输入文档的分类，该系统包括(a)第一构建器，用于基于训练文档组为每个文档类别构建类别模型；(b)第二构建器，用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中，来构建实际文档组；(c)计算器，用于相对于所有文档类别计算训练文档组和相同类别中的实际文档组之间的相似性；以及(d)检测器，用于检测相似性小于阈值的类别。4.一种文档分类评估系统，具有一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息的类别的类别模型，以执行对输入文档的分类，该系统包括(a)第一构建器，用于基于训练文档组为每个文档类别构建类别模型；(b)第二构建器，用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中，来构建实际文档组；(c)计算器，用于计算每个单独文档类别中的训练文档组和所有其他文档类别中的实际文档组之间的相似性；以及(d)检测器，用于检测相似性大于第三阈值的类别对。5.根据权利要求4所述的文档分类评估系统，其中计算器包括(a)选择器，用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语；(b)划分器，用于将每个训练文档和每个实际文档划分为文档段；(c)向量产生器，用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及(d)另一计算器，用于根据每个训练文档和每个实际文档的文档段向量计算相似性。6.根据权利要求3所述的文档分类评估系统，其中计算器包括(a)选择器，用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语；(b)划分器，用于将每个训练文档和每个实际文档划分为文档段；(c)向量产生器，用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及(d)另一计算器，用于根据每个训练文档和每个实际文档的文档段向量计算相似性。7.根据权利要求5所述的文档分类评估系统，还包括另一计算器，根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中词语的类型数目是M，有Y个文档段，并且第y文档段的向量定义为dy＝(dy1，...，dyM)T，此处T代表向量转置。8.根据权利要求1所述的文档分类评估系统，还包括另一计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中词语的类型数目是M，有Y个文档段，并且第y文档段的向量定义为dy＝(dy1，...，dyM)T，此处T代表向量转置。9.根据权利要求3所述的文档分类评估系统，还包括另一计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中词语的类型数目是M，有Y个文档段，并且第y文档段的向量定义为dy＝(dy1，...，dyM)T，此处T代表向量转置。10.根据权利要求4所述的文档分类评估系统，还包括另一计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，其中文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中词语的类型数目是M，有Y个文档段，并且第y文档段的向量定义为dy＝(dy1，...，dyM)T，此处T代表向量转置。11.一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，来执行对输入文档的分类，该程序进一步使计算机如下运行(a)计算器，用于通过使用每个类别的训练文档组计算相对于所有类别对的相似性；以及(b)检测器，用于检测相似性大于阈值的类别对。12.根据权利要求11所述的介质或设备，其中文档分类评估程序使计算器包括(a)选择器，用于检测和选择用于从每个训练文档中检测类别对的词语；(b)划分器，用于将每个训练文档划分为文档段；(c)向量产生器，用于为每个训练文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及(d)另一计算器，用于根据每个训练文档的文档段向量计算所有类别对的训练文档组之间的相似性。13.一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，执行对输入文档的分类，该程序进一步使计算机如下运行(a)第一构建器，用于基于训练文档组为每个文档类别构建类别模型；(b)第二构建器，用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中，来构建实际文档组；(c)计算器，用于相对于所有文档类别计算训练文档组和相同类别中的实际文档组之间的相似性；以及(d)检测器，用于检测相似性小于阈值的类别。14.一种存储文档分类评估程序的存储介质或存储器设备，该程序使计算机运行一个单元，用于通过将输入文档匹配于基于每个类别的训练文档信息所构建的类别的类别模型，执行对输入文档的分类，该程序进一步使计算机如下运行(a)第一构建器，用于基于训练文档组为每个文档类别构建类别模型；(b)第二构建器，用于通过将输入文档匹配于分类的类别模型并将输入文档分类于该输入文档所属的文档类别中，来构建实际文档组；(c)计算器，用于计算每个单独文档类别中的训练文档组和所有其他文档类别中的实际文档组之间的相似性；以及(d)检测器，用于检测相似性大于第三阈值的类别对。15.根据权利要求14所述的存储文档分类评估程序的存储介质或存储器设备，其中所述计算器包括(a)选择器，用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语；(b)划分器，用于将每个训练文档和每个实际文档划分为文档段；(c)向量产生器，用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及(d)另一计算器，用于根据每个训练文档和每个实际文档的文档段向量计算相似性。16.根据权利要求13所述的存储文档分类评估程序的存储介质或存储器设备，其中所述计算器包括(a)选择器，用于检测和选择用于从每个训练文档和每个实际文档中检测类别和类别对之一的词语；(b)划分器，用于将每个训练文档和每个实际文档划分为文档段；(c)向量产生器，用于为每个训练文档和每个实际文档产生具有相应分量的文档段向量，该相应分量具有与出现在文档段中的词语的出现频率相关的值；以及(d)另一计算器，用于根据每个训练文档和每个实际文档的文档段向量计算相似性。17.根据权利要求11所述的介质或设备，其中文档分类评估程序使计算机运行另一个计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现矩阵S的和而获得，假设文档中的同现矩阵S定义为S=Σy=1ydydyT]]>其中出现的词语的类型数目是M，有Y个文档段，并且第y文档段的向量定义为dy＝(dy1，...，dyM)T，此处T代表向量转置。18.根据权利要求13所述的介质或设备，其中文档分类评估程序使计算机运行另一个计算器，用于根据两个和矩阵之间的相应分量的乘积和计算相似性，其中每个和矩阵是由每个文档组中所有文档的同现...

【专利技术属性】
技术研发人员：川谷隆彦，
申请(专利权)人：惠普开发有限公司，
类型：发明
国别省市：US[美国]

全部详细技术资料下载我是这个专利的主人