当前位置: 首页 > 专利查询>微软公司专利>正文

自动分类法的生成制造技术

技术编号:2856670 阅读:159 留言:0更新日期:2012-04-11 18:40
在文档的分层分类法中,信息的类别可被结构化为一二叉树,该二叉树的各节点包含有关搜索的信息。该二叉树可通过检查一组训练文档并将那些文档分成两个子节点来“训练”或形成。那些文档组的每一组随即可被进一步分成两个节点,来创建二叉树数据结构。这些节点可被生成以将所有训练文档在两个子节点中的任何一个或同在两个子节点中的似然性最大化。在一个例子中,该二叉树的每个节点可与一词列表相关联,并且每一词列表中的每个词与给定该节点时该词出现在文档中的概率相关联。新文档可由该树的各节点来归类。例如,基于该文档与相关联的节点间的统计相似性,新文档可被分配给一特定节点。

【技术实现步骤摘要】
(1)
本申请针对分类法的生成,尤其针对文档的自动分类法生成。(2)
技术介绍
为了寻找感兴趣的特定文档,计算机用户可通过一查询引擎进行电子搜索,来搜索文档集合。然而,某些文档集合,诸如因特网上的网页和文档数据库,可能一般基于用户提议的查询词,向用户返回大量文档。为了解决检索到的文档分散的问题,结果或者说到文档的链接可进一步按日期、普及性、与搜索词的类似性来分类或过滤,和/或依照一手动获得的分层分类法来加以归类。此外或可替换地,用户可选择一特定类别来将搜索限制在该类别中的文档。一般而言,分层分类法(或文本归类)是通过手动定义一组规则来生成的,该组规则对关于如何分类一组预定类别中的文档的专家知识进行编码。机器增强分类法的生成通常依靠手动维护一受控词典,并基于所分配的关键词或与文档相关联并在该受控词典中找到的元数据,来分类文档。(3)
技术实现思路
为了向读者提供一个基本的理解,下文提供所揭示内容一个简化的概述。此概述不是所揭示内容的穷举或限制性的综述。并非提供此概述来标识本专利技术的关键和决定性元素、描绘本专利技术的范畴、或以任何方式来限制本专利技术的范畴。其唯一的目的是以简化形式提供所揭示内容的一些概念,作为对稍后提供的更详细描述的介绍。创建和维护手动或机器增强分类法的成本很昂贵,归因于生成和维护类别和受控词典的工时要求。而且,内容的特性或要分类的内容本身可能改变如此频繁,以至于手动自适应一分类法,即使以受控词典来增强,也是不切实际的。要为文本分类手动地生成一种分层分类法或结构,可在没有任何外来知识的情况下分类文档,即,可仅基于从这些文档本身提取的知识将这些文档分类。在下面讨论的分层分类法中,有关的信息类别可以被结构化为二叉树,该二叉树的节点包含与搜索相关的信息。可通过检查一组训练文档并将这些文档分离成两个子节点,来‘训练’或形成该二叉树。这些文档组的每一组随后还可被分离成两个节点,来创建二又树数据结构。这些节点可被生成以将所有训练文档都在两个节点中任一个中或同在两个节点中的似然性最大化。在一示例中,二叉树的每个节点可与一词列表相关联,且每个词列表中的每个词与给定该节点该词在文档中出现的概率相关联。随着新文档到来,基于该文档与相关联的节点间的统计相似度,可将那些文档分配到一特定节点。与特定节点相关联的文档可基于节点分配来检索,例如,可通过定位与指定的查询词相匹配的节点来检索节点中的文档。在某些情形下,搜索引擎可使用典型的倒排索引来响应于用户的查询返回所选的文档。为解决搜索结果中文档分散的问题,查询引擎可基于相关联的节点来分类、类聚、和/或过滤所选文档。为扩展搜索,来自有关节点的附加文档可被返回。(4)附图说明当集合附图参考以下详细描述更好地理解时,本专利技术的前述方面及许多附加优点将变得更易理解,附图中图1是一实施例中的示例分层二叉树。图2是一实施例中的二叉树分类发过程的示例示意图,该过程适用于形成并使用图1的二叉树。图3是一实施例中图2的分类法过程的示例树生成的示意图。图4是一实施例中生成分类二叉树的示例方法的流程图。图5是一实施例中将文档分配给二叉树的示例方法的流程图。图6是可用于实现本专利技术一实施例的示例系统的框图。(5)具体实施方式被描述为二叉树的分支/节点分类法是一种分层分类法。图1示出二叉树150。主题节点154表示所关心的节点。在因特网搜索引擎的上下文中,主题节点154可表示一个类别,该类别充分类似于用户的查询,或者可以是与查询词相匹配的文档的位置。父节点153是比主题节点154高一层(或宽一个类别)的节点,祖父节点151比主题节点154高两层(或宽两个类别)。子节点156、158是比主题节点154低一层的节点,孙节点157、159、160、161比主题节点154低两层。兄弟节点155是和主题节点154在同一层,并与同一父节点相关联的节点。更多层的“曾”节点(未示出)可在任一方向上存在(例如曾祖父或曾曾孙)。如图1所示,祖父节点151是根节点,即二叉树150中的最高层节点。二叉树可以是平衡的或者不平衡的,然而二叉树的特性要求每个节点要么恰好有两个子节点,要么没有子节点。可用任何适当的来源来选择训练组中的文档。例如,一批文档可希望被归类。为训练该树,要被归类的至少一部分文档可被选作训练文档组。可从基准集合中选择额外的或可替换的训练文档,这些基准集合包括用于新闻文档的Reuters集合、用于医疗文档的OHSUMEDTM集合、用于已张贴新闻组消息的20NewsgroupsTM集合、及用于新闻文档的APTM集合。如图2中所示,一组训练文档210可被输入到树生成器220中,该树生成器基于来自训练文档组的外部信息(例如每个文档中的词)生成二进制分层分类树。因而,可基于全部训练文档内的词来检查训练文档,以确定一组训练词。用于训练树的词可用任何适当的方法从选中的训练文档内选择。图3示出图2的树生成器220的一个示例。树生成器220可包括词生成器310,来确定要用于训练该树的训练词向量或列表320。例如,在单纯贝叶斯 Bayes)假设下,每个训练文档可被当做词向量或列表来处理,因为在单纯贝叶斯假设下,每个文档被当做统计不相关词的集合来处理。用于训练该树的词可基于每个词出现的累计次数从所有文档中出现的所有词中选择。用于训练该树的词可以在大量文档中出现,和/或经常在一特定文档中出现。并且,该词生成器可访问一预定排除词列表,来确保选中用来训练该树的词并不被认为是在训练文档时较不有效。例如,如介词、冠词及/或代词之类的词,尽管在大多数文档中常常出现,然而作为训练分类树的词来说可能不是最优的。而且,可从可用的停用列表中访问排除词列表。该排除词可用任何适当的方法生成,包括试探法、训练词的过去表现、以及该词的出现是否在训练文档组内的每个文档中实质上都是相同的。在某些情况下,为了计算效率,限制在训练系统时使用的词的数量是有好处的。通常,根据某一效用测度,前N个词被选为训练词,其中N的范围从10,000到100,000,取决于训练文档语料库的特性。两个最简单的测度是一单词在语料库中使用的次数(词计数)和包含该单词的文档数(文档计数)。另一个有用的测度将这两个测度相结合。例如,一给定词的效用测度可取为词计数的平方除以文档计数。如图3中所示,词生成器310可接收训练文档组210,并对每个文档中每个词的出现次数进行计数,并将训练组中包含该词的所有文档的计数累加。如果该词的出现次数(词计数)的平方除以包含该词的文档数(文档计数)很大,那么该词在训练文档中被频繁使用;相反,如果该词的出现次数的平方除以文档数很小,那么该词只是偶尔使用,或如果是经常使用,它在每个文档中只出现少数几次。选择训练词的其他方法也可以是适用的,包括计算相对频率的不同方法,和/或多个单词可被标记化以形成作为单个词来计数的短语。选中的词可作为词向量320存储在数据存储中,如图3中所示。在数据存储中,词向量320可与二叉树的当前节点相关联,该当前节点在第一次迭代中为根节点。如图3中所示,词生成器310将词向量320传递给节点生成器330。节点生成器330可生成当前节点的两个子节点,并将每个子节点与所选中的训练词的词列表或向量320相关联。为形成这两个子节点,词向量320本文档来自技高网...

【技术保护点】
一种具有计算机可执行组件的计算机可读介质,所述计算机可执行组件包括:(a)一节点生成器,它被构造成接收基于一训练文档组的训练词列表,并生成包含第一组概率的第一兄弟节点,及生成包含第二组概率的第二兄弟节点,对于所述训练词列表中的每个词 ,所述第一组概率包含该词在文档中出现的概率,且对于所述训练词列表中的每个词,所述第二组概率包含该词在文档中出现的概率。(b)一文档分配器,它被构造成基于所述第一和第二组概率,将所述训练文档组的每个文档与包含所述第一兄弟节点、所述第二 兄弟节点和一空集的组中的至少一项相关联,与所述第一兄弟节点相关的文档形成第一文档组,且与所述第二兄弟节点相关联的文档形成第二文档组;以及(c)一树管理器,它被构造成将所述第一文档组和所述第二文档组的至少一个传递给所述节点生成器,以基 于所述节点生成器和所述文档分配器的递归执行,创建一包括多个兄弟节点的层次的二叉树数据结构。

【技术特征摘要】
US 2004-6-30 10/881,8931.一种具有计算机可执行组件的计算机可读介质,所述计算机可执行组件包括(a)一节点生成器,它被构造成接收基于一训练文档组的训练词列表,并生成包含第一组概率的第一兄弟节点,及生成包含第二组概率的第二兄弟节点,对于所述训练词列表中的每个词,所述第一组概率包含该词在文档中出现的概率,且对于所述训练词列表中的每个词,所述第二组概率包含该词在文档中出现的概率。(b)一文档分配器,它被构造成基于所述第一和第二组概率,将所述训练文档组的每个文档与包含所述第一兄弟节点、所述第二兄弟节点和一空集的组中的至少一项相关联,与所述第一兄弟节点相关的文档形成第一文档组,且与所述第二兄弟节点相关联的文档形成第二文档组;以及(c)一树管理器,它被构造成将所述第一文档组和所述第二文档组的至少一个传递给所述节点生成器,以基于所述节点生成器和所述文档分配器的递归执行,创建一包括多个兄弟节点的层次的二叉树数据结构。2.如权利要求1所述的计算机可读介质,其特征在于,还包括一文档分类器,它被构造成基于所述概率组中所生成的概率,将一新文档与多个兄弟节点中的至少一个节点相关联。3.如权利要求2所述的计算机可读介质,其特征在于,所述文档分类器比较所述新文档和所述第一和第二兄弟节点的每一个之间的统计距离。4.如权利要求1所述的计算机可读介质,其特征在于,还包括一词生成器,它被构造成接收所述训练文档组,并基于在所述训练文档组中的至少一部分文档中出现的词,生成所述训练词列表。5.如权利要求4所述的计算机可读介质,其特征在于,所述词生成器基于在至少一部分文档中出现的词出现的频率,来生成所述训练词列表。6.如权利要求4所述的计算机可读介质,其特征在于,所述词生成器考虑一预定的排除词列表。7.如权利要求1所述的计算机可读介质,其特征在于,其中所述节点生成器基于将所有训练文档根据所述第一和第二组概率与所述第一和第二节点相关联的似然性最大化,来确定所述第一和第二组概率。8.如权利要求7所述的计算机可读介质,其特征在于,所述节点生成器基于期望值最大化算法来将所述似然性最大化。9.如权利要求1所述的计算机可读介质,其特征在于,所述文档分配器确定所述训练文档组中的每个文档与所述第一节点和所述第二节点的每一个之间的统计距离。10.如权利要求9所述的计算机可读介质,其特征在于,如果一文档与所述第一节点间的所确定的距离低于一预定阈值,则所述文档分配器将所述训练文档组的该文档与所述第一节点相关联。11.如权利要求9所述的计算机可读介质,其特征在于,所述距离值是KL发散量值。12.一种其上储存一二叉树数据结构的计算机可读介质,,所述二叉树数据结构包括(a)根节点,它存储在所述计算机可读介质的至少一个区域中,所述根节点与分配给一训练文档组中找到的个别词的第一概率列表相关联。(b)第一子节点,它存储在所述计算机可读介质的至少一个区域中,并与所述根节点以父-子关系相关联,所述第一子节点与分配给一训练文档组中找到的个别词的第二概率列表相关联。(c)第二子节点,它存储在所述计算机可读介质至少一个区域中,并与所述根节点以父一子关系相关联,所述第二子节点与分配给一训练文档组中找到的个别词的第三概率列表相关联。13.一种其上存储了文档的计算机可读介质,所述文档包括(a)出现在所述文档中的多个词。(b)包括一节点指示器的元数据,所述节点指示器指示一二叉分类树的哪个节点与所述文档相关联,其中,所述二叉分类树的每个节点与一词列表及一词概率列表相关联。14.如权利要求13所述的计算机可读介质,其特征在于,所述元数据包括文本串。15.如权利要求14所述的计算机可读介质,其特征在于,所述文本串包括通过所述二叉分类树到所述相关联的节点的路径的二进制指示。16.一种方法,包含以下步骤(a)基于一训练文档组创建一二叉分类树,从而所述二叉分类树的每个节点与一词列表相关联,且每个词列表中的每个词与给定所述节点时该词在文档中出现的概率相关联。(b)基于一新文档与所述节点间的距离,将所述新文档与所述二叉树的至少一个节点相关联。17.如权利要求16所述的方法,其特征在于,创建所述二叉分类树包含基于期望值最大化算法,确定每个词在文档中出现的概率,所述期望值最大化算法将所述训练文档组中的每个文档由与所述二叉分类树的两个兄弟节点的每一个相关联的词列表生成的似然性最大化。18.如权利要求16所述的方法,其特征在于,所述距离值是基于K1发散量来确定的。19.如权利要求18所述的方法,其特征在于,所述新文档与具有低于一距离阈值...

【专利技术属性】
技术研发人员:CB韦瑞
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1