【技术实现步骤摘要】
(1)
本申请针对分类法的生成,尤其针对文档的自动分类法生成。(2)
技术介绍
为了寻找感兴趣的特定文档,计算机用户可通过一查询引擎进行电子搜索,来搜索文档集合。然而,某些文档集合,诸如因特网上的网页和文档数据库,可能一般基于用户提议的查询词,向用户返回大量文档。为了解决检索到的文档分散的问题,结果或者说到文档的链接可进一步按日期、普及性、与搜索词的类似性来分类或过滤,和/或依照一手动获得的分层分类法来加以归类。此外或可替换地,用户可选择一特定类别来将搜索限制在该类别中的文档。一般而言,分层分类法(或文本归类)是通过手动定义一组规则来生成的,该组规则对关于如何分类一组预定类别中的文档的专家知识进行编码。机器增强分类法的生成通常依靠手动维护一受控词典,并基于所分配的关键词或与文档相关联并在该受控词典中找到的元数据,来分类文档。(3)
技术实现思路
为了向读者提供一个基本的理解,下文提供所揭示内容一个简化的概述。此概述不是所揭示内容的穷举或限制性的综述。并非提供此概述来标识本专利技术的关键和决定性元素、描绘本专利技术的范畴、或以任何方式来限制本专利技术的范畴。其唯一的目的是以简化形式提供所揭示内容的一些概念,作为对稍后提供的更详细描述的介绍。创建和维护手动或机器增强分类法的成本很昂贵,归因于生成和维护类别和受控词典的工时要求。而且,内容的特性或要分类的内容本身可能改变如此频繁,以至于手动自适应一分类法,即使以受控词典来增强,也是不切实际的。要为文本分类手动地生成一种分层分类法或结构,可在没有任何外来知识的情况下分类文档,即,可仅基于从这些文档本身提取的知识将这些文 ...
【技术保护点】
一种具有计算机可执行组件的计算机可读介质,所述计算机可执行组件包括:(a)一节点生成器,它被构造成接收基于一训练文档组的训练词列表,并生成包含第一组概率的第一兄弟节点,及生成包含第二组概率的第二兄弟节点,对于所述训练词列表中的每个词 ,所述第一组概率包含该词在文档中出现的概率,且对于所述训练词列表中的每个词,所述第二组概率包含该词在文档中出现的概率。(b)一文档分配器,它被构造成基于所述第一和第二组概率,将所述训练文档组的每个文档与包含所述第一兄弟节点、所述第二 兄弟节点和一空集的组中的至少一项相关联,与所述第一兄弟节点相关的文档形成第一文档组,且与所述第二兄弟节点相关联的文档形成第二文档组;以及(c)一树管理器,它被构造成将所述第一文档组和所述第二文档组的至少一个传递给所述节点生成器,以基 于所述节点生成器和所述文档分配器的递归执行,创建一包括多个兄弟节点的层次的二叉树数据结构。
【技术特征摘要】
US 2004-6-30 10/881,8931.一种具有计算机可执行组件的计算机可读介质,所述计算机可执行组件包括(a)一节点生成器,它被构造成接收基于一训练文档组的训练词列表,并生成包含第一组概率的第一兄弟节点,及生成包含第二组概率的第二兄弟节点,对于所述训练词列表中的每个词,所述第一组概率包含该词在文档中出现的概率,且对于所述训练词列表中的每个词,所述第二组概率包含该词在文档中出现的概率。(b)一文档分配器,它被构造成基于所述第一和第二组概率,将所述训练文档组的每个文档与包含所述第一兄弟节点、所述第二兄弟节点和一空集的组中的至少一项相关联,与所述第一兄弟节点相关的文档形成第一文档组,且与所述第二兄弟节点相关联的文档形成第二文档组;以及(c)一树管理器,它被构造成将所述第一文档组和所述第二文档组的至少一个传递给所述节点生成器,以基于所述节点生成器和所述文档分配器的递归执行,创建一包括多个兄弟节点的层次的二叉树数据结构。2.如权利要求1所述的计算机可读介质,其特征在于,还包括一文档分类器,它被构造成基于所述概率组中所生成的概率,将一新文档与多个兄弟节点中的至少一个节点相关联。3.如权利要求2所述的计算机可读介质,其特征在于,所述文档分类器比较所述新文档和所述第一和第二兄弟节点的每一个之间的统计距离。4.如权利要求1所述的计算机可读介质,其特征在于,还包括一词生成器,它被构造成接收所述训练文档组,并基于在所述训练文档组中的至少一部分文档中出现的词,生成所述训练词列表。5.如权利要求4所述的计算机可读介质,其特征在于,所述词生成器基于在至少一部分文档中出现的词出现的频率,来生成所述训练词列表。6.如权利要求4所述的计算机可读介质,其特征在于,所述词生成器考虑一预定的排除词列表。7.如权利要求1所述的计算机可读介质,其特征在于,其中所述节点生成器基于将所有训练文档根据所述第一和第二组概率与所述第一和第二节点相关联的似然性最大化,来确定所述第一和第二组概率。8.如权利要求7所述的计算机可读介质,其特征在于,所述节点生成器基于期望值最大化算法来将所述似然性最大化。9.如权利要求1所述的计算机可读介质,其特征在于,所述文档分配器确定所述训练文档组中的每个文档与所述第一节点和所述第二节点的每一个之间的统计距离。10.如权利要求9所述的计算机可读介质,其特征在于,如果一文档与所述第一节点间的所确定的距离低于一预定阈值,则所述文档分配器将所述训练文档组的该文档与所述第一节点相关联。11.如权利要求9所述的计算机可读介质,其特征在于,所述距离值是KL发散量值。12.一种其上储存一二叉树数据结构的计算机可读介质,,所述二叉树数据结构包括(a)根节点,它存储在所述计算机可读介质的至少一个区域中,所述根节点与分配给一训练文档组中找到的个别词的第一概率列表相关联。(b)第一子节点,它存储在所述计算机可读介质的至少一个区域中,并与所述根节点以父-子关系相关联,所述第一子节点与分配给一训练文档组中找到的个别词的第二概率列表相关联。(c)第二子节点,它存储在所述计算机可读介质至少一个区域中,并与所述根节点以父一子关系相关联,所述第二子节点与分配给一训练文档组中找到的个别词的第三概率列表相关联。13.一种其上存储了文档的计算机可读介质,所述文档包括(a)出现在所述文档中的多个词。(b)包括一节点指示器的元数据,所述节点指示器指示一二叉分类树的哪个节点与所述文档相关联,其中,所述二叉分类树的每个节点与一词列表及一词概率列表相关联。14.如权利要求13所述的计算机可读介质,其特征在于,所述元数据包括文本串。15.如权利要求14所述的计算机可读介质,其特征在于,所述文本串包括通过所述二叉分类树到所述相关联的节点的路径的二进制指示。16.一种方法,包含以下步骤(a)基于一训练文档组创建一二叉分类树,从而所述二叉分类树的每个节点与一词列表相关联,且每个词列表中的每个词与给定所述节点时该词在文档中出现的概率相关联。(b)基于一新文档与所述节点间的距离,将所述新文档与所述二叉树的至少一个节点相关联。17.如权利要求16所述的方法,其特征在于,创建所述二叉分类树包含基于期望值最大化算法,确定每个词在文档中出现的概率,所述期望值最大化算法将所述训练文档组中的每个文档由与所述二叉分类树的两个兄弟节点的每一个相关联的词列表生成的似然性最大化。18.如权利要求16所述的方法,其特征在于,所述距离值是基于K1发散量来确定的。19.如权利要求18所述的方法,其特征在于,所述新文档与具有低于一距离阈值...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。