从大量文档集合中进行术语提取的方法和平台技术

技术编号:2851124 阅读:220 留言:0更新日期:2012-04-11 18:40
说明了一种从大量文档集合中统计地提取术语的方法和平台。根据每一个文档中字的重要值,针对文档集合中每一个文档来确定重要性向量。通过根据每一个文档的重要性向量将文档聚类到相似文档的簇中,形成二叉文档分类树。通过对二叉文档分类树进行归纳,针对文档集合建立基础结构。通过将基础结构的归纳树划分为两部分并切去上部分来确定文档簇。从相似文档的簇中提取统计上意义重大的独立关键字。将关键字作为种子,并通过从种子开始并向其左或右上下文延伸来来提取术语。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及信息提取和文本挖掘。
技术介绍
现有技术的术语提取方法包括基于结构的方法和基于统计的方法。在基于结构的方法中,根据通过有限状态自动剖析(例如Grefenstette,1994)、完全句法剖析(例如Bouigault,1993;Jacquemin,1994;Strzalkowski,1995)或深度语义理论和分析(例如Pustejovsky等,1993)产生的结构,从文档中提取术语。困难在于该方法i)根据句法剖析或语义分析来进行术语提取,这通常是个难题;以及ii)所选择的结构限制了术语。在基于统计的方法中,统计地从文档集合中提取术语(例如Frantzi和Ananiadou,1995;Church和Hanks,1989;Dunning,1993)。通常,术语可以是字或字串。在统计方法中,术语具有两个特征。一个是其在文档中,在统计上意义重大,另一个特征在于,如果具有多于一个成员字,其成员字之间强相关。因此,为了确定术语候选是否是真正术语,必须考虑其在文档中的意义和其成员字之间的关联。对于文档中术语候选的意义,已有方法通常均将给定文档看作是单个混合文档,并且将从该混合文档中提取的术语作为最终结果(例如Chien等,1998;Schutze,1998)。该类型的方法隐含了非常需要给定文档必须足够相似,以便当将文档作为整体时,所有术语看上去在统计上意义重大。但是给定文档可能不会非常相似,更有甚者,在大多数领域都不大容易获取非常相似的文档。如果给定文档非常不相似,已有解决方案不能识别那些仅在一些给定文档中统计上意义重大但在整个文档集合中不具有意义的术语。该问题更深的原因在于已有技术不能考虑到给定文档的基础结构。如果现有技术方法能够指定基础结构并从基础结构中识别文档簇(其中文档簇是成员在某种程度上相似的文档的子集),则即使文档不是非常相似,也不会错过隐藏在文档簇中的术语。因此,现有统计解决方案需要文档非常相似才有效;如果给定文档不是非常相似,通过统计解决方案不能访问某些术语。希望一种其中不需要给定文档非常相似的方法。还希望在提取术语的同时,得到一种给定文档的等级分类。此外,还希望能够访问给定文档集合中隐藏在文档簇中的术语。
技术实现思路
至于考虑到本申请的领域,本专利技术的解决方案不仅适于非常相似的文档,还适于不是非常相似的文档。在方法上,解决方案针对给定文档建立了一种基础结构,根据基础结构来确定文档簇,并基于文档簇来进行术语提取。为了建立该基础结构,解决方案将术语提取与等级文档聚类相集成,以便产生用于文档的二叉分类树,并对于该二叉树引入一种归纳过程,以便得到归纳树。为了得到文档簇,解决方案包括切割过程以便切断归纳树。功能上,该解决方案能够访问给定文档集合中隐藏在文档簇中的术语。本专利技术的方法首先针对给定文档建立一种基础结构(一种等级结构),以便识别文档簇,每一个文档簇包括相似的文档;然后,从这些簇中统计地提取意义重大的独立字;以及最后,将这些字作为“种子”,以利用交互信息来定位术语。为了指定基础结构,该方法首先使用传统的等级聚类算法来建立用于文档的二叉树,然后引入归纳过程,以便从二叉树得到基础结构。为了识别文档簇,该方法引入一种切割过程,以便将基础结构切为两部分,一部分是子树,另一部分是其根节点代表文档簇的森林。概括地,本专利技术包括一种用于从大量文档集合中统计地提取术语的方法和平台。根据每一个文档中字的重要值,针对文档集合中每一个文档来确定重要性向量。通过根据文档的重要性向量对文档进行聚类,形成二叉文档分类树。通过对二叉文档分类树进行归纳,针对文档集合建立基础结构。通过将归纳的基础结构划分为两部分并切割上部分来确定文档簇。从相似文档的簇中提取统计上意义重大的独立关键字。然后,将关键字作为种子来提取术语。附图说明通过下图说明了本专利技术的工作过程,其中图1示出了本专利技术中从大量文档集合中进行术语提取的方法的流程图。图2示出了针对文档的集合形成的二叉等级分类(二叉树)。图3示出了用于图1中方法的二叉权重分类树。图4示出了切割图3中的二叉权重分类树以便确定权重簇。图5示出了节点的聚类,以归纳图2的树。图6示出了结合相似文档的节点之后所归纳的树。图7示出了切割所归纳的树形成两部分,其中上部分仍然是具有节点的树,通常具有较低权重,下部分通常具有较高权重。具体实施例方式图1示出了从本专利技术的大量文档集合中进行术语提取的方法流程图。在以下方程中,将文档集合表示为“D”,将参考语料库表示为“R”。这里,“参考语料库”是一种用作基准的大型稳定语料库,以便确定文档中的字是否在统计上是重要的。在步骤10,对于文档集合建立基础结构,以便识别簇。通过首先在步骤12建立针对文档集合中文档的重要性向量来执行该步骤10。首先,对于每一个独立文档和独立文档中的每一个字,相对于参考语料库确定文档中字的显著性和重要性。形式上,对于任意文档d∈D,任意字w∈d,d中w相对于R的显著性(表示为Sal(w,d,R))是 Sal(w,d,R)=log(P(w,d)/P(w,R)) (1)其中P(w,d)是w出现在d中的概率,P(w,R)是w出现在R中的概率。d中w相对于R的重要性(表示为IMP(w,d,R))是IMP(w,d,R)=P(w,d)·Sal(w,d,R)(2)直观地,当且仅当字相对于参考频繁出现在一个文档中并且在文档中较为显著时,则相对于参考语料库,该字在该文档中是重要的。然后,根据文档中每一个字的重要值来形成针对该文档的重要性向量。形式上,假设W是出现在D中任意文档中的所有字的集合,设W={w1,w2,…,wn},对于任意文档d∈D,其重要性向量(表示为IMP(d))是<IMP(w1,d,R),IMP(w2,d,R),…,IMP(wn,d,R)> (3)当建立了重要性向量之后,执行步骤14,以便针对文档建立二叉分类树。利用传统的等级聚类算法,根据在步骤12中确定的其重要性向量来对文档进行聚类,以便得到图2所示的文档的二叉等级分类(二叉树)。二叉树是一种在每一个岔口具有两个分支的树,并且在每一个分支的末端具有一个或两个叶子。示出的二叉树200具有根节点202,根节点202具有分别向左和右子树208和210延伸的边204、206。该子树还公知为根节点的孩子。在树200的底部是树叶212。在图2中,每一个树叶212可以表示来自文档集合“D”的文档“d”之一。形成二叉树的步骤包括在所有文档中选择具有最高相似性的两个文档;将其融合为代替前两个文档的新文档(例如,节点214可以表示融合的文档);基于这前两个文档,针对新文档计算重要性向量;以及重复该过程,直到只存在一个作为文档集合(D)的结合的文档(由根节点202表示)。形式上,假设d1和d2是D中的两个文档,如方程(4),将其相似性sim(d1,d2)定义为其重要性向量的余弦。当融合两个文档d1和d2时,可以将得到的新文档称作“d”。还可以将d1和d2的相似性称作文档d的权重,表示为weight(d)。sim(d1,d2)=cos(IMP(d1),IMP(d2)) (4) 接下来,为了建立步骤10的基础结构,执行步骤16,其中执行二叉树200的归纳。执行步骤18本文档来自技高网
...

【技术保护点】
一种从文档集合中统计地提取术语的方法,包括步骤:根据每一个文档中字的重要值,针对文档集合中每一个文档来确定重要性向量;通过根据每一个文档的重要性向量将文档聚类到相似文档的簇中,形成二叉文档分类树;通过对二叉文档分类树 进行归纳,针对文档集合建立基础结构;通过对基础结构的归纳树进行切割来对文档进行聚类;从相似文档的簇中提取统计上意义重大的独立关键字;以及将关键字作为种子来提取术语。

【技术特征摘要】
【国外来华专利技术】US 2003-6-20 10/465,5671.一种从文档集合中统计地提取术语的方法,包括步骤根据每一个文档中字的重要值,针对文档集合中每一个文档来确定重要性向量;通过根据每一个文档的重要性向量将文档聚类到相似文档的簇中,形成二叉文档分类树;通过对二叉文档分类树进行归纳,针对文档集合建立基础结构;通过对基础结构的归纳树进行切割来对文档进行聚类;从相似文档的簇中提取统计上意义重大的独立关键字;以及将关键字作为种子来提取术语。2.根据权利要求1所述的方法,其中相对于参考语料库,根据文档中字的频率和显著性来确定每一个文档中字的重要值。3.根据权利要求1所述的方法,其中通过执行以下步骤来对文档进行聚类选择具有最大相似性的两个文档;将两个文档融合为新文档;针对新文档计算重要性向量;以及再次选择并融合具有最大相似性的两个文档或新文档。4.根据权利要求3所述的方法,其中通过其重要性向量的余弦来确定文档的相似性。5.根据权利要求1所述的方法,其中归纳步骤将相似节点融合到一起。6.根据权利要求1所述的方法,其中归纳步骤包括步骤将文档相似性的值聚类到形成二叉权重分类树的节点;划分二叉权重分类树,以确定形成二叉权重分类树的节点簇;以及在形成二叉权重分类树的节点簇中,融合具有相似性值的二叉文档分类树的节点。7.根据权利要求1所述的方法,其中通过以下步骤来执行划分归纳二叉树的步骤将树划分为具有与归纳二叉树相同根的一部分,以及具有归纳树的相似文档的文档簇的森林的另一部分。8.根据权利要求7所述的方法,其中选择文档簇中具有较高重要性的字作为关键字。9.根据权利要求1所述的方法,其中交互信息用于根据种子来确定术语。10.根据权利要求9所述的方法,其中如果满足要求,则将字串t确定为术语,所述要求包括具有至少一个种子。11.一种从文档集合中统计地提取术语的平台,包括确定装置,用...

【专利技术属性】
技术研发人员:姬东鸿杨令鹏聂昱
申请(专利权)人:新加坡科技研究局
类型:发明
国别省市:SG[新加坡]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1