从大量文档集合中进行术语提取的方法和平台技术

技术编号：2851124 阅读：220 留言：0更新日期：2012-04-11 18:40

说明了一种从大量文档集合中统计地提取术语的方法和平台。根据每一个文档中字的重要值，针对文档集合中每一个文档来确定重要性向量。通过根据每一个文档的重要性向量将文档聚类到相似文档的簇中，形成二叉文档分类树。通过对二叉文档分类树进行归纳，针对文档集合建立基础结构。通过将基础结构的归纳树划分为两部分并切去上部分来确定文档簇。从相似文档的簇中提取统计上意义重大的独立关键字。将关键字作为种子，并通过从种子开始并向其左或右上下文延伸来来提取术语。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及信息提取和文本挖掘。
技术介绍
现有技术的术语提取方法包括基于结构的方法和基于统计的方法。在基于结构的方法中，根据通过有限状态自动剖析(例如Grefenstette，1994)、完全句法剖析(例如Bouigault，1993；Jacquemin，1994；Strzalkowski，1995)或深度语义理论和分析(例如Pustejovsky等，1993)产生的结构，从文档中提取术语。困难在于该方法i)根据句法剖析或语义分析来进行术语提取，这通常是个难题；以及ii)所选择的结构限制了术语。在基于统计的方法中，统计地从文档集合中提取术语(例如Frantzi和Ananiadou，1995；Church和Hanks，1989；Dunning，1993)。通常，术语可以是字或字串。在统计方法中，术语具有两个特征。一个是其在文档中，在统计上意义重大，另一个特征在于，如果具有多于一个成员字，其成员字之间强相关。因此，为了确定术语候选是否是真正术语，必须考虑其在文档中的意义和其成员字之间的关联。对于文档中术语候选的意义，已有方法通常均将给定文档看作是单个混合文档，并且将从该混合文档中提取的术语作为最终结果(例如Chien等，1998；Schutze，1998)。该类型的方法隐含了非常需要给定文档必须足够相似，以便当将文档作为整体时，所有术语看上去在统计上意义重大。但是给定文档可能不会非常相似，更有甚者，在大多数领域都不大容易获取非常相似的文档。如果给定文档非常不相似，已有解决方案不能识别那些仅在一些给定文档中统计上意义重大但在整个文档集合中不具有意义的术语...

【技术保护点】
一种从文档集合中统计地提取术语的方法，包括步骤：根据每一个文档中字的重要值，针对文档集合中每一个文档来确定重要性向量；通过根据每一个文档的重要性向量将文档聚类到相似文档的簇中，形成二叉文档分类树；通过对二叉文档分类树进行归纳，针对文档集合建立基础结构；通过对基础结构的归纳树进行切割来对文档进行聚类；从相似文档的簇中提取统计上意义重大的独立关键字；以及将关键字作为种子来提取术语。

【技术特征摘要】
【国外来华专利技术】US 2003-6-20 10/465,5671.一种从文档集合中统计地提取术语的方法，包括步骤根据每一个文档中字的重要值，针对文档集合中每一个文档来确定重要性向量；通过根据每一个文档的重要性向量将文档聚类到相似文档的簇中，形成二叉文档分类树；通过对二叉文档分类树进行归纳，针对文档集合建立基础结构；通过对基础结构的归纳树进行切割来对文档进行聚类；从相似文档的簇中提取统计上意义重大的独立关键字；以及将关键字作为种子来提取术语。2.根据权利要求1所述的方法，其中相对于参考语料库，根据文档中字的频率和显著性来确定每一个文档中字的重要值。3.根据权利要求1所述的方法，其中通过执行以下步骤来对文档进行聚类选择具有最大相似性的两个文档；将两个文档融合为新文档；针对新文档计算重要性向量；以及再次选择并融合具有最大相似性的两个文档或新文档。4.根据权利要求3所述的方法，其中通过其重要性向量的余弦来确定文档的相似性。5.根据权利要求1所述的方法，其中归纳步骤将相似节点融合到一起。6.根据权利要求1所述的方法，其中归纳步骤包括步骤将文档相似性的值聚类到形成二叉权重分类树的节点；划分二叉权重分类树，以确定形成二叉权重分类树的节点簇；以及在形成二叉权重分类树的节点簇中，融合具有相似性值的二叉文档分类树的节点。7.根据权利要求1所述的方法，其中通过以下步骤来执行划分归纳二叉树的步骤将树划分为具有与归纳二叉树相同根的一部分，以及具有归纳树的相似文档的文档簇的森林的另一部分。8.根据权利要求7所述的方法，其中选择文档簇中具有较高重要性的字作为关键字。9.根据权利要求1所述的方法，其中交互信息用于根据种子来确定术语。10.根据权利要求9所述的方法，其中如果满足要求，则将字串t确定为术语，所述要求包括具有至少一个种子。11.一种从文档集合中统计地提取术语的平台，包括确定装置，用...

【专利技术属性】
技术研发人员：姬东鸿，杨令鹏，聂昱，
申请(专利权)人：新加坡科技研究局，
类型：发明
国别省市：SG[新加坡]

全部详细技术资料下载我是这个专利的主人