利用二次互信息的中文文本术语抽取方法技术

技术编号:14708414 阅读:117 留言:0更新日期:2017-02-26 00:40
本发明专利技术涉及一种利用二次互信息的中文文本术语抽取方法,属于计算机科学与自然语言处理技术。本发明专利技术首先基于核心词前后扩展,结合二次互信息、词频、词长和词性特征,将核心词扩展成多个候选术语,然后根据术语间的嵌套关系、词长、词频特征去除候选集中的冗余术语并对术语进行打分排序。本发明专利技术综合考虑了术语的语言规则和统计特征,提高了术语抽取的准确性。

【技术实现步骤摘要】

本专利技术涉及一种利用二次互信息的中文文本术语抽取方法,属于计算机科学与自然语言处理

技术介绍
术语抽取是把文本中能够描述文本主题,并且具有完整性和领域代表性的短语抽取出来的过程。术语抽取是自然语言处理
中一项重要的基础性研究任务,在自动摘要、信息检索、文本分类和聚类等诸多领域中都有重要的应用。术语是在特定领域用来表示概念的称谓的集合,又称为专业名词或科技名词。术语的特性通常被归纳为两个可度量的特征:1)单元度(Unithood),衡量术语是否可以表达一个独立、完整的含义,并具有稳定的结构;2)术语度(Termhood),衡量术语与特定领域是否紧密相关或与特定领域的相关程度。从文本中提取术语,能帮助读者迅速掌握文本的概要内容,例如,在进行图书标引时,通过从图书章节中提取术语对图书的主题内容进行快速标记。术语抽取方法可分为三类:①基于规则的方法;②基于统计的方法;③基于机器学习的方法。1.基于规则的方法基于规则的方法根据已有术语集合或者领域特点,使用术语的词语词性以及句法特征等语言知识,总结术语构成规则,根据规则抽取术语。这类方法在准确率上有一定优势,但是这类方法的可移植性差,对于不同领域、不同语料集、不同语种,语言规则各不相同,难以用少量的规则覆盖多变的术语构成规律,同时,构建术语匹配模板也是一个费时费力的过程,总结规则不但需要具有较强的领域知识背景,也可能需要解决多个规则之间的冲突问题。2.基于统计的方法基于统计的方法利用术语在语料库中的分布统计属性来识别术语,经常使用到的统计特征可以分为两大类:一类衡量术语的单元度,如互信息(MutualInformation)、信息熵、假设检验等;另一类衡量术语的术语度,如词频(TF)、TF-IDF值等。这类方法通常会用多种统计特征结合的方式来对术语进行抽取,因为单个统计特征无法完整地表征术语的属性。例如,1)互信息可以度量术语中词语之间的相关性,从而可以用来判断术语的单元度,即判断术语是否可以表达一个独立、完整的含义,且具有稳定的结构。互信息的计算公式为:其中,A和B分别表示两个词语,p表示概率,p(AB)表示词组AB出现的概率,通常公式中的词的概率可以用词频来代替。互信息无法识别低频的术语,或者内部词语的词频相差很大的术语。2)词频是在术语抽取研究中通常认为是术语在文本出现的次数。在领域语料中,术语的词频一般会高于普通短语的词频,但也有许多普通短语在语料中具有较高的词频,因此,仅考虑词频属性,会导致抽取的术语中包含许多普通短语,且无法抽取本身词频较低的术语。基于统计的方法具有良好的领域适应能力,当语料充分,术语的统计特征明显时,会得到好的结果,然而当术语的统计特征不明显,如低频词,则抽取效果不理想,会存在许多噪声,同时如果使用过多的统计特征,也会面临统计特征之间的冲突问题。3.基于机器学习的方法基于机器学习的方法主要是将术语抽取视为分类问题,通过利用标注好术语的文本训练学习一个术语识别模型,然后将模型应用到新文本中。这类方法用到的学习模型有条件随机场(CRF)、支持向量机(SVM)、隐马尔科夫模型(HMM)等。这类方法需要足够的标注语料,即训练语料,但构建训练语料不仅要求标注人员具有领域背景知识,而且也通常需要花费较长的时间来完成标注工作,且基于某领域语料训练出来的模型可移植性差。由于以上所述三类方法均存在缺陷,因此单一考虑语言特征或统计特征通常不能带来很好的效果,目前有部分方法考虑将多种特征混合,然而由于语言特征以及统计特征之间融合时,经常会有冲突,因此如何减少选择合适的多种特征结合方式,是目前术语抽取任务急需解决的问题。
技术实现思路
本专利技术提出一种利用二次互信息的中文文本术语抽取方法,解决了术语抽取任务中利用单一特征术语抽取准确率低的问题,通过融合二次互信息、词频、词长三个统计特征和词性特征,以及根据术语间的嵌套关系去除冗余术语,提高了术语抽取的准确率。本专利技术的技术方案包括如下内容:首先利用分词系统对文本进行分词和词性标注,并将噪声字符替换成截断符号;然后将名词词性的词提取出来,作为核心词集;定位每个核心词根据二次互信息和词性特征进行扩展,以设定好的阈值和截断符号为扩展终止条件,将核心词扩展得到的术语集合设为候选术语集;最后,查找出候选术语集合中有嵌套关系的候选子集,根据词频特征对候选术语打分,排序选择前m个术语作为最终的术语。本专利技术的技术方案是通过如下步骤实现的:步骤1,对中文文本进行预处理;步骤1.1,利用分词系统对文本进行分词和词性标注;步骤1.2,将文本中除连字符“-”和汉字以外的其它字符,以及词性为助词、时间词、语气词、拟声词、连词、代词、处所词、方位词中的任意一个的词替换成截断符号,方便后续步骤,截断符号按程序需求设定,可设为某个特殊字符,如“^”,“&”,“*”等;步骤1.3,构建停用词表,根据分词结果,将文本中的停用词替换成截断符号,去除停用词,可节省存储空间和提高效率。步骤2,构建核心词集,根据词性标注结果,将具有名词词性且词频大于1的词作为核心词,存入核心词集中。步骤3,从核心词集中的第一个核心词开始,依次对核心词进行扩展生成候选术语;步骤3.1,从文本开头位置,定位核心词向前进行扩展;具体扩展方法为:找到核心词在文本中出现的第一个位置,计算核心词的前一个词与核心词的二次互信息和由两个词构成的词组的频次的乘积,其中二次互信息的计算公式为:二次互信息和词组频的乘积计算公式为:其中,TMI表示二次互信息值,PF表示词组频,f(AB)表示词组AB的词组频,即词组AB在文本中出现的次数,f(A)表示前一个词的词频,f(B)表示后一个词的词频;判断是否达到终止条件,如果达到了终止条件则继续步骤3.2,否则核心词扩展成为由前一个词与核心词的词组,继续向前遍历,计算新加入的词与其前面的词的二次互信息和由这两个词构成的词组的频次的乘积,再判断是否达到终止条件,依此类推;其中,终止条件为:①最大词组词数达到5,即候选术语中的词语个数限制为5个;②遇到截断符号或者前面没有其他词;③前面的词的词性不是名词、形容词、区别词中任何的一种;④二次互信息和词组频的乘积小于阈值,其中阈值(Threshold)的计算公式为:Threshold=Min(3,V/(Vtotal/C)+L)(4)其中V表示文本中的有效词的个数,即文本经过步骤1所描述的预处理后,剩下的词语的总数,L表示当前扩展形成的词组的词语个数,公式表示在3和V/500+L的计算结果中取较小的值;当向前遍历遇到连字符时,进行特殊处理,当连字符和后面的一个词在文中出现的次数大于1时,继续遍历前一个词,当该词与连字符在文中出现的次数也大于1时,则将核心词扩展到该词为止,并将终止条件①中最大词组词数设为8,否则停止向前扩展,继续步骤3.2;步骤3.2,在向前扩展的基础上,继续向后扩展;向后遍历一个词,当满足扩展条件时则在向前扩展的结果的基础上,继续向后扩展一个词,否则向前扩展的结果即为最终核心词扩展的结果,至此该核心词扩展结束;其中,扩展条件为:①没有遇到截断符号;②没有到文本末尾;③遍历得到的结果不是连字符;④遍历得到的词的词性为后接成分或者核心词与这个词的二次互信息乘本文档来自技高网
...

【技术保护点】
一种利用二次互信息的中文文本术语抽取方法,所述方法具体包括以下步骤:步骤1,对中文文本进行预处理;步骤1.1,对文本进行分词和词性标注;步骤1.2,将文本中的噪声字符替换成截断符号;步骤2,构建核心词集,根据词性标注结果,将具有名词词性且词频大于1的词作为核心词,存入核心词集中;步骤3,从核心词集中的第一个核心词开始,依次对核心词进行扩展生成候选术语;步骤3.1,从文本开始遍历,定位核心词向前扩展,特殊处理遇到连字符的情况;步骤3.2,在向前扩展的基础上,继续向后扩展;步骤3.3,计算由该核心词扩展生产的候选术语的字数是否大于2,如果满足条件,并且该候选术语不在已有的候选集合中,则将其加入候选集合,否则继续下一个步骤;步骤3.4,查找核心词出现的下一个位置,重复步骤3.1至3.3中的前后扩展过程,生成新的候选术语;步骤3.5,当文本内容遍历完成时,则继续扩展核心词集中的下一个核心词,重复步骤3.1至3.4,直到核心词集中的核心词都扩展完成为止;步骤4,对候选集中术语进行打分排序,选取前m个作为最终术语;步骤4.1,将候选术语在文本中出现的次数设为候选术语的初始分值;步骤4.2,将候选术语集合中冗余的候选术语打分为‑1;步骤4.3,结合术语中词语个数特征,重新计算候选术语分值;步骤4.4,去除分值小于零的候选术语,将剩余的候选术语按分值高低排序,选择前m个术语作为最终术语,其中,m取值范围为1‑10。...

【技术特征摘要】
1.一种利用二次互信息的中文文本术语抽取方法,所述方法具体包括以下步骤:步骤1,对中文文本进行预处理;步骤1.1,对文本进行分词和词性标注;步骤1.2,将文本中的噪声字符替换成截断符号;步骤2,构建核心词集,根据词性标注结果,将具有名词词性且词频大于1的词作为核心词,存入核心词集中;步骤3,从核心词集中的第一个核心词开始,依次对核心词进行扩展生成候选术语;步骤3.1,从文本开始遍历,定位核心词向前扩展,特殊处理遇到连字符的情况;步骤3.2,在向前扩展的基础上,继续向后扩展;步骤3.3,计算由该核心词扩展生产的候选术语的字数是否大于2,如果满足条件,并且该候选术语不在已有的候选集合中,则将其加入候选集合,否则继续下一个步骤;步骤3.4,查找核心词出现的下一个位置,重复步骤3.1至3.3中的前后扩展过程,生成新的候选术语;步骤3.5,当文本内容遍历完成时,则继续扩展核心词集中的下一个核心词,重复步骤3.1至3.4,直到核心词集中的核心词都扩展完成为止;步骤4,对候选集中术语进行打分排序,选取前m个作为最终术语;步骤4.1,将候选术语在文本中出现的次数设为候选术语的初始分值;步骤4.2,将候选术语集合中冗余的候选术语打分为-1;步骤4.3,结合术语中词语个数特征,重新计算候选术语分值;步骤4.4,去除分值小于零的候选术语,将剩余的候选术语按分值高低排序,选择前m个术语作为最终术语,其中,m取值范围为1-10。2.根据权利要求1所述的方法,其特征在于,步骤1.2中所述的噪声字符具体包括:1)除连字符和汉字以外的其它字符;2)词性为助词、时间词、语气词、拟声词、连词、代词、处所词、方位词中的任意一个的词;3)停用词。3.根据权利要求1所述的方法,其特征在于,步骤3.1所述的向前扩展的方法具体步骤为:首先,定位核心词在文本中出现的位置,计算核心词的前一个词与核心词的二次互信息和由两个词构成的词组的频次的乘积,其中二次互信息的计算公式为:二次互信息和词组频的乘积计算公式为:其中,TMI表示二次互信息值,PF表示词组频,f(AB)表示词组AB的词组频,即词组AB在文本中出现的次数,f(A)表示前一个词的词频,f(B)表示后一个词的词频;然后,判断是否达到终止条件,如果达到了终止条件则继续下一个步骤,否则核心词扩展成为由前一个词与核心词的词组,继续向前遍历,计算新加入的词与其前面的词的二次互信息和由这两个词构...

【专利技术属性】
技术研发人员:罗森林陈倩柔潘丽敏吴舟婷
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1