利用二次互信息的中文文本术语抽取方法技术

技术编号：14708414 阅读：117 留言：0更新日期：2017-02-26 00:40

本发明专利技术涉及一种利用二次互信息的中文文本术语抽取方法，属于计算机科学与自然语言处理技术。本发明专利技术首先基于核心词前后扩展，结合二次互信息、词频、词长和词性特征，将核心词扩展成多个候选术语，然后根据术语间的嵌套关系、词长、词频特征去除候选集中的冗余术语并对术语进行打分排序。本发明专利技术综合考虑了术语的语言规则和统计特征，提高了术语抽取的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种利用二次互信息的中文文本术语抽取方法，属于计算机科学与自然语言处理

技术介绍
术语抽取是把文本中能够描述文本主题，并且具有完整性和领域代表性的短语抽取出来的过程。术语抽取是自然语言处理
中一项重要的基础性研究任务，在自动摘要、信息检索、文本分类和聚类等诸多领域中都有重要的应用。术语是在特定领域用来表示概念的称谓的集合，又称为专业名词或科技名词。术语的特性通常被归纳为两个可度量的特征：1)单元度(Unithood)，衡量术语是否可以表达一个独立、完整的含义，并具有稳定的结构；2)术语度(Termhood)，衡量术语与特定领域是否紧密相关或与特定领域的相关程度。从文本中提取术语，能帮助读者迅速掌握文本的概要内容，例如，在进行图书标引时，通过从图书章节中提取术语对图书的主题内容进行快速标记。术语抽取方法可分为三类：①基于规则的方法；②基于统计的方法；③基于机器学习的方法。1.基于规则的方法基于规则的方法根据已有术语集合或者领域特点，使用术语的词语词性以及句法特征等语言知识，总结术语构成规则，根据规则抽取术语。这类方法在准确率上有一定优势，但是这类方法的可移植性差，对于不同领域、不同语料集、不同语种，语言规则各不相同，难以用少量的规则覆盖多变的术语构成规律，同时，构建术语匹配模板也是一个费时费力的过程，总结规则不但需要具有较强的领域知识背景，也可能需要解决多个规则之间的冲突问题。2.基于统计的方法基于统计的方法利用术语在语料库中的分布统计属性来识别术语，经常使用到的统计特征可以分为两大类：一类衡量术语的单元度，如互信息(Mutu...

【技术保护点】
一种利用二次互信息的中文文本术语抽取方法，所述方法具体包括以下步骤：步骤1，对中文文本进行预处理；步骤1.1，对文本进行分词和词性标注；步骤1.2，将文本中的噪声字符替换成截断符号；步骤2，构建核心词集，根据词性标注结果，将具有名词词性且词频大于1的词作为核心词，存入核心词集中；步骤3，从核心词集中的第一个核心词开始，依次对核心词进行扩展生成候选术语；步骤3.1，从文本开始遍历，定位核心词向前扩展，特殊处理遇到连字符的情况；步骤3.2，在向前扩展的基础上，继续向后扩展；步骤3.3，计算由该核心词扩展生产的候选术语的字数是否大于2，如果满足条件，并且该候选术语不在已有的候选集合中，则将其加入候选集合，否则继续下一个步骤；步骤3.4，查找核心词出现的下一个位置，重复步骤3.1至3.3中的前后扩展过程，生成新的候选术语；步骤3.5，当文本内容遍历完成时，则继续扩展核心词集中的下一个核心词，重复步骤3.1至3.4，直到核心词集中的核心词都扩展完成为止；步骤4，对候选集中术语进行打分排序，选取前m个作为最终术语；步骤4.1，将候选术语在文本中出现的次数设为候选术语的初始分值；步骤4.2，将候选术...

【技术特征摘要】
1.一种利用二次互信息的中文文本术语抽取方法，所述方法具体包括以下步骤：步骤1，对中文文本进行预处理；步骤1.1，对文本进行分词和词性标注；步骤1.2，将文本中的噪声字符替换成截断符号；步骤2，构建核心词集，根据词性标注结果，将具有名词词性且词频大于1的词作为核心词，存入核心词集中；步骤3，从核心词集中的第一个核心词开始，依次对核心词进行扩展生成候选术语；步骤3.1，从文本开始遍历，定位核心词向前扩展，特殊处理遇到连字符的情况；步骤3.2，在向前扩展的基础上，继续向后扩展；步骤3.3，计算由该核心词扩展生产的候选术语的字数是否大于2，如果满足条件，并且该候选术语不在已有的候选集合中，则将其加入候选集合，否则继续下一个步骤；步骤3.4，查找核心词出现的下一个位置，重复步骤3.1至3.3中的前后扩展过程，生成新的候选术语；步骤3.5，当文本内容遍历完成时，则继续扩展核心词集中的下一个核心词，重复步骤3.1至3.4，直到核心词集中的核心词都扩展完成为止；步骤4，对候选集中术语进行打分排序，选取前m个作为最终术语；步骤4.1，将候选术语在文本中出现的次数设为候选术语的初始分值；步骤4.2，将候选术语集合中冗余的候选术语打分为-1；步骤4.3，结合术语中词语个数特征，重新计算候选术语分值；步骤4.4，去除分值小于零的候选术语，将剩余的候选术语按分值高低排序，选择前m个术语作为最终术语，其中，m取值范围为1-10。2.根据权利要求1所述的方法，其特征在于，步骤1.2中所述的噪声字符具体包括：1)除连字符和汉字以外的其它字符；2)词性为助词、时间词、语气词、拟声词、连词、代词、处所词、方位词中的任意一个的词；3)停用词。3.根据权利要求1所述的方法，其特征在于，步骤3.1所述的向前扩展的方法具体步骤为：首先，定位核心词在文本中出现的位置，计算核心词的前一个词与核心词的二次互信息和由两个词构成的词组的频次的乘积，其中二次互信息的计算公式为：二次互信息和词组频的乘积计算公式为：其中，TMI表示二次互信息值，PF表示词组频，f(AB)表示词组AB的词组频，即词组AB在文本中出现的次数，f(A)表示前一个词的词频，f(B)表示后一个词的词频；然后，判断是否达到终止条件，如果达到了终止条件则继续下一个步骤，否则核心词扩展成为由前一个词与核心词的词组，继续向前遍历，计算新加入的词与其前面的词的二次互信息和由这两个词构...

【专利技术属性】
技术研发人员：罗森林，陈倩柔，潘丽敏，吴舟婷，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人