基于互联网的术语定义辨析方法技术

技术编号:10781618 阅读:91 留言:0更新日期:2014-12-17 02:37
基于互联网的术语定义辨析方法,涉及自然语言处理领域。本发明专利技术主要解决一个术语多条定义,且定义规范性、准确性欠佳的问题。提出的技术方案要点包括:待辨析术语定义和参考释义获取、术语定义表示和相似度计算、术语定义模板获取、术语定义可信度计算和辨析结果选取。构建的参考释义兼顾术语定义准确性和专业性的特点,应用术语定义的五元组表示方法进行术语定义相似度计算,考虑了术语定义特征词之间的相似度和定义间语义相似度,更好地描绘了术语定义间的相似性;通过归纳术语定义的匹配模板以调整术语定义间相似度,使术语定义可信度更准确。本发明专利技术取得了很好的辨析效果,能够解决术语定义不规范、不准确的问题。

【技术实现步骤摘要】
基于互联网的术语定义辨析方法
本专利技术属于自然语言处理领域,具体地说,是涉及一种基于互联网的术语定义辨析方法。
技术介绍
随着Web2.0的蓬勃发展,数据呈爆炸式增长趋势,一个术语具有多条定义的情况越来越多,术语定义不正规性、不准确性的问题越来越突出,为此对术语定义进行抽取和辨析显得非常紧迫。术语定义辨析是指对术语的多个定义进行比较,从中选取最能描述术语所指称概念的定义的过程,它可以为术语定义抽取提供更准确的结果。目前还没有人将术语定义辨析作为一个独立的研究点提出来专门研究。在术语抽取方法,主要有以下方法:通过人工归纳术语定义的模板,利用术语定义模板获取候选术语定义,再针对候选术语定义使用统计学的方法作进一步划分提高准确率,或者用排序的方法选出得分较高的句子作为给定术语的定义。使用的匹配模板主要分为两类:硬匹配模板和柔性模板,这两类模板主要用于从语料库中获取候选定义,但是术语定义有的含有明确的模板,有的则没有,这种方法获取候选定义会导致召回率偏低。在使用的统计学方法中,包括了大多数已知的分类方法:K-临近法、朴素贝叶斯法、支持向量机方法等。单纯使用统计的方法准确率很低,而综合了机器学习和模板匹配的方法准确率能得到一定提高,但仍然不高。例如,在针对斯拉夫语的实验中,单纯使用机器学习方法而不使用规则模式的时候,准确率最低只有不到9%(正例:反例为1:1),而综合了规则模板和多分类器的方法也仅达到20%的准确率。本专利技术借鉴基于统计和模板匹配的术语定义抽取方法,术语定义辨析不等同于术语定义抽取,术语定义抽取是从大规模语料中抽取解析术语概念的句子,而术语定义辨析则是从术语的多条待辨析定义中选取最好定义,因此术语定义抽取应用模板匹配抽取候选术语定义的方法不能完全适用于术语定义辨析;对抽取的候选定义进行排序的思想可以借鉴到术语定义辨析,即对待辨析术语定义按照一定的策略进行排序。本专利技术借鉴术语定义抽取的思想,结合待辨析术语定义的特点,提出从百度百科和百度搜索构建参考释义想法,总结术语定义模板,设计参考释义和候选定义相似度计算方法,实现术语定义辨析,为术语定义辨析提供了一个有效的途径。
技术实现思路
本专利技术的目的是提供一种基于互联网的术语定义辨析方法,为术语定义辨析提供一种有效的方法,为了达到上述目的,本专利技术的方法包含的步骤如下:步骤A:待辨析术语定义获取对于给定术语,若术语存在多条候选定义,则将该术语的所有候选定义作为待辨析定义。中国知网概念知识元库中存有大量的术语及其定义,这些术语和定义主要来源于学术期刊文献和工具书等,具有一定的权威性和参考意义。但是当查询某个术语定义时,检索出的单个术语定义往往会存在准确率低、断章取义的现象。为此,本专利技术选取中国知网概念知识元库中术语及定义作为辨析的对象。步骤B:基于互联网的参考释义获取参考释义是指最能反映术语所指称概念的释义。互联网是个丰富的资源宝库,它蕴含着大量的信息。而其中以搜索引擎所能获取的知识最为实时、丰富、便捷,以百科知识库所涵盖的知识最为准确、全面,为此采用如下方式获取参考释义:若百度百科中有该术语的定义,则取百度百科中的百度名片或百度百科简介等概述性文本,作为该术语的参考释义文本;若其在百度百科中没有定义,则选取其在百度搜索引擎中,该术语搜索结果的前n条摘要作为该术语的参考释义文本。步骤C:术语定义的表示术语定义由描述该术语所指称概念的若干个句子(本专利技术中的句子指以中文标点符号分割形成的短句),按照一定的顺序组成,其中每个句子中词与词之间通过一定的关系联系在一起,且每个词都有固定的词性。由此,每个术语定义可以表示成:,n为该定义中所含句子总数,表示每条术语定义的第i个句子;术语定义文本中第i个句子又可表示成一个五元组,其中:,为表征句子意义的特征词集合,h为特征词总数;,表示状态的集合,句子中每个词的词性为一个状态,w表示词性的总数;,表示句子中依存关系集合,如定中关系、并列关系、同位关系等,r为句子中依存关系总数;,表示特征词与词性之间的对应关系集合;,表示特征词与特征词之间的依存关系映射集合。将术语参考释义和术语待辨析定义按照本专利技术的表示方法进行表示,以备后续处理。步骤D:术语定义相似度计算由术语定义五元组表示可知,任一术语定义由术语中所有句子的T集合、R1集合和R2集合以及句子出现的顺序唯一确定,因此两术语定义间的相似度可通过整个术语定义中特征词集合的相似程度、特征词之间关系的相似程度和术语定义中句子出现顺序来反应。其中,特征词集合的相似程度,采用基于VSM的相似度计算方法实现;特征词之间关系的相似程度和术语定义中句子出现顺序的相似程度,采用基于句序的语义相似度计算方法实现。那么术语待辨析定义和该术语的参考定义之间的相似度为:其中:;为基于VSM计算得到的相似度,为两术语定义间的基于句序的语义相似度。D1基于VSM的术语定义相似度计算术语的每条定义可视为一个文本,借助TF-IDF思想计算术语定义的特征权重。对每个文本使用中科院计算所的中文语法分词器ICTCLAS进行分词。考虑到学术术语为专有名词,在ICTCLAS的分词字典中可能不存在该术语,所以将所有术语导入用户字典,与原字典共同构成一个更完整的分词字典进行分词。对文本进行停用词过滤,将对文本特征贡献较小的助词、叹词等词过滤掉。再用tf-idf算法计算每个特征词的权重。两术语定义用向量空间模型表示后得到向量,其相似度计算公式为:其中,(i=1,2;k=1,2,…,n)表示第i个术语定义中第k个特征的权重,它的计算公式为:其中,为特征词频率;称为逆文档频率;是该特征词在术语定义中的出现次数;|D|:语料库中的所有定义的总条数;:包含特征词的术语定义数目(即的术语定义数目)。D2基于句序的术语定义语义相似度计算由术语定义的表示可知,术语定义由一个或多个句子组成,计算两术语定义间的语义相似度,采取以句子间相似度计算术语定义间语义相似度的方法。D21句子相似度计算句子相似度由句子的词形相似度和语义相似度表征。句子和的句子相似度计算公式为:其中,,;为句子间的词形相似度大小,为句子间的语义相似度大小。a.词形相似度算法:对术语定义中的第i个句子和术语定义中的第j个句子,定义如下变量:表示句子中特征词的个数;表示句子和含有相同特征词的个数。句子、的词形相似度为:。b.语义相似度算法:语义相似度的计算只考虑两句子间有效搭配对之间的相似程度。其中有效搭配对是句子的R2集合中的句子核心词和直接依存于其且词性为动词、名词、形容词、代词的搭配对。句子、的语义相似度为:其中,为句子含有的有效搭配对数;为句子含有的有效搭配对数;为句子、中有效搭配对匹配的总权重,搭配对匹配的权重定义如下:假设有两个搭配对:a:;b:。若,或,,则搭配对a、b的匹配权重为1;若且,或且,匹配对的权重为0;其余情况匹配对权重为0.5。其中:表示两个特征词相同,表示两个特征词不相同。D22基于句序的相似度计算句序是指在一段文本中,句子出现的先后顺序。每个术语定义文本由多个句子按照一定的句序组织而成,那么两术语定义和之间相似度的特征矩阵为:其中:为术语定义中第i个出现的句子,为术语定义中第j个出现的句子;表示句子与句子间的相似度,即。考虑术语定义都有本文档来自技高网
...
基于互联网的术语定义辨析方法

【技术保护点】
一种基于互联网的术语定义辨析方法,其特征在于,包括步骤:A待辨析术语定义获取;B基于互联网的参考释义获取;C术语定义的表示;D术语定义相似度计算;E 术语定义模板获取;F术语定义可信度计算和辨析结果选择。

【技术特征摘要】
1.一种基于互联网的术语定义辨析方法,其特征在于,包括步骤:A待辨析术语定义获取;B基于互联网的参考释义获取;C术语定义的表示;D术语定义相似度计算;E术语定义模板获取;F术语定义可信度计算和辨析结果选择;从术语定义相似度矩阵D12中,选取矩阵D12的一行中的最大值Smax1,并将该值所在的行列删除;继续选取余下矩阵的第二行最大值Smax2,并将该值所在的行列删除,以此类推,直至矩阵中元素个数为零;得到新的最大值矩阵:Smax=(Smax1,Smax2,...,Samxn);则术语定义def和ref之间的基于句序的语义相似度为:其中,句序是指在一段文本中,句子出现的先后顺序;术语定义def=(u11,u12,...u1n)和ref=(u21,u22,...u2m)之间相似度的特征矩阵D12由句子间相似度构成,可形式化表示为:其中:u1i(1≤i≤n)为术语定义def中第i个出现的句子,u2j(1≤j≤m)为术语定义ref中第j个出现的句子;u2j×u1i表示句子u2j与句子u1i间的相似度,即u2j×u1i=SenSim(u2j,u1i)。2.根据权利要求1所述的基于互联网的术语定义辨析方法,其特征在于,所述的术语参考释义是指最能反映术语所指称概念的释义。3.根据权利要求1或2所述的基于互联网的术语定义辨析方法,其特征在于,从互联网上获取参考释义:获取术语在百度百科和百度搜索的前N条摘要信息作为构建术语参考释义的文本:若百度百科中有该术语的定义,则取百度百科中的百度名片或百度百科简介作为该术语的参考释义文本;若其在百度百科中没有定义,则选取其在百度搜索引擎中,该术语搜索结果的前N条摘要作为该术语的参考释义文本。4.根据权利要求1所述的基于互联网的术语定义辨析方法,其特征在于,术语定义的特征:术语定义由描述该术语所指称概念的若干个句子按照一定的顺序组成,所述句子指以中文标点符号分割形成的短句,其中每个句子中词与词之间通过一定的关系联系在一起,且每个词都有固定的词性。5.根据权利要求4所述的基于互联网的术语定义辨析方法,其特征在于,根据术语定义的特征对术语定义进行表示:每个术语定义可以表示成:Def=(u1,u2,...,un),n为该定义中所含句子总数,ui表示每条术语定义的第i个句子;术语定义文本中第i个句子ui又可表示成一个五元组ui=(T,S,D,R1,R2),其中:T={term1,term2,...,termh},为表征句子ui意义的特征词集合,h为特征词总数;S={s1,s2,...,sw},表示状态的集合,句子ui中每个词的词性为一个状态,w表示词性的总数;D={d1,d2,...,dr},表示句子ui中依存关系集合,r为句子中依存关系总数;R1={termi→sj|(termi∈T;sj∈S)},表示特征词与词性之间的对应关系集合;表示特征词与特征词之间的依存关系映射集合。6.根据权利要求1或5所述基于互联网的术语定义辨析方法,其特征在于,术语定义相似度由特征词的相似度、特征词间关系的相似度和术...

【专利技术属性】
技术研发人员:吕学强吴瑞红
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1