【技术实现步骤摘要】
基于互联网的术语定义辨析方法
本专利技术属于自然语言处理领域,具体地说,是涉及一种基于互联网的术语定义辨析方法。
技术介绍
随着Web2.0的蓬勃发展,数据呈爆炸式增长趋势,一个术语具有多条定义的情况越来越多,术语定义不正规性、不准确性的问题越来越突出,为此对术语定义进行抽取和辨析显得非常紧迫。术语定义辨析是指对术语的多个定义进行比较,从中选取最能描述术语所指称概念的定义的过程,它可以为术语定义抽取提供更准确的结果。目前还没有人将术语定义辨析作为一个独立的研究点提出来专门研究。在术语抽取方法,主要有以下方法:通过人工归纳术语定义的模板,利用术语定义模板获取候选术语定义,再针对候选术语定义使用统计学的方法作进一步划分提高准确率,或者用排序的方法选出得分较高的句子作为给定术语的定义。使用的匹配模板主要分为两类:硬匹配模板和柔性模板,这两类模板主要用于从语料库中获取候选定义,但是术语定义有的含有明确的模板,有的则没有,这种方法获取候选定义会导致召回率偏低。在使用的统计学方法中,包括了大多数已知的分类方法:K-临近法、朴素贝叶斯法、支持向量机方法等。单纯使用统计的方法准确率很低,而综合了机器学习和模板匹配的方法准确率能得到一定提高,但仍然不高。例如,在针对斯拉夫语的实验中,单纯使用机器学习方法而不使用规则模式的时候,准确率最低只有不到9%(正例:反例为1:1),而综合了规则模板和多分类器的方法也仅达到20%的准确率。本专利技术借鉴基于统计和模板匹配的术语定义抽取方法,术语定义辨析不等同于术语定义抽取,术语定义抽取是从大规模语料中抽取解析术语概念的句子,而术语定义辨 ...
【技术保护点】
一种基于互联网的术语定义辨析方法,其特征在于,包括步骤:A待辨析术语定义获取;B基于互联网的参考释义获取;C术语定义的表示;D术语定义相似度计算;E 术语定义模板获取;F术语定义可信度计算和辨析结果选择。
【技术特征摘要】
1.一种基于互联网的术语定义辨析方法,其特征在于,包括步骤:A待辨析术语定义获取;B基于互联网的参考释义获取;C术语定义的表示;D术语定义相似度计算;E术语定义模板获取;F术语定义可信度计算和辨析结果选择;从术语定义相似度矩阵D12中,选取矩阵D12的一行中的最大值Smax1,并将该值所在的行列删除;继续选取余下矩阵的第二行最大值Smax2,并将该值所在的行列删除,以此类推,直至矩阵中元素个数为零;得到新的最大值矩阵:Smax=(Smax1,Smax2,...,Samxn);则术语定义def和ref之间的基于句序的语义相似度为:其中,句序是指在一段文本中,句子出现的先后顺序;术语定义def=(u11,u12,...u1n)和ref=(u21,u22,...u2m)之间相似度的特征矩阵D12由句子间相似度构成,可形式化表示为:其中:u1i(1≤i≤n)为术语定义def中第i个出现的句子,u2j(1≤j≤m)为术语定义ref中第j个出现的句子;u2j×u1i表示句子u2j与句子u1i间的相似度,即u2j×u1i=SenSim(u2j,u1i)。2.根据权利要求1所述的基于互联网的术语定义辨析方法,其特征在于,所述的术语参考释义是指最能反映术语所指称概念的释义。3.根据权利要求1或2所述的基于互联网的术语定义辨析方法,其特征在于,从互联网上获取参考释义:获取术语在百度百科和百度搜索的前N条摘要信息作为构建术语参考释义的文本:若百度百科中有该术语的定义,则取百度百科中的百度名片或百度百科简介作为该术语的参考释义文本;若其在百度百科中没有定义,则选取其在百度搜索引擎中,该术语搜索结果的前N条摘要作为该术语的参考释义文本。4.根据权利要求1所述的基于互联网的术语定义辨析方法,其特征在于,术语定义的特征:术语定义由描述该术语所指称概念的若干个句子按照一定的顺序组成,所述句子指以中文标点符号分割形成的短句,其中每个句子中词与词之间通过一定的关系联系在一起,且每个词都有固定的词性。5.根据权利要求4所述的基于互联网的术语定义辨析方法,其特征在于,根据术语定义的特征对术语定义进行表示:每个术语定义可以表示成:Def=(u1,u2,...,un),n为该定义中所含句子总数,ui表示每条术语定义的第i个句子;术语定义文本中第i个句子ui又可表示成一个五元组ui=(T,S,D,R1,R2),其中:T={term1,term2,...,termh},为表征句子ui意义的特征词集合,h为特征词总数;S={s1,s2,...,sw},表示状态的集合,句子ui中每个词的词性为一个状态,w表示词性的总数;D={d1,d2,...,dr},表示句子ui中依存关系集合,r为句子中依存关系总数;R1={termi→sj|(termi∈T;sj∈S)},表示特征词与词性之间的对应关系集合;表示特征词与特征词之间的依存关系映射集合。6.根据权利要求1或5所述基于互联网的术语定义辨析方法,其特征在于,术语定义相似度由特征词的相似度、特征词间关系的相似度和术...
【专利技术属性】
技术研发人员:吕学强,吴瑞红,
申请(专利权)人:北京信息科技大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。