一种词汇语义相关度的计算方法技术

技术编号:12249334 阅读:49 留言:0更新日期:2015-10-28 14:12
本发明专利技术公开了一种词汇语义相关度的计算方法,根据《知网》中词语的语义信息以及知网对词语语义的表示特点,提取出知网中的语义关系,构建出了基于知网的语义关系图;并进行语义关系图的扩展;最后基于语义关系图进行词语相关度计算。本发明专利技术的有益效果是在语义关系图的基础上,将图论知识与语义关系图中的信息相结合,提出了一种基于语义关系图的词汇语义相关度计算方法,并通过实验验证了该方法是有效可行的。

【技术实现步骤摘要】

本专利技术属于语言
,涉及。
技术介绍
词汇的语义计算是中文信息处理领域的重要问题之一,目前的研究主要针对词汇 语义的相似度计算方面,对词汇语义的相关度计算方法研究不够。为此,本文以《知网》中 概念之间以及概念的属性之间的语义关系和大规模语料中统计出的词语依存关系为基础, 构建了一张语义关系图。然后,将此语义关系图与图理论的相关知识相结合,提出了一个基 于语义关系图的词汇语义相关度计算方法。实验结果表明,该方法在语义相关度计算方面 效果较好,得到的语义相关度结果较为合理。目前,对于语义相关度的评价方法主要分为两种:基于统计的方法和基于语义词 典的方法。基于统计的方法是建立在"两个词语经常同时出现,则这两个词语往往相关"这 一假设的基础之上,这种方法主要利用文档集中词语间共现性的统计数据来确定词语间的 相关度,但是这种方法只是利用文档中包含的内容信息,而忽略了词语之间的具体关系以 及关联的语义依据,并且当统计样本不足时,其计算结果就会出现较大误差。而基于语义词 典的方法是依据已有的词典,如WordNet、HowNet等知识体系来计算词语在语义上的相关 程度,对词汇语义的相关度计算方法研究不够。
技术实现思路
本专利技术的目的在于提供,解决了目前的研究主要 针对词汇语义的相似度计算方面,对词汇语义的相关度计算方法研究不够的问题。 本专利技术所采用的技术方案是: 步骤1:语义关系图的构建: 1)根据《知网》中词语的语义信息以及知网对词语语义的表示特点,提取出知网中 的语义关系,构建出了基于知网的语义关系图;语义关系图由表示语义的节点和表示语义 节点间关系的边组成,整个语义关系图以边为单位采用三元组的方式存储,每一个语义关 系三元组作为一个存储记录; 2)《知网》中的语义关系提取:设{sl:rl= {s2:r2 = {s3}}},每一对括号所包括的部分都是一个概念,其中sl, s2,s3是义原;rl,r2是关系词,rl是表示si和{s2:r2 = {s3}}之间关系的关系词,r2是 表示s2和{s3}之间关系的关系词; (1)如果关系词后面所连接的概念只是一个义原,则直接提取语义关系; (2)如果关系词后面所连接的概念不只是一个义原,而是多个义原,这时需要考察 关系词后面所连接的概念是否可以用某个义项表示,若可以用特定义项表示,则提取语义 关系,否则,不提取该关系词的语义关系; (3)如果关系词所在的整个概念可用某个义项表示时,则将关系词前面的义原替 换为该义项并提取语义关系; (4)对于每个义项都提取该义项与其第一基本义原的语义关系; (5)反义、对义、同义关系的提取,这三种关系可从《知网》的Antonymset、 ConverseSet、SynsetSet、TaxonomyAntonym、TaxonomyConverse文件中直接提取; 3)将中文词相同且概念描述也相同的但编号不同的概念进行合并,并重新为其编 号,然后再提取语义关系构建语义关系图,提取出《知网》中存在的语义关系后,这些关系互 相关联后则形成了一张网,称之为基于《知网》构建的语义关系图; 步骤2:语义关系图的扩展;采用哈尔滨工业大学所作的依存句法分析器,对来自 于人民日报的语料进行句法分析,从中提取出具有依存关系的词语搭配对,每一个词语搭 配对与它们的依存关系则构成了一个语义关系三元组,将这些语义关系三元组加入到基于 《知网》构建的语义关系图中;步骤3:词语相关度计算;在给定两个词语后,通过遍历语义关系图,得到这两个 词语的语义连通路径数N和每条连通路径的长度Li,在计算中不考虑连通路径中长度大于 等于6的路径,并且为连通路径长为1~5的路径分别赋予系数0k(1 <k< 5 < 5),得到 每条路径的带权长度为PkLi,其中,kG,iG; 当两个词语在语义关系图中存在长度小于6的语义连通路径时,它们的相关度 为: 基于语义关系图的词语相关度计算的算法描述如下:Stepl.计算两个实体结点A和B在语义关系图中的连通路径数N,和每条连通路 径的长度Li,若N>0,则转到Step2 ;否则,转到Step3 ;St印2?利用公式(3)计算A与B的相关度Rel(A,B),转St印8;Step3?查找结点A在连通路径长为5以内的连通路径上的所有结点,这些结点组 合为集合U;Step4.计算结点B与集合U中每个元素结点的相似度,并标记相似度最大的结点 C及其相似度的值Sim,若Sim>0. 85,则转到step5,否则,转到Step6;Step5?重复步骤1和步骤2,利用公式(3)计算A与C的相关度Rel(A,C),并计算 SimXRel(A,C)3BSReli(A,B),(i=l,2);Step6?结点A和B角色互换,采用同样的方法,重复步骤3至步骤5;Step7?计算A与B的相关度Rel(A,B)= MaxReli(A,B),(i=0, 1,2),转Step8;St印8.结束。进一步,所述步骤2中语义关系图的扩展方法为: (1)依次对人民日报语料中的每一句话进行依存句法分析,得到每一句话的依存 句法树; (2)根据每一棵依存句法树中的词语依存信息,从中提取出实词依存搭配对,并统 计其出现的频次; (3)为每个依存搭配对中的两个词语间的语义关系赋予一个关系词,这样每个搭 配对及其关系词则构成一个语义关系三元组; (4)依次将频次大于阈值的语义关系三元组加入到基于《知网》构建的语义关系图 中。 本专利技术的有益效果是在语义关系图的基础上,将图理论知识与语义关系图中的信 息相结合,提出了一种基于语义关系图的词汇语义相关度计算方法,并通过实验验证了该 方法是有效可行的。【附图说明】 图1是拳台的概念树示意图; 图2是结点A和B的连通路径有2条示意图; 图3是结点A和B的连通路径有3条示意图; 图4是结点A和C的连通路径有1条,长度为2示意图; 图5是结点A和C的连通路径也有1条,长度为1示意图。【具体实施方式】 下面结合【具体实施方式】对本专利技术进行详细说明。 本专利技术词汇语义相关度的计算方法采用的技术方案如下: 步骤1 :语义关系图的构建;首先分析研究了《知网》对词语语义的表示方式,根据 《知网》中词语的语义信息以及知网对词语语义的表示特点,提取出知网中的语义关系,构 建出了基于知网的语义关系图; 本专利技术所构建的语义关系图由表示语义的节点和表示语义节点间关系的边组成, 整个语义关系图以边为单位采用三元组的方式存储,也就是每一个语义关系三元组(结点 1,结点2,语义关系)作为一个存储记录。采用这样的存储方式便于对已构建好的语义关系 图进行扩展,在扩展时只要将新的语义关系三元组加入图中即可达到扩展语义关系图的目 的。 《知网》中的语义关系:《知网》是一个以英汉双语所代表的概念以及概念的特征 为基础的,以揭示概念与概念所具有的特性之间的关系为基础内容的常识知识库。通过对 《知网》词典中概念表示方法的研究,我们发现《知网》按照KDML的规范描述概念时,对概念 采用嵌套式的结构表示,也就是,一个复杂的概念用较简单的概念进行解释,较简单的概念 再用更简单的概念解释,直到用义原表示出来。这种结构是一种隐含的树结构,称之为概念本文档来自技高网...

【技术保护点】
一种词汇语义相关度的计算方法,其特征在于按照以下步骤进行:步骤1:语义关系图的构建:1)根据《知网》中词语的语义信息以及知网对词语语义的表示特点,提取出知网中的语义关系,构建出了基于知网的语义关系图;语义关系图由表示语义的节点和表示语义节点间关系的边组成,整个语义关系图以边为单位采用三元组的方式存储,每一个语义关系三元组作为一个存储记录;2)《知网》中的语义关系提取:设{s1:r1={s2:r2={s3}}},每一对括号所包括的部分都是一个概念,其中s1,s2,s3是义原;r1,r2是关系词,r1是表示s1和{s2:r2={s3}}之间关系的关系词,r2是表示s2和{s3}之间关系的关系词;(1)如果关系词后面所连接的概念只是一个义原,则直接提取语义关系;(2)如果关系词后面所连接的概念不只是一个义原,而是多个义原,这时需要考察关系词后面所连接的概念是否可以用某个义项表示,若可以用特定义项表示,则提取语义关系,否则,不提取该关系词的语义关系;(3)如果关系词所在的整个概念可用某个义项表示时,则将关系词前面的义原替换为该义项并提取语义关系;(4)对于每个义项都提取该义项与其第一基本义原的语义关系;(5)反义、对义、同义关系的提取,这三种关系从《知网》的Antonym set、Converse Set、SynsetSet、TaxonomyAntonym、Taxonomy Converse文件中直接提取;3)将中文词相同且概念描述也相同的但编号不同的概念进行合并,并重新为其编号,然后再提取语义关系构建语义关系图,提取出《知网》中存在的语义关系后,这些关系互相关联后则形成了一张网,称之为基于《知网》构建的语义关系图;步骤2:语义关系图的扩展;采用哈尔滨工业大学所作的依存句法分析器,对来自于人民日报的语料进行句法分析,从中提取出具有依存关系的词语搭配对,每一个词语搭配对与它们的依存关系则构成了一个语义关系三元组,将这些语义关系三元组加入到基于《知网》构建的语义关系图中;步骤3:词语相关度计算;在给定两个词语后,通过遍历语义关系图,得到这两个词语的语义连通路径数N和每条连通路径的长度Li,在计算中不考虑连通路径中长度大于等于6的路径,并且为连通路径长为1~5的路径分别赋予系数βk(1≤k≤5≤5),得到每条路径的带权长度为βkLi,其中,k∈[1,5],i∈[1,N];总路径长L:L=Σi=1NβkLi,1≤k≤5;---(1)]]>平均路径长L‾:L‾=1NΣi=1NβkLi,1≤k≤5;---(2)]]>当两个词语在语义关系图中存在长度小于6的语义连通路径时,它们的相关度为:Rel=log2(N+1)log2(N+1)+21NΣi=1NβkLi,1≤k≤5---(3)]]>基于语义关系图的词语相关度计算的算法描述如下:Step1.计算两个实体结点A和B在语义关系图中的连通路径数N,和每条连通路径的长度Li,若N>0,则转到Step2;否则,转到Step3;Step2.利用公式(3)计算A与B的相关度Rel(A,B),转Step8;Step3.查找结点A在连通路径长为5以内的连通路径上的所有结点,这些结点组合为集合U;Step4.计算结点B与集合U中每个元素结点的相似度,并标记相似度最大的结点C及其相似度的值Sim,若Sim>0.85,则转到step5,否则,转到Step6;Step5.重复步骤1和步骤2,利用公式(3)计算A与C的相关度Rel(A,C),并计算Sim×Rel(A,C),记为Reli(A,B),(i=1,2);Step6.结点A和B角色互换,采用同样的方法,重复步骤3至步骤5;Step7.计算A与B的相关度Rel(A,B)=MaxReli(A,B),(i=0,1,2),转Step8;Step8.结束。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张仰森李佳媛
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1