当前位置: 首页 > 专利查询>枣庄学院专利>正文

一种基于图模型的词义消歧方法和系统技术方案

技术编号:20389934 阅读:18 留言:0更新日期:2019-02-20 02:52
本发明专利技术公开了一种基于图模型的词义消歧方法和系统,属于自然语言处理技术领域,本发明专利技术要解决的技术问题为如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能,采用的技术方案为:①一种基于图模型的词义消歧方法,包括如下步骤:S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;S3、构建消歧图;S4、词义的正确选择。②一种基于图模型的词义消歧系统,该系统包括上下文知识提取单元、相似度计算单元、消歧图构建单元以及词义正确选择单元。

【技术实现步骤摘要】
一种基于图模型的词义消歧方法和系统
本专利技术涉及自然语言处理
,具体地说是一种基于图模型的词义消歧方法和系统。
技术介绍
词义消歧是指根据歧义词所处的特定上下文环境确定其具体词义,它是自然语言处理领域的一项基础性研究,对机器翻译、信息抽取、信息检索、文本分类、情感分析等上层应用有着直接影响。无论是中文还是英文等其他西方语言,一词多义的现象是普遍存在的。传统的基于图模型进行中文词义消歧任务处理的方法主要利用了一种或多种中文知识资源,受知识资源不足问题的困扰,词义消歧性能较低。故如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能是目前急需解决的技术问题。专利号为CN105893346A的专利文献公开了一种基于依存句法树的图模型词义消歧方法,其步骤为:1.对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;2.对句子进行依存句法分析,构建其依存句法树;3.获得句子中词语在依存句法树上的距离,即最短路径的长度;4.根据知识库,为句子中词语的词义概念构建消歧知识图;5.根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;6.为每个歧义词,选择图评分值最大的词义作为正确词义。但是该技术方案利用BabelNet中蕴含的语义关联关系,而不是HowNet中的语义知识;其适用于英文词义消歧工作,但对于中文并不适用,且不能解决如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能的问题。
技术实现思路
本专利技术的技术任务是提供一种基于图模型的词义消歧方法和系统,来解决如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能的问题。本专利技术的技术任务是按以下方式实现的,一种基于图模型的词义消歧方法,包括如下步骤:S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;S3、构建消歧图:利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建出消歧图;S4、词义的正确选择:通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最高者作为正确词义。作为优选,所述步骤S2中相似度计算具体步骤如下:S201、基于英文的相似度计算:对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;另,考虑到HowNet是双语的,这里词义映射处理直接获取HowNet中的英文词语信息;S202、基于词向量的相似度计算:Sogou全网新闻语料共计1.43GB,使用Google的word2vec工具包在该语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;S203、基于HowNet的相似度计算:利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度。更优地,所述步骤S201中基于词向量和知识库的词语相似度计算算法具体如下:S20101、判断给定的是词语还是短语:①、若给定是两个英文词语,则通过计算两词语向量的cosine相似度得到两个词语之间的相似度;②、若给定词语为短语,则需要将短语中的词语对应的词向量相加,得到短语的向量表示,求得短语的相似度,公式如下:其中,|p1|和|p2|表示短语p1和p2所含词语的个数;wi和wj分别表示p1中的第i个词语,p2中的第j个词语;S20102、迭代地搜索与两个英文词语相关的同义词集,直到迭代步数超过γ;S20103、以两个英文词语以及与两个英文词语相关的同义词集为基础构建同义词集图;S20104、在图中设定距离范围内,计算与两个英文词语相关的同义词集的重合度,公式如下:simlap(wi,wj)=d*count(wi,wj)/(count(wi)+count(wj))式中,count(wi,wj)表示词语wi和wj共同具有的同义词集个数;count(wi)和count(wj)分别为wi和wj各自具有的同义词集个数;d表示设定距离范围的取值;S20105、使用Dijkstra算法计算图中wi和wj之间的最短路径,得到wi和wj的相似度,公式如下:simbn(wi,wj)=α*1/(δpath)+(1-α)simlap(wi,wj)其中,path是wi和wj之间的最短路径;δ用以调节相似度的取值;simlap(wi,wj)表示wi和wj之间的重合度;参数α是一个调节因子,调节公式中两个部分的相似度值;S20106、将步骤S20101中基于词向量方法得到的相似度simvec和步骤S20105中基于知识库方法得到的相似度simbn,进行线性相加结合,得到最终的相似度,公式如下:simfinal(wi,wj)=β*simvec+(1-β)*simbn其中,simbn和simvec分别表示基于知识库方法得到的相似度和基于词向量方法得到的相似度;参数α是一个调节因子,调节基于知识库方法和基于词向量方法得到的相似度结果;S20107、返回相似度simfinal。作为优选,所述步骤S3中构建消歧图的具体步骤如下:S301、权重优化:基于模拟退火的权重优化算法,对步骤S2中的三种相似度值进行自动优化,得到最优权重参数;S302、相似度融合:权重优化之后,词义间最终融合的相似度公式为:sim(ws,ws′)=αsimhow+βsimen+γsimvec其中,ws和ws’表示两个词义,simhow表示基于HowNet的相似度计算结果,权重为α;simen表示基于词向量和知识库的词语相似度计算结果,权重为β;simvec表示基于词向量的相似度计算结果,权重为γ;其中,α+β+γ=1,α≥0,β≥0,γ≥0;S303、构建消歧图:消歧图以词义为顶点,词义间的语义关系为边,利用基于模拟退火的权重优化算法,整合三种相似度值作为词义间的边权重。更优地,所述步骤S301中的模拟退火算法进行参数优化的公式为:其中,result(x)表示目标函数,指的是消歧准确率;δ表示冷却速率;t表示当前所处温度;xnew表示新取参数;xold表示原参数;模拟退火算法进行参数优化的公式表示的含义包括如下两种情况:(a)、若新取参数xnew的目标函数取值不小于原参数xold的目标函数取值,则以概率p为1选择新取参数xnew;(b)、若新取参数xnew的目标函数取值小于原参数xold的目标函数取值,则以概率p为exp((result(xnew)-result(xold))/(δt))作为选取参数xnew的依据,随机生成一个概率值,并判断随机生成的概率值与概率p的大小:①、若随机生成的概率值不大于p时,则选择新取参数xnew;②、若随机生成的概率值大于p时,则舍弃新取参数xnew;所述步骤S303中的词义指的是一个三元组本文档来自技高网...

【技术保护点】
1.一种基于图模型的词义消歧方法,其特征在于,包括如下步骤:S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;S3、构建消歧图:利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建出消歧图;S4、词义的正确选择:通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最高者作为正确词义。

【技术特征摘要】
1.一种基于图模型的词义消歧方法,其特征在于,包括如下步骤:S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;S3、构建消歧图:利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建出消歧图;S4、词义的正确选择:通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最高者作为正确词义。2.根据权利要求1所述的基于图模型的词义消歧方法,其特征在于,所述步骤S2中相似度计算具体步骤如下:S201、基于英文的相似度计算:对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;S202、基于词向量的相似度计算:使用Google的word2vec工具包在该语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;S203、基于HowNet的相似度计算:利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度。3.根据权利要求2所述的基于图模型的词义消歧方法,其特征在于,所述步骤S201中基于词向量和知识库的词语相似度计算算法具体如下:S20101、判断给定的是词语还是短语:①、若给定是两个英文词语,则通过计算两词语向量的cosine相似度得到两个词语之间的相似度;②、若给定词语为短语,则需要将短语中的词语对应的词向量相加,得到短语的向量表示,求得短语的相似度,公式如下:其中,|p1|和|p2|表示短语p1和p2所含词语的个数;wi和wj分别表示p1中的第i个词语,p2中的第j个词语;S20102、迭代地搜索与两个英文词语相关的同义词集,直到迭代步数超过γ;S20103、以两个英文词语以及与两个英文词语相关的同义词集为基础构建同义词集图;S20104、在图中设定距离范围内,计算与两个英文词语相关的同义词集的重合度,公式如下:simlap(wi,wj)=d*count(wi,wj)/(count(wi)+count(wj))式中,count(wi,wj)表示词语wi和wj共同具有的同义词集个数;count(wi)和count(wj)分别为wi和wj各自具有的同义词集个数;d表示设定距离范围的取值;S20105、使用Dijkstra算法计算图中wi和wj之间的最短路径,得到wi和w的相似度,公式如下:simbn(wi,wj)=α*1/(δpath)+(1-α)simlap(wi,wj)其中,path是wi和wj之间的最短路径;δ用以调节相似度的取值;simlap(wi,wj)表示wi和wj之间的重合度;参数α是一个调节因子,调节公式中两个部分的相似度值;S20106、将步骤S20101中基于词向量方法得到的相似度simvec和步骤S20105中基于知识库方法得到的相似度simbn,进行线性相加结合,得到最终的相似度,公式如下:simfinal(wi,wj)=β*simvec+(1-β)*simbn其中,simbn和simvec分别表示基于知识库方法得到的相似度和基于词向量方法得到的相似度;参数α是一个调节因子,调节基于知识库方法和基于词向量方法得到的相似度结果;S20107、返回相似度simfinal。4.根据权利要求1所述的基于图模型的词义消歧方法,其特征在于,所述步骤S3中构建消歧图的具体步骤如下:S301、权重优化:基于模拟退火的权重优化算法,对步骤S2中的三种相似度值进行自动优化,得到最优权重参数;S302、相似度融合:权重优化之后,词义间最终融合的相似度公式为:sim(ws,ws′)=αsimhow+βsimen+γsimvec其中,ws和ws’表示两个词义,simhow表示基于HowNet的相似度计算结果,权重为α;simen表示基于词向量和知识库的词语相似度计算结果,权重为β;simvec表示基于词向量的相似度计算结果,权重为γ;其中,α+β+γ=1,α≥0,β≥0,γ≥0;S303、构建消歧图:消歧图以词义为顶点,词义间的语义关系为边,利用基于模拟退火的权重优化算法,整合三种相似度值作为词义间的边权重。5.根据权利要求4所述的基于图模型的词义消歧方法,其特征在于,所述步骤S301中的模拟退火算法进行参数优化的公式为:其中,result(x)表示目标函数,指的是消歧准确率;δ表示冷却速率;t表示当前所处温度;xnew表示新取参数;xold表示原参数;模拟退火算法进行参数优化的公式表示的含义包括如下两种情况:(a)、若新取参数xnew的目标函数取值不小于原参数xold的目标函数取值,则以概率p为1选择新取参数xnew;(b)、若新取参数xnew的目标函数取值小于原参数xold的目标函数取值,则以概率p为exp((result(xnew)-result(xold))/(δt))作为选取参数xnew的依据,随机生成一个概率值,并判断随机生成的概率值与概率p的大小:①、若随机生成的概率值不大于p时,则选择新取参数xnew;②、若随机生成的概率值大于p时,则舍弃新取参数xnew;所述步骤S303中的词义指的是一个三元组,表示为:Word(No.,Sword,Enword);其中,No.表示的是概念编号;Sword表示第一义原词语;Enword表示英文词语;No.、Sword、Enword三者是有机统一的整体,描述同一个词义概念;在HowNet中一个词义概念编号唯一...

【专利技术属性】
技术研发人员:孟凡擎燕孝飞张强陈文平鹿文鹏
申请(专利权)人:枣庄学院
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1