一种基于依存词汇关联度的形容词词义消歧方法技术

技术编号:15087723 阅读:106 留言:0更新日期:2017-04-07 17:25
本发明专利技术涉及到一种基于依存词汇关联度的形容词词义消歧方法,属于自然语言处理技术领域。其步骤为:1.根据语义词典,收集目标形容词歧义词各个词义的同义词、近义词、反义词,构建相应词义的相关词集。2.对目标歧义词所在的句子进行依存句法分析,收集包含目标歧义词的形容词修饰及副词修饰依存元组,提取相应的依存共现词。3.对大规模语料进行依存句法分析,收集其中的依存共现词对,构建依存共现词对数据库DB。4.根据DB,计算目标歧义词的各个词义的依存词汇关联度。5.将整体依存词汇关联度最大的词义判定为正确词义。本发明专利技术的方法对比现有技术,能够准确地选择依存共现词,避免噪声词的干扰;能够自动构建依存共现词对数据库,无需任何人工辅助操作;能够改善形容词词义消歧的效果。

【技术实现步骤摘要】

本专利技术涉及到一种形容词词义消歧方法,特别涉及到一种基于依存词汇关联度的形容词词义消歧方法,属于自然语言处理

技术介绍
自然语言中普遍存在一词多义的现象。词义消歧即指根据多义词所处的上下文环境自动确定其词义。词义消歧属于自然语言处理领域的底层研究,对机器翻译、信息检索、信息抽取、情感分析、舆情监测等均具有直接影响。词义消歧方法可划分有监督方法、无监督方法和基于知识库的方法。有监督方法利用词义分类器来进行词义的判定;无监督方法主要通过对歧义词的上下文词语进行聚类而对词义进行分类;基于知识库的方法根据上下文环境,利用知识库来判定歧义词的词义。有监督方法需要大量的词义标注语料以训练词义分类器,这严重制约了其应用范围;无监督方法本质上是一种词义辨析方法,并不能真正应用于大规模词义消歧任务;基于知识库的方法需要使用大量的知识库,知识库的优劣直接影响其消歧能力。其中,基于知识库的方法是目前唯一能够真正应用于大规模词义消歧任务的方法。基于知识库的方法需要结合歧义词的上下文环本文档来自技高网...

【技术保护点】
一种基于依存词汇关联度的形容词词义消歧方法,其特征在于:其具体操作步骤为:步骤一、根据语义词典,收集目标形容词歧义词wt各个词义si的同义词、近义词、反义词,构建相应词义的相关词集Wsi;具体为:步骤1.1:根据WordNet,取词义概念si的同义词集;步骤1.2:根据WordNet,取词义概念si的近义词集;步骤1.3:根据WordNet,取词义概念si的反义词集;步骤1.4:将步骤1.1~1.3所得的同义词集、近义词集、反义词集合并,构建相应词义的相关词集Wsi;步骤二、对目标歧义词所在的句子进行依存句法分析,收集包含目标歧义词的形容词修饰及副词修饰依存元组,提取相应的依存共现词wamod...

【技术特征摘要】
1.一种基于依存词汇关联度的形容词词义消歧方法,其特征在于:其具体操作步骤为:
步骤一、根据语义词典,收集目标形容词歧义词wt各个词义si的同义词、近义词、反义
词,构建相应词义的相关词集Wsi;具体为:
步骤1.1:根据WordNet,取词义概念si的同义词集;
步骤1.2:根据WordNet,取词义概念si的近义词集;
步骤1.3:根据WordNet,取词义概念si的反义词集;
步骤1.4:将步骤1.1~1.3所得的同义词集、近义词集、反义词集合并,构建相应词义的
相关词集Wsi;
步骤二、对目标歧义词所在的句子进行依存句法分析,收集包含目标歧义词的形容词
修饰及副词修饰依存元组,提取相应的依存共现词wamod和wadvmod;具体为:
步骤2.1:利用依存句法分析工具对目标歧义词所在的句子进行依存句法分析,获取其
依存元组集合;
步骤2.2:由步骤2.1所得的依存元组集合,提取包含目标歧义词的形容词修饰及副词
修饰依存元组;
步骤2.3:由步骤2.2所得的依存元组,提取歧义词的依存共现实词wamod和wadvmod;
步骤三、对大规模语料进行依存句法分析,收集其中的依存共现词对,构建依存共现词
对数据库DB;具体为:
步骤3.1:利用依存句法分析工具对大规模文本语料进行依存句法分析,获取其依存元
组集合DSet;
步骤3.2:舍弃DSet中依存元组的依存关系类型信息,统计依存共现词对,构建依存共
现词对数据库DB;
步骤四、根据DB,计算目标歧义词的各个词义的依存词汇关联度;具体为:
步骤...

【专利技术属性】
技术研发人员:鹿文鹏
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1