词义消歧方法和设备、词义扩展方法和装置制造方法及图纸

技术编号:21060331 阅读:19 留言:0更新日期:2019-05-08 07:03
本发明专利技术涉及一种基于上位词的词义消歧方法和设备,以及利用该词义消歧方法的词义扩展方法和设备。该词义消歧方法包括:接收输入语句;基于预定歧义词库,确定所述输入语句中的消歧目标词;基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;确定所述相关词的一个或多个上位词;以及基于所述相关词以及所述一个或多个上位词的词形,词性及与目标词的句法关系,确定所述目标词在所述输入语句中的词义。

Word Sense Disambiguation Method and Equipment, Word Sense Expansion Method and Device

【技术实现步骤摘要】
词义消歧方法和设备、词义扩展方法和装置
本专利技术涉及人工智能领域,更具体地,本专利技术涉及一种词义消歧方法和设备,利用该词义消歧方法的词义扩展方法和装置,以及计算机可读存储介质。
技术介绍
词义消歧(WSD)是指确定多义词在自然语言的特定上下文中的词义。词义消歧是自然语处理领域的基础性问题。当在要进行自然语言处理的语句中存在多义词时,如果不能正确地确定多义词在该语句上下文中的正确词义,就会出现词语歧义现象,从而严重影响机器对于自然语言的正确理解和处理。在诸如语言识别、机器翻译、信息检索、文本分类、自动文摘等基于自然语言的应用领域中,都需要解决对于多义词的词义消歧问题。目前,基于语料库的词义消歧方案主要包括监督和无监督方法。无监督方法不需要训练语料库,但是其消歧精度无法满足实用要求。目前的监督方法则需要大规模高质量的语料库对消歧模型进行训练,而一旦实际待消歧语句中出现语料库没有覆盖的词语,则很可能出现无法确定歧义词的情况。
技术实现思路
鉴于上述问题,本专利技术提供一种词义消歧方法和设备,利用该词义消歧方法的词义扩展方法和装置,以及计算机可读存储介质。根据本专利技术的一个实施例,提供了一种词义消歧方法,包括:接收输入语句;基于预定歧义词库,确定所述输入语句中的消歧目标词;基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;确定所述相关词的一个或多个上位词;以及基于所述相关词以及所述一个或多个上位词,确定所述目标词在所述输入语句中的词义。此外,根据本专利技术的一个实施例的词义消歧方法,其中,所述基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词包括:基于对所述输入语句的词性分析标注,确定所述输入语句中各个词语的词性;以及基于所述词性和所述句法分析的结果以及对目标词的上下文分析等结果,根据预定规则确定所述目标词的相关词。此外,根据本专利技术的一个实施例的词义消歧方法,还包括预先训练执行所述词义消歧方法的词义消歧模块,其中,训练所述词义消歧模块包括:标注用于训练的训练数据;对所述训练数据执行数据处理,并且获得所述预定歧义词库;对于所述训练数据中的每条训练语句,基于所述预定歧义词库,确定所述每条训练语句中的消歧训练目标词;基于对所述每条训练语句的句法分析以及上下文信息分析,确定所述训练目标词的训练相关词;确定所述训练目标词、所述训练相关词、所述训练目标词和所述训练相关词的上位词的词形,词性及与目标词的句法关系作为训练特征;以及利用所述训练特征训练所述词义消歧模块。根据本专利技术的另一个实施例,提供了一种词义扩展方法,包括:接收输入语句;基于预定歧义词库,确定所述输入语句中的消歧目标词和非歧义词;利用词义消歧模块确定所述消歧目标词在所述输入语句中的词义;基于预定同义词库,确定分别对应于所述非歧义词以及所述消歧目标词的词义的同义词和上位词;以及利用所述同义词和上位词,扩展所述输入语句,其中,所述利用词义消歧模块确定所述消歧目标词在所述输入语句中的词义包括:基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;确定所述相关词的一个或多个上位词;以及基于所述相关词以及所述一个或多个上位词,确定所述目标词在所述输入语句中的词义。此外,根据本专利技术的另一个实施例的词义扩展方法,其中,所述基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词包括:基于对所述输入语句的词性分析标注,确定所述输入语句中各个词语的词性;以及基于所述词性和所述句法分析的结果以及对目标词的上下文分析等结果,根据预定规则确定所述目标词的相关词。此外,根据本专利技术的另一个实施例的词义扩展方法,还包括预先训练执行所述词义消歧方法的词义消歧模块,其中,训练所述词义消歧模块包括:标注用于训练的训练数据;对所述训练数据执行数据处理,并且获得所述预定歧义词库;对于所述训练数据中的每条训练语句,基于所述预定歧义词库,确定所述每条训练语句中的消歧训练目标词;基于对所述每条训练语句的句法分析以及上下文信息分析,确定所述训练目标词的训练相关词;确定所述训练目标词、所述训练相关词、所述训练目标词和所述训练相关词的上位词的词形,词性及与目标词的句法关系作为训练特征;以及利用所述训练特征训练所述词义消歧模块。根据本专利技术的又一个实施例,提供了一种词义消歧设备,包括:接收单元,配置为接收输入语句;目标词确定单元,配置为基于预定歧义词库,确定所述输入语句中的消歧目标词;相关词确定单元,配置为基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;上位词确定单元,配置为确定所述相关词的一个或多个上位词;以及词义消歧单元,配置为基于所述相关词以及所述一个或多个上位词,确定所述目标词在所述输入语句中的词义。此外,根据本专利技术的又一个实施例的词义消歧设备,其中,所述相关词确定单元进一步配置为:基于对所述输入语句的词性分析标注,确定所述输入语句中各个词语的词性;并且基于所述词性和所述句法分析的结果以及对目标词的上下文分析等结果,根据预定规则确定所述目标词的相关词。此外,根据本专利技术的又一个实施例的词义消歧设备,还包括训练单元,配置为:标注用于训练的训练数据;对所述训练数据执行数据处理,并且获得所述预定歧义词库;对于所述训练数据中的每条训练语句,基于所述预定歧义词库,确定所述每条训练语句中的消歧训练目标词;基于对所述每条训练语句的句法分析以及上下文信息分析,确定所述训练目标词的训练相关词;确定所述训练目标词、所述训练相关词、所述训练目标词和所述训练相关词的上位词的词形,词性及与目标词的句法关系作为训练特征;以及利用所述训练特征训练所述词义消歧单元。根据本专利技术的再一个实施例,提供了一种词义扩展装置,包括:接收模块,配置为接收输入语句;目标词确定模块,配置为基于预定歧义词库,确定所述输入语句中的消歧目标词和非歧义词;词义消歧模块,配置为确定所述消歧目标词在所述输入语句中的词义;词义扩展模块,配置基于预定同义词库,确定分别对应于所述非歧义词以及所述消歧目标词的词义的同义词和上位词;以及利用所述同义词和上位词,扩展所述输入语句,其中,所述词义消歧模块进一步配置为包括:相关词确定单元,配置为基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;上位词确定单元,配置为确定所述相关词的一个或多个上位词;以及词义消歧单元,配置为基于所述相关词以及所述一个或多个上位词,确定所述目标词在所述输入语句中的词义。此外,根据本专利技术的再一个实施例的词义扩展设备,其中,所述相关词确定单元进一步配置为:基于对所述输入语句的词性分析标注,确定所述输入语句中各个词语的词性;并且基于所述词性和所述句法分析的结果以及对目标词的上下文分析等结果,根据预定规则确定所述目标词的相关词。此外,根据本专利技术的再一个实施例的词义扩展设备,还包括训练模块,配置为:标注用于训练的训练数据;对所述训练数据执行数据处理,并且获得所述预定歧义词库;对于所述训练数据中的每条训练语句,基于所述预定歧义词库,确定所述每条训练语句中的消歧训练目标词;基于对所述每条训练语句的句法分析以及上下文信息分析,确定所述训练目标词的训练相关词;确定所述训练目标词、所述训练相关词、所述训练目标词和本文档来自技高网...

【技术保护点】
1.一种词义消歧方法,包括:接收输入语句;基于预定歧义词库,确定所述输入语句中的消歧目标词;基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;确定所述相关词的一个或多个上位词;以及基于所述相关词以及所述一个或多个上位词的词形,词性及与目标词的句法关系,确定所述目标词在所述输入语句中的词义。

【技术特征摘要】
1.一种词义消歧方法,包括:接收输入语句;基于预定歧义词库,确定所述输入语句中的消歧目标词;基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;确定所述相关词的一个或多个上位词;以及基于所述相关词以及所述一个或多个上位词的词形,词性及与目标词的句法关系,确定所述目标词在所述输入语句中的词义。2.如权利要求1所述的词义消歧方法,其中,所述基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词包括:基于对所述输入语句的词性分析标注,确定所述输入语句中各个词语的词性;以及基于所述词性和所述句法分析的结果以及对目标词的上下文分析等结果,根据预定规则确定所述目标词的相关词。3.如权利要求1或2所述的词义消歧方法,还包括预先训练执行所述词义消歧方法的词义消歧模块,其中,训练所述词义消歧模块包括:标注用于训练的训练数据;对所述训练数据执行数据处理,并且获得所述预定歧义词库;对于所述训练数据中的每条训练语句,基于所述预定歧义词库,确定所述每条训练语句中的消歧训练目标词;基于对所述每条训练语句的句法分析以及上下文信息分析,确定所述训练目标词的训练相关词;确定所述训练目标词、所述训练相关词、所述训练目标词和所述训练相关词的上位词的词形,词性及与目标词的句法关系作为训练特征;以及利用所述训练特征训练所述词义消歧模块。4.一种词义扩展方法,包括:接收输入语句;基于预定歧义词库,确定所述输入语句中的消歧目标词和非歧义词;利用词义消歧模块确定所述消歧目标词在所述输入语句中的词义;基于预定同义词库,确定分别对应于所述非歧义词以及所述消歧目标词的词义的同义词和上位词;以及利用所述同义词和上位词,扩展所述输入语句,其中,所述利用词义消歧模块确定所述消歧目标词在所述输入语句中的词义包括:基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;确定所述相关词的一个或多个上位词;以及基于所述相关词以及所述一个或多个上位词,确定所述目标词在所述输入语句中的词义。5.如权利要求4所述的词义扩展方法,其中,所述基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词包括:基于对所述输入语句的词性分析标注,确定所述输入语句中各个词语的词性;以及基于所述词性和所述句法分析的结果以及对目标词的上下文分析等结果,根据预定规则确定所述目标词的相关词。6.如权利要求4或5所述的词义扩展方法,还包括预先训练执行所述词义消歧方法的词义消歧模块,其中,训练所述词义消歧模块包括:标注用于训练的训练数据;对所述训练数据执行数据处理,并且获得所述预定歧义词库;对于所述训练数据中的每条训练语句,基于所述预定歧义词库,确定所述每条训练语句中的消歧训练目标词;基于对所述每条训练语句的句法分析以及上下文信息分析,确定所述训练目标词的训练相关词;确定所述训练目标词、所述训练相关词、所述训练目标词和所述训练相关词的上位词的词形,词性及与目标词的句法关系作为训练特征;以及利用所述训练特征训练所述词义消歧模块。7.一种词义消歧设备,包括:接收单元,配置为接收输入语句;目标词确定单元,配置为基于预定歧义词库,确定所述输入语句中的消歧目标词;相关词确定单元,配置为基于对所述输入语句的句法分析以及上下文信息分析,确定所述目标词的相关词;上位词确定单元,配置为确定所述相关词的一个或多个上位词;以及词义消歧单元,配置为基于所述相关词以及所...

【专利技术属性】
技术研发人员:张驰郭心语李安新陈岚礒田佳德小野隆哉
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1