同义词性模板获取方法及装置制造方法及图纸

技术编号:21432458 阅读:29 留言:0更新日期:2019-06-22 11:59
本公开是关于同义词性模板获取方法及装置。该方法包括:获取多个样本语料;确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板;在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料;根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。该技术方案能够使同义词性模板与目标词性模板较为接近,且语境相似性较高,从而降低了出现误解的几率,改善了用户体验。

【技术实现步骤摘要】
同义词性模板获取方法及装置
本公开涉及数据处理
,尤其涉及同义词性模板获取方法及装置。
技术介绍
同义词是指与给定词发音不同而意义相同或基本相同的词语,为给定词找出相应的同义词集是自然语言理解的一个重要课题。其在自然语言理解领域发挥着关键性的作用,例如通过替换用户提出的问题中的同义词,可以将用户提出的问题与问答数据库中预先准备好的预设问题关联起来,并进一步根据该预设问题获得相应的答案,达到根据该答案自动回答用户提出的问题的目的。
技术实现思路
为克服相关技术中存在的问题,本公开的实施例提供一种同义词性模板获取方法及装置。技术方案如下:根据本公开的实施例的第一方面,提供一种同义词性模板获取方法,包括:获取多个样本语料,每个样本语料包括多个词;确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词;在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词;根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。本公开的实施例提供的技术方案中,样本词性模板可以用于指示样本词性模板的中心词的词义,样本词性模板的中心词的词性、样本词性模板的中心词的上文且与样本词性模板的中心词相邻的词的词性或中心词的下文且与中心词相邻的词的词性,目标词性模板同样可以用于指示目标词性模板的中心词的词义,目标词性模板的中心词的词性、目标词性模板的中心词的上文且与目标词性模板的中心词相邻的词的词性或目标词性模板的中心词的下文且与目标词性模板的中心词相邻的词的词性,因此在所确定的相似度满足预设要求的同义词性模板中,同义词性模板的中心词与目标词性模板的中心词不但在自身语义以及自身词性上较为接近,同义词性模板的中心词与目标词性模板的中心词还在相邻词即上文或下文的词的词性上也较为接近,从而使同义词性模板与目标词性模板较为接近,确保二者的语境相似性较高,从而在根据同义词性模板对目标词性模板进行同义替换时,降低了出现误解的几率,改善了用户体验。在一个实施例中,方法还包括:根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板;根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。在一个实施例中,方法还包括:根据bigramscore算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板;根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性模板获取评分满足预设评分要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。在一个实施例中,根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度,包括:对多个样本词性模板以及目标词性模板上下文语料进行编码,以获取多个样本词性模板中每个样本词性模板对应的词性模板ID以及目标词性模板上下文语料中每个词对应的词ID;将多个样本词性模板中每个样本词性模板对应的词性模板ID,目标词性模板上下文语料中每个词对应的词ID作为词性模板向量训练模型的输入,将多个样本词性模板中每个样本词性模板对应的词性模板向量以及目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练;获取训练后的每个词性模板向量与目标词性模板对应的词性模板向量之间的相似度。在一个实施例中,将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板,包括:将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板;拼接候选词性模板对应的词性模板向量与目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量;将拼接向量输入二分类模型;当二分类模型的输出满足预设二分类输出要求时,将与拼接向量对应的候选词性模板确定为目标词性模板的同义词性模板。在一个实施例中,词性模板向量训练模型的输出包括目标词性模板上下文语料中位于目标词性模板的中心词上文的M个词对应的词向量,以及目标词性模板上下文语料中位于目标词性模板的中心词下文的M个词对应的词向量,M为大于或等于1的正整数,词性模板向量训练模型为skip-gram模型。根据本公开的实施例的第二方面,提供一种同义词性模板获取装置,包括:样本预料获取模块,用于获取多个样本语料,每个样本语料包括多个词;样本词性模板生成模块,用于确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词;目标词性模板确定模块,用于在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词;相似度获取模块,用于根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;同义词性模板确定模块,用于将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。在一个实施例中,装置还包括:样本词性模板筛选模块,用于根据出现频率对多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板;相似度获取模块,包括:第一相似度获取子模块,用于根据目标词性模板、目标词性模板上下文语料以及出现频率满足预设出现频率要求的样本词性模板获取出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与目标词性模板之间的相似度。在一个实施例中,装置还包括:样本词性模板评分模块,用于根据bigramscore算法对多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板;相似度获取模块,包括:第二相似度获取子模块,用于根据目标词性模板、目标词性模板上下文语料以及评分满足预设评分要求的样本词性本文档来自技高网...

【技术保护点】
1.一种同义词性模板获取方法,其特征在于,包括:获取多个样本语料,每个所述样本语料包括多个词;确定所述多个样本语料中每个词的词性,并生成与所述多个样本语料中每个词对应的样本词性模板,所述样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,所述中心词为与所述样本词性模板对应的词,所述相邻词为位于所述中心词的上文且与所述中心词相邻的词,或所述相邻词为位于所述中心词的下文且与所述中心词相邻的词;在所述多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,所述目标词性模板的中心词位于所述目标语料中,所述目标词性模板上下文语料包括所述目标语料中位于所述目标词性模板的中心词上文以及所述目标词性模板的中心词下文的词;根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度;将相似度满足预设要求的一个或多个样本词性模板确定为所述目标词性模板的同义词性模板。

【技术特征摘要】
1.一种同义词性模板获取方法,其特征在于,包括:获取多个样本语料,每个所述样本语料包括多个词;确定所述多个样本语料中每个词的词性,并生成与所述多个样本语料中每个词对应的样本词性模板,所述样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,所述中心词为与所述样本词性模板对应的词,所述相邻词为位于所述中心词的上文且与所述中心词相邻的词,或所述相邻词为位于所述中心词的下文且与所述中心词相邻的词;在所述多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,所述目标词性模板的中心词位于所述目标语料中,所述目标词性模板上下文语料包括所述目标语料中位于所述目标词性模板的中心词上文以及所述目标词性模板的中心词下文的词;根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度;将相似度满足预设要求的一个或多个样本词性模板确定为所述目标词性模板的同义词性模板。2.根据权利要求1所述的同义词性模板获取方法,其特征在于,所述方法还包括:根据出现频率对所述多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板;所述根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度,包括:根据所述目标词性模板、所述目标词性模板上下文语料以及所述出现频率满足预设出现频率要求的样本词性模板获取所述出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度。3.根据权利要求1所述的同义词性模板获取方法,其特征在于,所述方法还包括:根据bigramscore算法对所述多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板;所述根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度,包括:根据所述目标词性模板、所述目标词性模板上下文语料以及所述评分满足预设评分要求的样本词性模板获取所述评分满足预设评分要求的样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度。4.根据权利要求1所述的同义词性模板获取方法,其特征在于,所述根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度,包括:对所述多个样本词性模板以及所述目标词性模板上下文语料进行编码,以获取所述多个样本词性模板中每个样本词性模板对应的词性模板ID以及所述目标词性模板上下文语料中每个词对应的词ID;将所述多个样本词性模板中每个样本词性模板对应的词性模板ID,所述目标词性模板上下文语料中每个词对应的词ID作为词性模板向量训练模型的输入,将所述多个样本词性模板中每个样本词性模板对应的词性模板向量以及所述目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练;获取训练后的每个词性模板向量与所述目标词性模板对应的词性模板向量之间的相似度。5.根据权利要求4所述的同义词性模板获取方法,其特征在于,所述将相似度满足预设要求的一个或多个样本词性模板确定为所述目标词性模板的同义词性模板,包括:将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板;拼接候选词性模板对应的词性模板向量与所述目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量;将所述拼接向量输入二分类模型;当所述二分类模型的输出满足预设二分类输出要求时,将与所述拼接向量对应的候选词性模板确定为所述目标词性模板的同义词性模板。6.根据权利要求4所述的同义短语获取方法,其特征在于,所述词性模板向量训练模型的输出包括所述目标词性模板上下文语料中位于所述目标词性模板的中心词上文的M个词对应的词向量,以及所述目标词性模板上下文语料中位于所述目标词性模板的中心词下文的M个词对应的词向量,M为大于或等于1的正整数,所述词性模板向量训练模型为skip-gram模型。7.一种同义词性模板获取装置,其特征在于,包括:样本预料获取模块,用于获取多个样本语料,每个所述样本语料包括多个词;样本词性模板生成模块,用于确定所述多个样本语料中每个词的词性,并生成与所述多个样本语料中每个词对应的样本词性模板,所述样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,所述中心词为与所述样本词性模板对应的词,所述相邻词为位于所述中心词的上文且与所述中心词相邻的词,或所述相邻词为位于所述中心词的下文且与所述中心词相邻的词;目标词性模板确定模块,用于在所述多个样本语料中确定目标语料,在多个样本...

【专利技术属性】
技术研发人员:潘晓彤刘作鹏
申请(专利权)人:北京小米智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1