【技术实现步骤摘要】
同义词性模板获取方法及装置
本公开涉及数据处理
,尤其涉及同义词性模板获取方法及装置。
技术介绍
同义词是指与给定词发音不同而意义相同或基本相同的词语,为给定词找出相应的同义词集是自然语言理解的一个重要课题。其在自然语言理解领域发挥着关键性的作用,例如通过替换用户提出的问题中的同义词,可以将用户提出的问题与问答数据库中预先准备好的预设问题关联起来,并进一步根据该预设问题获得相应的答案,达到根据该答案自动回答用户提出的问题的目的。
技术实现思路
为克服相关技术中存在的问题,本公开的实施例提供一种同义词性模板获取方法及装置。技术方案如下:根据本公开的实施例的第一方面,提供一种同义词性模板获取方法,包括:获取多个样本语料,每个样本语料包括多个词;确定多个样本语料中每个词的词性,并生成与多个样本语料中每个词对应的样本词性模板,样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,中心词为与样本词性模板对应的词,相邻词为位于中心词的上文且与中心词相邻的词,或相邻词为位于中心词的下文且与中心词相邻的词;在多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,目标词性模板的中心词位于目标语料中,目标词性模板上下文语料包括目标语料中位于目标词性模板的中心词上文以及目标词性模板的中心词下文的词;根据目标词性模板、目标词性模板上下文语料以及多个样本词性模板获取多个样本词性模板中每个样本词性模板与目标词性模板之间的相似度;将相似度满足预设要求的一个或多个样本词性模板确定为目标词性模板的同义词性模板。本公开的实施例提供的技术方案 ...
【技术保护点】
1.一种同义词性模板获取方法,其特征在于,包括:获取多个样本语料,每个所述样本语料包括多个词;确定所述多个样本语料中每个词的词性,并生成与所述多个样本语料中每个词对应的样本词性模板,所述样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,所述中心词为与所述样本词性模板对应的词,所述相邻词为位于所述中心词的上文且与所述中心词相邻的词,或所述相邻词为位于所述中心词的下文且与所述中心词相邻的词;在所述多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,所述目标词性模板的中心词位于所述目标语料中,所述目标词性模板上下文语料包括所述目标语料中位于所述目标词性模板的中心词上文以及所述目标词性模板的中心词下文的词;根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度;将相似度满足预设要求的一个或多个样本词性模板确定为所述目标词性模板的同义词性模板。
【技术特征摘要】
1.一种同义词性模板获取方法,其特征在于,包括:获取多个样本语料,每个所述样本语料包括多个词;确定所述多个样本语料中每个词的词性,并生成与所述多个样本语料中每个词对应的样本词性模板,所述样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,所述中心词为与所述样本词性模板对应的词,所述相邻词为位于所述中心词的上文且与所述中心词相邻的词,或所述相邻词为位于所述中心词的下文且与所述中心词相邻的词;在所述多个样本语料中确定目标语料,在多个样本词性模板中确定目标词性模板,并获取目标词性模板上下文语料,所述目标词性模板的中心词位于所述目标语料中,所述目标词性模板上下文语料包括所述目标语料中位于所述目标词性模板的中心词上文以及所述目标词性模板的中心词下文的词;根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度;将相似度满足预设要求的一个或多个样本词性模板确定为所述目标词性模板的同义词性模板。2.根据权利要求1所述的同义词性模板获取方法,其特征在于,所述方法还包括:根据出现频率对所述多个样本词性模板进行筛选,并根据筛选结果确定出现频率满足预设出现频率要求的样本词性模板;所述根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度,包括:根据所述目标词性模板、所述目标词性模板上下文语料以及所述出现频率满足预设出现频率要求的样本词性模板获取所述出现频率满足预设出现频率要求的样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度。3.根据权利要求1所述的同义词性模板获取方法,其特征在于,所述方法还包括:根据bigramscore算法对所述多个样本词性模板进行评分,并根据评分结果确定满足预设评分要求的样本词性模板;所述根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度,包括:根据所述目标词性模板、所述目标词性模板上下文语料以及所述评分满足预设评分要求的样本词性模板获取所述评分满足预设评分要求的样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度。4.根据权利要求1所述的同义词性模板获取方法,其特征在于,所述根据所述目标词性模板、所述目标词性模板上下文语料以及所述多个样本词性模板获取所述多个样本词性模板中每个样本词性模板与所述目标词性模板之间的相似度,包括:对所述多个样本词性模板以及所述目标词性模板上下文语料进行编码,以获取所述多个样本词性模板中每个样本词性模板对应的词性模板ID以及所述目标词性模板上下文语料中每个词对应的词ID;将所述多个样本词性模板中每个样本词性模板对应的词性模板ID,所述目标词性模板上下文语料中每个词对应的词ID作为词性模板向量训练模型的输入,将所述多个样本词性模板中每个样本词性模板对应的词性模板向量以及所述目标词性模板上下文语料中每个词对应的词向量作为词性模板向量训练模型的输出,对多个样本词性模板中每个样本词性模板对应的词性模板向量进行训练;获取训练后的每个词性模板向量与所述目标词性模板对应的词性模板向量之间的相似度。5.根据权利要求4所述的同义词性模板获取方法,其特征在于,所述将相似度满足预设要求的一个或多个样本词性模板确定为所述目标词性模板的同义词性模板,包括:将相似度满足预设要求的一个或多个样本词性模板确定为候选词性模板;拼接候选词性模板对应的词性模板向量与所述目标词性模板对应的词性模板向量,获取与候选词性模板对应的拼接向量;将所述拼接向量输入二分类模型;当所述二分类模型的输出满足预设二分类输出要求时,将与所述拼接向量对应的候选词性模板确定为所述目标词性模板的同义词性模板。6.根据权利要求4所述的同义短语获取方法,其特征在于,所述词性模板向量训练模型的输出包括所述目标词性模板上下文语料中位于所述目标词性模板的中心词上文的M个词对应的词向量,以及所述目标词性模板上下文语料中位于所述目标词性模板的中心词下文的M个词对应的词向量,M为大于或等于1的正整数,所述词性模板向量训练模型为skip-gram模型。7.一种同义词性模板获取装置,其特征在于,包括:样本预料获取模块,用于获取多个样本语料,每个所述样本语料包括多个词;样本词性模板生成模块,用于确定所述多个样本语料中每个词的词性,并生成与所述多个样本语料中每个词对应的样本词性模板,所述样本词性模板包括中心词、中心词的词性参数以及相邻词的词性参数,所述中心词为与所述样本词性模板对应的词,所述相邻词为位于所述中心词的上文且与所述中心词相邻的词,或所述相邻词为位于所述中心词的下文且与所述中心词相邻的词;目标词性模板确定模块,用于在所述多个样本语料中确定目标语料,在多个样本...
【专利技术属性】
技术研发人员:潘晓彤,刘作鹏,
申请(专利权)人:北京小米智能科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。