【技术实现步骤摘要】
同义短语获取方法及装置
本公开涉及数据处理
,尤其涉及同义短语获取方法及装置。
技术介绍
同义词是指与给定词发音不同而意义相同或基本相同的词语,为给定词找出相应的同义词集是自然语言理解的一个重要课题,其在自然语言理解领域发挥着关键性的作用,例如通过替换用户提出的问题中的同义词,可以将用户提出的问题与问答数据库中的事先准备好的预设问题关联起来,并进一步根据该预设问题获得相应的答案,达到根据该答案自动回答用户提出的问题的目的
技术实现思路
为克服相关技术中存在的问题,本公开的实施例提供一种同义短语获取方法及装置。技术方案如下:根据本公开的实施例的第一方面,提供一种同义短语获取方法,包括:获取多个样本语料,每个样本语料包括多个词;对多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;在多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,目标短语为粘接后的目标语料中的短语,目标短语上下文语料包括目标语料中目标短语上下文的词;根据目标短语上下文语料、目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与目标短语之间的相似度,并将相似度满足预设要求的一个或多个短语确定为目标短语的同义短语。本公开的实施例提供的技术方案中,通过获取多个样本语料,并对多个样本语料进行粘接,每个粘接后的样本语料包括多个由相邻N个词粘接而成的短语,在多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,根据目标短语上下文语料、目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与目标短语之间的相似度, ...
【技术保护点】
1.一种同义短语获取方法,其特征在于,包括:获取多个样本语料,每个所述样本语料包括多个词;对所述多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;在所述多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,所述目标短语为粘接后的目标语料中的短语,所述目标短语上下文语料包括所述目标语料中所述目标短语上下文的词;根据所述目标短语上下文语料、所述目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与所述目标短语之间的相似度,并将所述相似度满足预设要求的一个或多个短语确定为所述目标短语的同义短语。
【技术特征摘要】
1.一种同义短语获取方法,其特征在于,包括:获取多个样本语料,每个所述样本语料包括多个词;对所述多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;在所述多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,所述目标短语为粘接后的目标语料中的短语,所述目标短语上下文语料包括所述目标语料中所述目标短语上下文的词;根据所述目标短语上下文语料、所述目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与所述目标短语之间的相似度,并将所述相似度满足预设要求的一个或多个短语确定为所述目标短语的同义短语。2.根据权利要求1所述的同义短语获取方法,其特征在于,所述根据所述目标短语上下文语料、所述目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与所述目标短语之间的相似度,并将所述相似度满足预设要求的一个或多个短语确定为所述目标短语的同义短语,包括:对所述多个粘接后的样本语料以及所述目标短语上下文语料进行编码,每个编码后的样本语料包括该样本语料中每个短语对应的短语向量,编码后的目标短语上下文语料包括所述目标短语上下文语料中每个词的词向量;根据所述编码后的目标短语上下文语料生成训练输出参数;将所述目标短语对应的短语向量作为文本向量训练模型的输入,将所述训练输出参数作为所述文本向量训练模型的输出,对粘接后的每个样本语料中每个短语对应的短语向量进行训练;获取训练后的每个短语对应的短语向量与所述目标短语对应的短语向量之间的相似度,并将所述相似度满足预设要求的一个或多个短语向量对应的短语确定为所述目标短语的同义短语。3.根据权利要求2所述的同义短语获取方法,其特征在于,所述对所述多个粘接后的样本语料以及所述目标短语上下文语料进行编码,包括:对所述多个粘接后的样本语料以及所述目标短语上下文语料进行独热one-hot编码。4.根据权利要求2或3所述的同义短语获取方法,其特征在于,所述训练输出参数包括所述目标语料中所述目标短语上文与所述目标短语相邻的M个词对应的词向量,以及所述目标语料中所述目标短语下文与所述目标短语相邻的M个词对应的词向量,M≥1,所述文本向量训练模型为skip-gram模型。5.根据权利要求2或3所述的同义短语获取方法,其特征在于,所述训练输出参数包括目标上文信息对应的向量与目标下文信息对应的向量,所述目标上文信息包括所述目标语料中所述目标短语上文的所有词,所述目标下文信息包括所述目标语料中所述目标短语下文的所有词,所述文本向量训练模型为编码-解码encoder-decoder模型。6.一种同义短语获取装置,其特征在于,包括:样本语料获取模块,用于获取多个样本语料,每个所述样本语料包括多个词;粘接模块,用于对所述多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;目标语料确定模块,用于在所述多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,所述目标短语为粘接后的目标语料中的短语...
【专利技术属性】
技术研发人员:潘晓彤,刘作鹏,
申请(专利权)人:北京小米智能科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。