同义短语获取方法及装置制造方法及图纸

技术编号:22330345 阅读:57 留言:0更新日期:2019-10-19 12:19
本公开是关于同义短语获取方法及装置。该方法包括:获取多个样本语料,每个样本语料包括多个词;对多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;在多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,目标短语为粘接后的目标语料中的短语,目标短语上下文语料包括目标语料中目标短语上下文的词;根据目标短语上下文语料、目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与目标短语之间的相似度,并将相似度满足预设要求的一个或多个短语确定为目标短语的同义短语。该技术方案能够提高所确定目标短语的同义短语的准确性,改善了用户体验。

【技术实现步骤摘要】
同义短语获取方法及装置
本公开涉及数据处理
,尤其涉及同义短语获取方法及装置。
技术介绍
同义词是指与给定词发音不同而意义相同或基本相同的词语,为给定词找出相应的同义词集是自然语言理解的一个重要课题,其在自然语言理解领域发挥着关键性的作用,例如通过替换用户提出的问题中的同义词,可以将用户提出的问题与问答数据库中的事先准备好的预设问题关联起来,并进一步根据该预设问题获得相应的答案,达到根据该答案自动回答用户提出的问题的目的
技术实现思路
为克服相关技术中存在的问题,本公开的实施例提供一种同义短语获取方法及装置。技术方案如下:根据本公开的实施例的第一方面,提供一种同义短语获取方法,包括:获取多个样本语料,每个样本语料包括多个词;对多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;在多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,目标短语为粘接后的目标语料中的短语,目标短语上下文语料包括目标语料中目标短语上下文的词;根据目标短语上下文语料、目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与目标短语之间的相似度,并将相似度满足预设要求的一个或多个短语确定为目标短语的同义短语。本公开的实施例提供的技术方案中,通过获取多个样本语料,并对多个样本语料进行粘接,每个粘接后的样本语料包括多个由相邻N个词粘接而成的短语,在多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,根据目标短语上下文语料、目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与目标短语之间的相似度,并将相似度满足预设要求的一个或多个短语确定为目标短语的同义短语。由于在上述步骤中,粘接后的样本语料中的短语是由相邻N个词粘接而成的,而目标短语也是由相邻N个词粘接而成的,因此所确定的相似度满足预设要求的一个或多个短语不但在自身语义上与目标短语较为接近,并且由于短语的含义较单个词更为复杂,既短语能够反映词与词之间的上下文关系,因此该一个或多个短语能够较为准确的体现目标短语在目标语料中的语境,从而提高了确定目标短语的同义短语的准确性,改善了用户体验。在一个实施例中,根据目标短语上下文语料、目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与目标短语之间的相似度,并将相似度满足预设要求的一个或多个短语确定为目标短语的同义短语,包括:对多个粘接后的样本语料以及目标短语上下文语料进行编码,每个编码后的样本语料包括该样本语料中每个短语对应的短语向量,编码后的目标短语上下文语料包括目标短语上下文语料中每个词的词向量;根据编码后的目标短语上下文语料生成训练输出参数;将目标短语对应的短语向量作为文本向量训练模型的输入,将训练输出参数作为文本向量训练模型的输出,对粘接后的每个样本语料中每个短语对应的短语向量进行训练;获取训练后的每个短语对应的短语向量与目标短语对应的短语向量之间的相似度,并将相似度满足预设要求的一个或多个短语向量对应的短语确定为目标短语的同义短语。在一个实施例中,对多个粘接后的样本语料以及目标短语上下文语料进行编码,包括:对多个粘接后的样本语料以及目标短语上下文语料进行独热one-hot编码。在一个实施例中,训练输出参数包括目标语料中目标短语上文与目标短语相邻的M个词对应的词向量,以及目标语料中目标短语下文与目标短语相邻的M个词对应的词向量,M≥1,文本向量训练模型为skip-gram模型。在一个实施例中,训练输出参数包括目标上文信息对应的向量与目标下文信息对应的向量,目标上文信息包括目标语料中目标短语上文的所有词,目标下文信息包括目标语料中目标短语下文的所有词,文本向量训练模型为编码-解码encoder-decoder模型。根据本公开的实施例的第二方面,提供一种同义短语获取装置,包括:样本语料获取模块,用于获取多个样本语料,每个样本语料包括多个词;粘接模块,用于对多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;目标语料确定模块,用于在多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,目标短语为粘接后的目标语料中的短语,目标短语上下文语料包括目标语料中目标短语上下文的词;同义短语确定模块,用于根据目标短语上下文语料、目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与目标短语之间的相似度,并将相似度满足预设要求的一个或多个短语确定为目标短语的同义短语。在一个实施例中,同义短语确定模块,包括:编码子模块,用于对多个粘接后的样本语料以及目标短语上下文语料进行编码,每个编码后的样本语料包括该样本语料中每个短语对应的短语向量,编码后的目标短语上下文语料包括目标短语上下文语料中每个词的词向量;训练输出参数生成子模块,用于根据编码后的目标短语上下文语料生成训练输出参数;短语向量训练子模块,用于将目标短语对应的短语向量作为文本向量训练模型的输入,将训练输出参数作为文本向量训练模型的输出,对粘接后的每个样本语料中每个短语对应的短语向量进行训练;同义短语确定子模块,用于获取训练后的每个短语对应的短语向量与目标短语对应的短语向量之间的相似度,并将相似度满足预设要求的一个或多个短语向量对应的短语确定为目标短语的同义短语。在一个实施例中,编码子模块,包括:编码单元,用于对多个粘接后的样本语料以及目标短语上下文语料进行独热one-hot编码。在一个实施例中,训练输出参数包括目标语料中目标短语上文与目标短语相邻的M个词对应的词向量,以及目标语料中目标短语下文与目标短语相邻的M个词对应的词向量,M≥1,文本向量训练模型为skip-gram模型。在一个实施例中,训练输出参数包括目标上文信息对应的向量与目标下文信息对应的向量,目标上文信息包括目标语料中目标短语上文的所有词,目标下文信息包括目标语料中目标短语下文的所有词,文本向量训练模型为编码-解码encoder-decoder模型。根据本公开的实施例的第三方面,提供一种同义短语获取装置,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:获取多个样本语料,每个样本语料包括多个词;对多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;在多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,目标短语为粘接后的目标语料中的短语,目标短语上下文语料包括目标语料中目标短语上下文的词;根据目标短语上下文语料、目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与目标短语之间的相似度,并将相似度满足预设要求的一个或多个短语确定为目标短语的同义短语。根据本公开的实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现本公开的实施例的第一方面任一项方法的步骤。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1a是根据一示例性实施例示出的同义短语获取方法的流本文档来自技高网...

【技术保护点】
1.一种同义短语获取方法,其特征在于,包括:获取多个样本语料,每个所述样本语料包括多个词;对所述多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;在所述多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,所述目标短语为粘接后的目标语料中的短语,所述目标短语上下文语料包括所述目标语料中所述目标短语上下文的词;根据所述目标短语上下文语料、所述目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与所述目标短语之间的相似度,并将所述相似度满足预设要求的一个或多个短语确定为所述目标短语的同义短语。

【技术特征摘要】
1.一种同义短语获取方法,其特征在于,包括:获取多个样本语料,每个所述样本语料包括多个词;对所述多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;在所述多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,所述目标短语为粘接后的目标语料中的短语,所述目标短语上下文语料包括所述目标语料中所述目标短语上下文的词;根据所述目标短语上下文语料、所述目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与所述目标短语之间的相似度,并将所述相似度满足预设要求的一个或多个短语确定为所述目标短语的同义短语。2.根据权利要求1所述的同义短语获取方法,其特征在于,所述根据所述目标短语上下文语料、所述目标短语以及多个粘接后的样本语料获取多个粘接后的样本语料中每个短语与所述目标短语之间的相似度,并将所述相似度满足预设要求的一个或多个短语确定为所述目标短语的同义短语,包括:对所述多个粘接后的样本语料以及所述目标短语上下文语料进行编码,每个编码后的样本语料包括该样本语料中每个短语对应的短语向量,编码后的目标短语上下文语料包括所述目标短语上下文语料中每个词的词向量;根据所述编码后的目标短语上下文语料生成训练输出参数;将所述目标短语对应的短语向量作为文本向量训练模型的输入,将所述训练输出参数作为所述文本向量训练模型的输出,对粘接后的每个样本语料中每个短语对应的短语向量进行训练;获取训练后的每个短语对应的短语向量与所述目标短语对应的短语向量之间的相似度,并将所述相似度满足预设要求的一个或多个短语向量对应的短语确定为所述目标短语的同义短语。3.根据权利要求2所述的同义短语获取方法,其特征在于,所述对所述多个粘接后的样本语料以及所述目标短语上下文语料进行编码,包括:对所述多个粘接后的样本语料以及所述目标短语上下文语料进行独热one-hot编码。4.根据权利要求2或3所述的同义短语获取方法,其特征在于,所述训练输出参数包括所述目标语料中所述目标短语上文与所述目标短语相邻的M个词对应的词向量,以及所述目标语料中所述目标短语下文与所述目标短语相邻的M个词对应的词向量,M≥1,所述文本向量训练模型为skip-gram模型。5.根据权利要求2或3所述的同义短语获取方法,其特征在于,所述训练输出参数包括目标上文信息对应的向量与目标下文信息对应的向量,所述目标上文信息包括所述目标语料中所述目标短语上文的所有词,所述目标下文信息包括所述目标语料中所述目标短语下文的所有词,所述文本向量训练模型为编码-解码encoder-decoder模型。6.一种同义短语获取装置,其特征在于,包括:样本语料获取模块,用于获取多个样本语料,每个所述样本语料包括多个词;粘接模块,用于对所述多个样本语料进行粘接,每个粘接后的样本语料包括多个短语,每个短语由相邻N个词粘接而成,N>1;目标语料确定模块,用于在所述多个样本语料中确定目标语料,并确定目标短语与目标短语上下文语料,所述目标短语为粘接后的目标语料中的短语...

【专利技术属性】
技术研发人员:潘晓彤刘作鹏
申请(专利权)人:北京小米智能科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1