【技术实现步骤摘要】
一种语境集合与回复集合的匹配方法及装置
本申请涉及自然语言处理
,特别涉及一种语境集合与回复集合的匹配方法及装置。
技术介绍
随着智能化技术的发展,人机对话也受到越来越多的关注。人机对话的关键在于:终端依据给定的语境从回复候选集中自动选择最匹配的回复集合。因此,如何提高回复集合的选择可靠性成为问题。
技术实现思路
为解决上述技术问题,本申请实施例提供一种语境集合与回复集合的匹配方法及装置,以达到提高从回复候选集中选择回复集合的准确性的目的,技术方案如下:一种语境集合与回复集合的匹配方法,包括:对语境集合中各个句子中的各个语境单词分别进行编码,分别得到目标语境单词,所述目标语境单词至少包含有所述语境单词及所述语境单词的上下文信息;对回复集合中各个句子中的各个回复单词分别进行编码,分别得到目标回复单词,所述目标回复单词至少包含有所述回复单词及所述回复单词的上下文信息;基于所述语境集合中各个句子中的目标语境单词及所述回复集合中各个句子中的目标回复单词,得到所述语境集合中各个句子的匹配向量序列及所述回复集合中各个句子的匹配向量序列;基于所述语境集合中各个句子的匹配向量序列,整合得到第一整合语句向量,所述第一整合语句向量至少包含有表征所述语境集合中各个句子及其上下文信息的向量,及基于所述回复集合中各个句子的匹配向量序列,整合得到第二整合语句向量,所述第二整合语句向量至少包含有表征所述回复集合中各个句子及其上下文信息的向量;对所述第一整合语句向量和所述第二整合语句向量进行拼接,得到目标语句匹配向量;将所述目标语句匹配向量输入分类器,得到所述分类器输出的匹配度,作为所 ...
【技术保护点】
1.一种语境集合与回复集合的匹配方法,其特征在于,包括:对语境集合中各个句子中的各个语境单词分别进行编码,分别得到目标语境单词,所述目标语境单词至少包含有所述语境单词及所述语境单词的上下文信息;对回复集合中各个句子中的各个回复单词分别进行编码,分别得到目标回复单词,所述目标回复单词至少包含有所述回复单词及所述回复单词的上下文信息;基于所述语境集合中各个句子中的目标语境单词及所述回复集合中各个句子中的目标回复单词,得到所述语境集合中各个句子的匹配向量序列及所述回复集合中各个句子的匹配向量序列;基于所述语境集合中各个句子的匹配向量序列,整合得到第一整合语句向量,所述第一整合语句向量至少包含有表征所述语境集合中各个句子及其上下文信息的向量,及基于所述回复集合中各个句子的匹配向量序列,整合得到第二整合语句向量,所述第二整合语句向量至少包含有表征所述回复集合中各个句子及其上下文信息的向量;对所述第一整合语句向量和所述第二整合语句向量进行拼接,得到目标语句匹配向量;将所述目标语句匹配向量输入分类器,得到所述分类器输出的匹配度,作为所述语境集合与所述回复集合的匹配度。
【技术特征摘要】
1.一种语境集合与回复集合的匹配方法,其特征在于,包括:对语境集合中各个句子中的各个语境单词分别进行编码,分别得到目标语境单词,所述目标语境单词至少包含有所述语境单词及所述语境单词的上下文信息;对回复集合中各个句子中的各个回复单词分别进行编码,分别得到目标回复单词,所述目标回复单词至少包含有所述回复单词及所述回复单词的上下文信息;基于所述语境集合中各个句子中的目标语境单词及所述回复集合中各个句子中的目标回复单词,得到所述语境集合中各个句子的匹配向量序列及所述回复集合中各个句子的匹配向量序列;基于所述语境集合中各个句子的匹配向量序列,整合得到第一整合语句向量,所述第一整合语句向量至少包含有表征所述语境集合中各个句子及其上下文信息的向量,及基于所述回复集合中各个句子的匹配向量序列,整合得到第二整合语句向量,所述第二整合语句向量至少包含有表征所述回复集合中各个句子及其上下文信息的向量;对所述第一整合语句向量和所述第二整合语句向量进行拼接,得到目标语句匹配向量;将所述目标语句匹配向量输入分类器,得到所述分类器输出的匹配度,作为所述语境集合与所述回复集合的匹配度。2.根据权利要求1所述的方法,其特征在于,所述基于所述语境集合中各个句子中的目标语境单词及所述回复集合中各个句子中的目标回复单词,得到所述语境集合中各个句子的匹配向量序列及所述回复集合中各个句子的匹配向量序列,包括:基于多个所述目标语境单词,生成所述语境集合的全局向量序列,及基于多个所述目标回复单词,生成所述回复集合的全局向量序列;基于所述语境集合的全局向量序列及所述回复集合的全局向量序列,计算所述语境集合的全局向量序列中的各个词向量与所述回复集合的全局向量序列中的各个词向量之间的距离,作为软对齐值;利用所述软对齐值及所述回复集合的全局向量序列,分别计算表征所述语境集合的全局向量序列中各个词向量与所述回复集回复集合的全局向量序列中词向量之间关系的向量,作为语境对偶向量;利用所述软对齐值及所述语境集合的全局向量序列,分别计算表征所述回复集合的全局向量序列中各个词向量与所述语境集合的全局向量序列中词向量之间关系的向量,作为回复对偶向量;基于所述语境集合的全局向量序列及各个所述语境对偶向量,得到所述语境集合中各个句子的匹配向量序列;基于所述回复集合的全局向量序列及各个所述回复对偶向量,得到所述回复集合中各个句子的匹配向量序列。3.根据权利要求2所述的方法,其特征在于,所述基于所述语境集合的全局向量序列及各个所述语境对偶向量,得到所述语境集合中各个句子的匹配向量序列,包括:基于各个所述语境对偶向量,生成全局语境对偶向量序列;将所述语境集合的全局向量序列与所述全局语境对偶向量序列之差作为第一向量序列差;将所述语境集合的全局向量序列与所述全局语境对偶向量序列之乘作为第一向量序列乘;将所述语境集合的全局向量序列、所述全局语境对偶向量序列、所述第一向量序列差及所述第一向量序列乘拼接,得到语境全局向量序列;将所述语境全局向量序列拆分为所述语境集合中各个句子对应的向量序列,作为所述语境集合中各个句子的匹配向量序列;所述基于所述回复集合的全局向量序列及各个所述回复对偶向量,得到所述回复集合中各个句子的匹配向量序列,包括:基于各个所述回复对偶向量,生成全局回复对偶向量序列;将所述回复集合的全局向量序列与所述全局回复对偶向量序列之差作为第二向量序列差;将所述回复集合的全局向量序列与所述全局回复对偶向量序列之乘作为第二向量序列乘;将所述回复集合的全局向量序列、所述全局回复对偶向量序列、所述第二向量序列差及所述第二向量序列乘拼接,得到回复全局向量序列;将所述回复全局向量序列拆分为所述回复集合中各个句子对应的向量序列,作为所述回复集合中各个句子的匹配向量序列。4.根据权利要求3所述的方法,其特征在于,所述基于所述语境集合中各个句子的匹配向量序列,整合得到第一整合语句向量,包括:分别对所述语境集合中各个句子的匹配向量序列中各个词向量进行编码,编码结果组成的集合作为第一编码结果集合,所述第一编码结果集合中至少包括有所述语境集合中句子的匹配向量中的各个词向量及其上下文信息;分别对各个所述第一编码结果集合进行池化,池化的结果作为第一池化结果;分别对各个所述第一池化结果进行编码,编码结果组成的集合作为第二编码结果集合,所述第二编码结果集合至少包含有所述第一池化结果及其上下文信息;对所述第二编码结果集合进行池化,池化的结果作为第一整合语句向量。5.根据权利要求3所述的方法,其特征在于,所述基于所述回复集合中各个句子的匹配向量序列,整合得到第二整合语句向量,包括:分别对所述回复集合中各个句子的匹配向量序列中各个词向量进行编码,编码结果组成的集合作为第三编码结果集合,所述第三编码结果集合中至少包括有所述回复集合中句子的匹配向量中各个词向量及其上下文信息;分别对各个所述第三编码结果集合进行池化,池化的结果作为第二池化结果;分别对各个所述第二池化结果进行编码,编码结果组成的集合作为第四编码结果集合,所述第四编码结果集合至少包含有所述第二池化结果及其上下文信息;对所述第四编码结果集合进行池化,池化的结果作为第二整合语句向量;...
【专利技术属性】
技术研发人员:顾佳宸,凌震华,刘权,
申请(专利权)人:中国科学技术大学,
类型:发明
国别省市:安徽,34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。