使用卷积神经网络的对话相关性建模制造技术

技术编号:17048034 阅读:45 留言:0更新日期:2018-01-17 17:47
本公开的非限制性示例描述了一种卷积神经网络(CNN)架构,该架构被配置成评估查询-响应配对的对话相关性。提供了一种CNN模型。该CNN模型包括:第一分支、第二分支、以及多层感知器(MLP)层。第一分支包括用于处理查询的多个采用动态池化的卷积层。第二分支包括用于处理针对所述查询的候选响应的多个采用动态池化的卷积层。MLP层被配置成基于对话相关性来对查询-响应配对进行排名。使用CNN模型来并行地处理查询和候选响应。使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来生成所述查询-响应配对的配对级排名。一个或多个查询-响应配对的排名可被输出。还描述了其他示例。

Dialogue correlation modeling using convolution neural networks

The open non restrictive example describes a convolution neural network (CNN) architecture that is configured to assess the dialogue relevance of the query response pairing. A CNN model is provided. The CNN model includes the first branch, the second branch, and the multilayer perceptron (MLP) layer. The first branch includes a number of dynamically pooled convolution layers for processing queries. The second branch includes a number of dynamically pooled convolution layers for processing candidate responses for the query. The MLP layer is configured to rank the query response pairing based on the dialogue correlation. The CNN model is used to process queries and candidate responses in parallel. Based on the MLP layer, the pairing ranking of the query response pairs is generated based on the first input and the second input from the second branches transferred from the first branch. The ranking of one or more queries - response pairs can be output. Other examples are also described.

【技术实现步骤摘要】
使用卷积神经网络的对话相关性建模背景为了增加用户在对话中的活动,一般的对话服务需要提供对话相关响应,而不是词法相关响应。深度神经网络可被用来在维度上对查询的相关性建模。作为一个示例,卷积神经网络(CNN)模型可被用于提供对训练数据的深度学习以改善系统响应查询的能力。CNN学习语义特征并假设那些特征不被限制于它们被呈现的绝对位置。当涉及自然语言处理时,CNN模型的各特征可被应用以对与诸如词性标注(POS)、命名实体识别(NER)等之类的输入有关的不同方面进行评估。CNN模型通常由一堆不同的层形成,这些不同的层通过可微分函数将输入量转换成输出量(例如,保持类别分数)。虽然CNN可提供针对数据的词法评估的深度学习,但是要从大量的对话数据中学习深度的语义知识并且将学习到的知识用于对于查询的自动响应选择是具有挑战性的。例如,考虑查询“whatistheweatherlikeifIwanttogoonapicnicinautumn?”。典型的CNN模型在评估该查询的语义特征时可将该查询拆分成(多个部分)诸如:“whatisthe”、“theweatherlike”、“weatherlikeif”、本文档来自技高网...
使用卷积神经网络的对话相关性建模

【技术保护点】
一种方法,包括:提供卷积神经网络(CNN)模型,所述CNN模型被配置成评估查询-响应配对的对话相关性,其中所述CNN模型包括:第一分支,所述第一分支包括用于处理查询的多个采用动态池化的卷积层,第二分支,所述第二分支包括用于处理针对所述查询的候选响应的多个采用动态池化的卷积层,以及多层感知器(MLP)层,所述MLP层被配置成基于对话相关性来对查询-响应配对进行排名;并行地使用所述CNN模型来处理所述查询和所述候选响应;使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来生成所述查询-响应配对的配对级排名;以及输出一个或多个查询-响应配对的排名。

【技术特征摘要】
1.一种方法,包括:提供卷积神经网络(CNN)模型,所述CNN模型被配置成评估查询-响应配对的对话相关性,其中所述CNN模型包括:第一分支,所述第一分支包括用于处理查询的多个采用动态池化的卷积层,第二分支,所述第二分支包括用于处理针对所述查询的候选响应的多个采用动态池化的卷积层,以及多层感知器(MLP)层,所述MLP层被配置成基于对话相关性来对查询-响应配对进行排名;并行地使用所述CNN模型来处理所述查询和所述候选响应;使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来生成所述查询-响应配对的配对级排名;以及输出一个或多个查询-响应配对的排名。2.如权利要求1所述的方法,其特征在于,用于处理所述查询的动态池化包括在所述第一分支中执行动态池化处理操作,所述动态池化处理操作包括:将所述查询的句子表示划分成至少两个片段,评估所述至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理。3.如权利要求2所述的方法,其特征在于,所述第一分支进一步包括多个采用k个最大池化的卷积层,并且所述至少两个片段的被传递的非冗余短文本部分被进一步使用所述多个采用k个最大池化的卷积层来评估以作为所述MLP层的第一输入来传递与所述至少两个片段中的每一个相关联的若干个短文本部分。4.如权利要求3所述的方法,其特征在于,被确定作为所述MLP层的输入的所述若干个短文本部分是基于针对k个最大池化的超参数集来确定的。5.如权利要求2所述的方法,其特征在于,所述第一分支进一步包括生成所述查询的句子表示的单词嵌入的单词嵌入层,其中所述单词嵌入包括多个特征向量,每一个特征向量被映射到所述查询的一个单词,所述多个特征向量被用作为用于建模的特征输入,并且其中所述第一分支执行处理以通过对所述特征输入建模以使用所述多个卷积层来抽象所述句子表示的短文本部分的含意来评估所述查询的含意。6.如权利要求1所述的方法,其特征在于,用于处理所述候选响应的动态池化包括在所述第二分支中执行动态池化处理操作,所述动态池化处理操作包括:将所述候选响应的句子表示划分成至少两个片段,评估所述至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进一步处理。7.如权利要求6所述的方法,其特征在于,所述第二分支进一步包括多个采用k个最大池化的卷积层,并且所述候选响应的所述至少两个片段的被传递的非冗余短文本部分被进一步使用所述多个采用k个最大池化的卷积层来评估以作为所述MLP层的第二输入来传递与所述候选响应的至少两个片段中的每一个相关联的若干个短文本部分。8.如权利要求7所述的方法,其特征在于,被确定作为所述MLP层的输入的所述若干个短文本部分是基于针对k个最大池化的超参数集来确定的。9.如权利要求6所述的方法,其特征在于,所述第二分支进一步包括生成所述候选查询的句子表示的单词嵌入的单词嵌入层,其中所述单词嵌入包括多个特征向量,每一个特征向量被映射到所述查询的一个单词,所述多个特征向量被用作为用于建模的特征输入,并且其中所述第二分支执行处理以通过对所述特征输入建模以使用所述多个卷积层来抽象所述候选响应的句子表示的短文本部分的含意来评估所述候选响应的含意。10.一种系统,包括:至少一个处理器;以及与所述至少一个处理器操作地连接的存储器,所述存储器存储计算机可执行指令,所述计算机可执行指令在由所述至少一个处理器执行时致使所述至少一个处理器执行一种方法,所述方法包括:提供卷积神经网络(CNN)模型,所述CNN模型被配置成评估查询-响应配对的对话相关性,其中所述CNN模型包括:第一分支,所述第一分支包括用于处理查询的多个采用动态池化的卷积层,第二分支,所述第二分支包括用于处理针对所述查询的候选响应的多个采用动态池化的卷积层,以及多层感知器(MLP)层,所述MLP层被配置成基于对话相关性来对查询-响应配对进行排名;并行地使用所述CNN模型来处理所述查询和所述候选响应;使用所述MLP层基于传递自所述第一分支的第一输入和传递自所述第二分支的第二输入来生成所述查询-响应配对的配对级排名;以及输出一个或多个查询-响应配对的排名。11.如权利要求10所述的系统,其特征在于,用于处理所述查询的动态池化包括在所述第一分支中执行动态池化处理操作,所述动态池化处理操作包括:将所述查询的句子表示划分成至少两个片段,评估所述至少两个片段之间各个短文本部分中的冗余文本信息,以及传递所述至少两个片段的非冗余短文本部分供进...

【专利技术属性】
技术研发人员:武博文王宝勋彭爽曾敏周力
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1