多模型联合学习的问题匹配方法及系统技术方案

技术编号:25637186 阅读:16 留言:0更新日期:2020-09-15 21:29
本发明专利技术实施例提供一种多模型联合学习的问题匹配方法。该方法包括:建立基于编码的第一模型;建立基于交互的第二模型;建立第三模型,所述第三模型包括编码器、交互层、融合单元和分类器,其中,所述第三模型的编码器、交互层和分类器与所述第二模型的编码器、交互层和分类器相同且共享参数,所述融合单元对分别来自所述编码器和所述交互层的输出进行融合,融合时以所述交互层的输出为主,以所述编码器的输出为辅;对所述第一模型、所述第二模型、所述第三模型进行联合学习;利用学习后的所述第三模型对问题对进行匹配度预测。本发明专利技术实施例还提供一种多模型联合学习的问题匹配系统。本发明专利技术实施例提高预测准确度的同时,保持预测速度。

【技术实现步骤摘要】
多模型联合学习的问题匹配方法及系统
本专利技术涉及问题匹配领域,尤其涉及一种多模型联合学习的问题匹配方法及系统。
技术介绍
问题匹配是基于检索的问答系统中的一项基本任务,也被称为语义匹配任务或释义识别任务,该任务的目的是从现有数据库中搜索意图与输入问题相似的问题。一般的,给定一对句子,要求问题匹配模型判断两个句子是否表达相同的含义,输出匹配或不匹配的概率。例如,输入问句一:“怎么样才可以提高信用额度呀”和问句二:“信用额度要怎样才可以增加”,问题匹配模型需要判断两个问题是否具有相同的含义,如果有相同的含义,则可以给两个问题回复相同的答案。因此,在基于检索的问答系统中,如果在问答库中存在和用户问题相匹配的问题时,就可以返回该问题答案来回答用户问题。根据是否使用交叉句子特征,一般可以将问题匹配模型分为两类:(1)基于编码的模型,它直接通过编码获得的句子向量计算句子对的相似度。这种类型的模型通常比较简单,而且容易将其推广到其它自然语言处理任务中。(2)基于交互的模型,该类模型在句子编码向量的基础上,考虑了单词对齐和句子对之间的交互。相比于基于编码的模型,基于交互的模型通常表现出更好的准确度。但是,为了获得更好的性能,基于交互的模型通常包含多个对齐层以维持其中间状态来逐渐完善其预测准确度,但是这些较深的模型结构通常更难训练,而且预测速度较慢,难以在真实场景中应用。在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:当前准确的较高的模型通常是基于交互的模型,其通常包含多个对齐层,模型较为复杂,预测速度较慢。由于实际应用中对模型响应速度要求较高,常见的解决办法通常是使用简单的模型,通过牺牲准确度来提高模型预测速度。
技术实现思路
为了至少解决现有技术中基于交互的模型预测速度较慢,难以在真实场景中使用。第一方面,本专利技术实施例提供一种多模型联合学习的问题匹配方法,包括:建立基于编码的第一模型,所述第一模型包括编码器和分类器;建立基于交互的第二模型,所述第二模型包括编码器、交互层和分类器,其中所述交互层使用单层的多头注意力机制对句子对进行交互,所述第二模型的编码器和分类器与所述第一模型的编码器和分类器相同且共享参数;建立第三模型,所述第三模型包括编码器、交互层、融合单元和分类器,其中,所述第三模型的编码器、交互层和分类器与所述第二模型的编码器、交互层和分类器相同且共享参数,所述融合单元对分别来自所述编码器和所述交互层的输出进行融合,融合时以所述交互层的输出为主,以所述编码器的输出为辅;对所述第一模型、所述第二模型、所述第三模型进行联合学习;利用学习后的所述第三模型对问题对进行匹配度预测。第二方面,本专利技术实施例提供一种多模型联合学习的问题匹配系统,包括:编码模型建立程序模块,用于建立基于编码的第一模型,所述第一模型包括编码器和分类器;交互模型建立程序模块,用于建立基于交互的第二模型,所述第二模型包括编码器、交互层和分类器,其中所述交互层使用单层的多头注意力机制对句子对进行交互,所述第二模型的编码器和分类器与所述第一模型的编码器和分类器相同且共享参数;编码交互模型建立程序模块,用于建立第三模型,所述第三模型包括编码器、交互层、融合单元和分类器,其中,所述第三模型的编码器、交互层和分类器与所述第二模型的编码器、交互层和分类器相同且共享参数,所述融合单元对分别来自所述编码器和所述交互层的输出进行融合,融合时以所述交互层的输出为主,以所述编码器的输出为辅;联合学习程序模块,用于对所述第一模型、所述第二模型、所述第三模型进行联合学习;匹配预测程序模块,用于利用学习后的所述第三模型对问题对进行匹配度预测。第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的多模型联合学习的问题匹配方法的步骤。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的多模型联合学习的问题匹配方法的步骤。本专利技术实施例的有益效果在于:基于多模型联合学习的问题匹配模型通过将基于编码的模型、基于交互的模型和基于编码交互融合的模型进行联合学习,共享相同的编码器、交互层和最后输出时的两层前馈神经网络,来学习一个更为泛化的文本表示,帮助模型更好的理解文本,从而提高匹配模型的泛化能力和准确度。而且,联合学习可以有效的避免模型过拟合。由于使用的基于交互的问题匹配模型是最简单的单层交互模型,而且融合方法也没有使用复杂的网络结构,因此该模型可以在提高预测准确度的同时,预测速度与仅进行简单交互的基于交互的模型基本保持相同。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例提供的一种多模型联合学习的问题匹配方法的流程图;图2是本专利技术一实施例提供的一种多模型联合学习的问题匹配方法的基于多模型融合的问题匹配模型示意图;图3是本专利技术一实施例提供的一种多模型联合学习的问题匹配方法的多头注意力机制示意图;图4是本专利技术一实施例提供的一种多模型联合学习的问题匹配系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示为本专利技术一实施例提供的一种多模型联合学习的问题匹配方法的流程图,包括如下步骤:S11:建立基于编码的第一模型,所述第一模型包括编码器和分类器;S12:建立基于交互的第二模型,所述第二模型包括编码器、交互层和分类器,其中所述交互层使用单层的多头注意力机制对句子对进行交互,所述第二模型的编码器和分类器与所述第一模型的编码器和分类器相同且共享参数;S13:建立第三模型,所述第三模型包括编码器、交互层、融合单元和分类器,其中,所述第三模型的编码器、交互层和分类器与所述第二模型的编码器、交互层和分类器相同且共享参数,所述融合单元对分别来自所述编码器和所述交互层的输出进行融合,融合时以所述交互层的输出为主,以所述编码器的输出为辅;S14:对所述第一模型、所述第二模型、所述第三模型进行联合学习;S15:利用学习后的所述第三模型对问题对进行匹配度预测。在本实施方式中,本方法的基于多模型联合学习的问题匹配模型通过本文档来自技高网
...

【技术保护点】
1.一种多模型联合学习的问题匹配方法,包括:/n建立基于编码的第一模型,所述第一模型包括编码器和分类器;/n建立基于交互的第二模型,所述第二模型包括编码器、交互层和分类器,其中所述交互层使用单层的多头注意力机制对句子对进行交互,所述第二模型的编码器和分类器与所述第一模型的编码器和分类器相同且共享参数;/n建立第三模型,所述第三模型包括编码器、交互层、融合单元和分类器,其中,所述第三模型的编码器、交互层和分类器与所述第二模型的编码器、交互层和分类器相同且共享参数,所述融合单元对分别来自所述编码器和所述交互层的输出进行融合,融合时以所述交互层的输出为主,以所述编码器的输出为辅;/n对所述第一模型、所述第二模型、所述第三模型进行联合学习;/n利用学习后的所述第三模型对问题对进行匹配度预测。/n

【技术特征摘要】
1.一种多模型联合学习的问题匹配方法,包括:
建立基于编码的第一模型,所述第一模型包括编码器和分类器;
建立基于交互的第二模型,所述第二模型包括编码器、交互层和分类器,其中所述交互层使用单层的多头注意力机制对句子对进行交互,所述第二模型的编码器和分类器与所述第一模型的编码器和分类器相同且共享参数;
建立第三模型,所述第三模型包括编码器、交互层、融合单元和分类器,其中,所述第三模型的编码器、交互层和分类器与所述第二模型的编码器、交互层和分类器相同且共享参数,所述融合单元对分别来自所述编码器和所述交互层的输出进行融合,融合时以所述交互层的输出为主,以所述编码器的输出为辅;
对所述第一模型、所述第二模型、所述第三模型进行联合学习;
利用学习后的所述第三模型对问题对进行匹配度预测。


2.根据权利要求1所述的方法,其中,所述利用学习后的所述第三模型对问题对进行匹配度预测包括:
通过所述编码器确定所述问题对中问题语句的编码向量;
将所述问题对中问题语句的编码向量输入至所述交互层,确定所述问题对中问题语句的交互向量;
基于所述融合单元对所述问题对中问题语句的第一权重的编码向量以及第二权重的交互向量进行融合,生成所述问题对中问题语句的融合向量,其中,第二权重大于第一权重;
将所述问题对中问题语句的融合向量输入至所述分类器,确定所述问题对中问题语句的匹配度。


3.根据权利要求2所述的方法,其中,所述问题对包括第一问题语句和第二问题语句,其中,所述第一问题语句来自用户的输入,所述第二问题语句来自问答系统的问答题库;
当所述匹配度达到预设阈值时,从所述问答题库获取所述第二问题语句的回复答案,对用户输入的所述第一问题语句进行反馈。


4.根据权利要求2所述的方法,其中,在所述基于所述融合单元对所述问题对中问题语句的第一权重的编码向量以及第二权重的交互向量进行融合之前,所述方法还包括:
对所述问题对中问题语句的编码向量进行非线性变换。


5.根据权利要求1所述的方法,其中,所述编码器包括基于卷积神经网络的编码器,所述分类器包括基于两层前馈神经网络的分类器。


6.一种多模型联合学习的问题匹配系统...

【专利技术属性】
技术研发人员:吴仁守缪庆亮俞凯
申请(专利权)人:苏州思必驰信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1