本发明专利技术提供了一种知识蒸馏的文本相似度匹配模型压缩方法及系统,所述方法执行以下步骤:获取训练数据;根据训练数据,采用第一深度文本匹配算法,确定第一训练模型;将第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定第二训练模型,其中第一深度文本匹配算法的计算量大于第二深度文本匹配算法的计算量;采用所述第二训练模型对文本相似度匹配结果进行预测。根据本发明专利技术的方法,采用基于知识蒸馏的文本匹配方法,将大模型的计算结果融合进入小模型的训练过程中,在采用第二训练模型在线上进行预测时,避免了运算速度出现下降,同时又利用了第一训练大模型的先验结果,可以提高预测的准确性。
A compression method and system of text similarity matching model based on knowledge distillation
【技术实现步骤摘要】
一种知识蒸馏的文本相似度匹配模型压缩方法及系统
本专利技术涉及文本匹配
,特别涉及一种知识蒸馏的文本相似度匹配模型压缩方法及系统。
技术介绍
目前在人机对话系统中的开放领域问答中,主流方案为检索模块与匹配模块结合的方案。目前主流的文本匹配方案的步骤是:步骤1:先通过检索模块,得到固定数量N(比如20)的候选结果;步骤2:通过深度文本匹配算法(比如基于长短时记忆的孪生网络),得到每条候选结果的分数;步骤3:取出步骤2中的候选分数,将分数最高的候选作为最终匹配结果。目前匹配模块的主流方案为深度学习的方法。为了达到更好的效果,深度学习的模型已经越来越复杂,计算量就越来越大。且由于检索模块得到的结果为N个,需要进行N次计算,因此,深度匹配算法在实际落地产品时,为了保证速度,仍然倾向于使用计算量较小的简单模型,计算速度成为了最大的瓶颈。
技术实现思路
本专利技术提供一种知识蒸馏的文本相似度匹配模型压缩方法及系统,用以避免运算速度出现下降,同时提高匹配结果的准确性。本专利技术提供了一种知识蒸馏的文本相似度匹配模型压缩方法,所述方法执行以下步骤:步骤1:获取训练数据;步骤2:根据所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;步骤4:采用所述第二训练模型对文本相似度匹配结果进行预测。进一步地,在所述步骤2中,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。进一步地,在所述步骤3中,所述第二深度学习模型包括基于长短时记忆的孪生网络。进一步地,所述步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,执行以下步骤:步骤S301:根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;步骤S302:计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵,以及真实标签和所述第二训练模型的第二预测结果的第二交叉熵;步骤S303:根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;步骤S304:根据所述加权交叉熵,更新所述第二训练模型的模型参数。进一步地,在所述步骤S302中,采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;其中,Lsoft为第一训练模型Mb的第一预测结果和第二训练模型Ms的第二预测结果的第一交叉熵,n为输出层的维度,yb为第一训练模型Mb的每条训练数据的输出概率,即最终的归一化指数函数的结果,y为第二训练模型Ms的预测结果;采用以下公式计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;其中,Lhard为真实标签和第二训练模型Ms的第二预测结果的第二交叉熵,yt为真实标签。进一步地,在所述步骤S303中,采用以下公式得到加权交叉熵;L=λLhard+(1-λ)Lsoft其中,L为加权交叉熵,λ为介于0到1之间的常数。本专利技术实施例提供的一种知识蒸馏的文本相似度匹配模型压缩方法,具有以下有益效果:采用基于知识蒸馏的文本匹配方法,将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中,这样在采用第二训练模型在线上进行预测时,避免了运算速度出现下降,同时又利用了第一训练大模型的先验结果,可以提高匹配结果的准确性。本专利技术还提供一种知识蒸馏的文本相似度匹配模型压缩系统,包括:获取模块,用于获取训练数据;第一确定模块,用于根据所述获取模块所获取的所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;第二确定模块,用于将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;预测模块,用于采用所述第二训练模型对文本相似度匹配结果进行预测。进一步地,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。进一步地,所述第二深度学习模型包括基于长短时记忆的孪生网络。进一步地,所述第二确定模块包括:第一计算单元,用于根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;第二计算单元,用于计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;第三计算单元,用于计算真实标签和所述第二训练模型的第二预测结果的第二交叉熵;第四计算单元,用于根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;更新单元,用于根据所述加权交叉熵,更新所述第二训练模型的模型参数。本专利技术实施例提供的一种知识蒸馏的文本相似度匹配模型压缩系统,具有以下有益效果:第二确定模块采用基于知识蒸馏的文本匹配方法,将第一训练模型这一大模型的计算结果融合进入第二训练模型这一小模型的训练过程中,这样在采用第二训练模型在线上进行预测时,避免了运算速度出现下降,同时又利用了第一训练大模型的先验结果,可以提高匹配结果的准确性。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中一种知识蒸馏的文本相似度匹配模型压缩方法的流程示意图;图2为本专利技术实施例中一种知识蒸馏的文本相似度匹配模型压缩系统的框图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供了一种知识蒸馏的文本相似度匹配模型压缩方法,如图1所示,所述方法执行以下步骤:步骤1:获取训练数据;步骤2:根据所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;步骤4:采用所述第二训练模型对文本相似度匹配结果进行预测。上述技术方案的工作原理为:现有的深度学习的文本本文档来自技高网...
【技术保护点】
1.一种知识蒸馏的文本相似度匹配模型压缩方法,其特征在于,所述方法执行以下步骤:/n步骤1:获取训练数据;/n步骤2:根据所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;/n步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;/n步骤4:采用所述第二训练模型对文本相似度匹配结果进行预测。/n
【技术特征摘要】
1.一种知识蒸馏的文本相似度匹配模型压缩方法,其特征在于,所述方法执行以下步骤:
步骤1:获取训练数据;
步骤2:根据所述训练数据,采用第一深度文本匹配算法,确定第一训练模型;
步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,其中所述第一深度文本匹配算法的计算量大于所述第二深度文本匹配算法的计算量;
步骤4:采用所述第二训练模型对文本相似度匹配结果进行预测。
2.如权利要求1所述的方法,其特征在于,在所述步骤2中,所述第一训练模型包括Transformer双向编码器表示模型或知识增强的语义表示模型。
3.如权利要求1所述的方法,其特征在于,在所述步骤3中,所述第二深度学习模型包括基于长短时记忆的孪生网络。
4.如权利要求1所述的方法,其特征在于,所述步骤3:将所述第一训练模型的先验知识蒸馏进入第二训练模型的训练数据,采用第二深度文本匹配算法,确定所述第二训练模型,执行以下步骤:
步骤S301:根据所述训练数据以及所述第一训练模型,计算所述第一训练模型的每条训练数据的输出概率;
步骤S302:计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵,以及真实标签和所述第二训练模型的第二预测结果的第二交叉熵;
步骤S303:根据所述第一交叉熵和所述第二交叉熵进行加权相加,得到加权交叉熵;
步骤S304:根据所述加权交叉熵,更新所述第二训练模型的模型参数。
5.如权利要求4所述的方法,其特征在于,在所述步骤S302中,采用以下公式计算所述第一训练模型的第一预测结果和所述第二训练模型的第二预测结果的第一交叉熵;
其中,Lsoft为第一训练模型Mb的第一预测结果和第二训练模型Ms的第二预测结果的第一交叉熵,n为输出层的维度,yb为第一训练模型Mb的每条训练数据的输出概率,即最终的归一化指数函数的结果,...
【专利技术属性】
技术研发人员:张勇,
申请(专利权)人:云知声智能科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。