意图识别模型的训练方法、系统、装置及可读存储介质制造方法及图纸

技术编号:18084668 阅读:300 留言:0更新日期:2018-05-31 12:59
本发明专利技术公开了一种意图识别模型的训练方法、系统、装置及可读存储介质,包括预先根据源任务模型和源任务标注语料训练基础模型;将基础模型的网络层的参数导入到目标任务模型的公共网络层中,并固定公共网络层的参数;通过目标任务标注语料微调目标任务模型的特有网络层的参数,其中,特有网络层为目标任务模型中除公共网络层外的网络层,源任务标注语料的数量大于目标任务标注语料的数量。本发明专利技术通过对源任务语料及源任务模型迁移学习来训练目标任务模型,只需要标注少量的目标任务语料对目标任务模型进行微调就可以使目标任务模型获得较高的准确率,节约了目标任务模型的训练成本,同时还能有效的减少目标任务模型的训练时间。

【技术实现步骤摘要】
意图识别模型的训练方法、系统、装置及可读存储介质
本专利技术涉及人工智能领域,特别是涉及一种意图识别模型的训练方法、系统、装置及可读存储介质。
技术介绍
随着网络技术的发展,AI(ArtificialIntelligence,人工智能)技术得到了广泛应用,比如聊天机器人chatbot已经应用于智能客服、私人助理、情感陪伴等众多领域。对于chatbot来说最重要的技术即为意图识别技术,只有准确的理解用户的意图,才能更好的为用户服务。意图识别技术一般基于深度学习的CNN(ConvolutionalNeuralNetworks,卷积神经网络)或RNN(RecurrentNeuralNetwork,循环神经网络)分类算法,但是通过深度学习的CNN或RNN分类算法来训练意图识别模型需要大量的、且成本较高的人工标注语料,如果为了节约成本,使用少量的人工标注语料来训练意图识别模型,则会导致意图识别模型欠拟合,从而降低预测的准确率。因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
技术实现思路
本专利技术的目的是提供一种意图识别模型的训练方法、系统、装置及可读存储介质,节约了目标任务模型的训练成本,同时还能有效的减少目标任务模型的训练时间。为解决上述技术问题,本专利技术提供了一种意图识别模型的训练方法,包括:预先根据源任务模型和源任务标注语料训练基础模型;将所述基础模型的网络层的参数导入到目标任务模型的公共网络层中,并固定所述公共网络层的参数;通过目标任务标注语料微调所述目标任务模型的特有网络层的参数,其中,所述特有网络层为所述目标任务模型中除所述公共网络层外的网络层,所述源任务标注语料的数量大于所述目标任务标注语料的数量。优选的,所述公共网络层的参数包括所述公共网络层的权重;则所述固定所述公共网络层的参数的过程具体为:固定所述公共网络层的权重。优选的,所述特有网络层的参数包括所述特有网络层的权重;则所述通过目标任务标注语料微调所述目标任务模型的特有网络层的参数的过程具体为:通过目标任务标注语料微调所述目标任务模型的特有网络层的权重。优选的,所述源任务模型为单句意图识别模型;相应的,所述目标任务模型为上下文意图识别模型。为解决上述技术问题,本专利技术还提供了一种意图识别模型的训练系统,包括:训练模块,用于预先根据源任务模型和源任务标注语料训练基础模型;固定模块,用于将所述基础模型的网络层的参数导入到目标任务模型的公共网络层中,并固定所述公共网络层的参数;调整模块,用于通过目标任务标注语料微调所述目标任务模型的特有网络层的参数,其中,所述特有网络层为所述目标任务模型中除所述公共网络层外的网络层,所述源任务标注语料的数量大于所述目标任务标注语料的数量。优选的,所述公共网络层的参数包括所述公共网络层的权重;则所述固定模块具体用于固定所述公共网络层的权重。优选的,所述特有网络层的参数包括所述特有网络层的权重;则所述调整模块具体用于通过目标任务标注语料微调所述目标任务模型的特有网络层的权重。优选的,所述源任务模型为单句意图识别模型;相应的,所述目标任务模型为上下文意图识别模型。为解决上述技术问题,本专利技术还提供了一种意图识别模型的训练装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任意一项所述的意图识别模型训练方法的步骤。为解决上述技术问题,本专利技术还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述的意图识别模型训练方法的步骤。本专利技术提供了一种意图识别模型的训练方法,包括预先根据源任务模型和源任务标注语料训练基础模型;将基础模型的网络层的参数导入到目标任务模型的公共网络层中,并固定公共网络层的参数;通过目标任务标注语料微调目标任务模型的特有网络层的参数,其中,特有网络层为目标任务模型中除公共网络层外的网络层,源任务标注语料的数量大于目标任务标注语料的数量。可见,在实际应用中,采用本专利技术的方案,通过对源任务语料及源任务模型迁移学习来训练目标任务模型,只需要标注少量的目标任务语料对目标任务模型进行微调就可以使目标任务模型获得较高的准确率,节约了目标任务模型的训练成本,同时还能有效的减少目标任务模型的训练时间。本专利技术还提供了一种意图识别模型的训练系统、装置及可读存储介质,具有和上述训练方法相同的有益效果。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术所提供的一种意图识别模型训练方法的步骤流程图;图2为本专利技术所提供的一种意图识别模型训练方法的一种实施例的结构示意图;图3为本专利技术所提供的一种意图识别模型训练系统的结构示意图。具体实施方式本专利技术的核心是提供一种意图识别模型的训练方法、系统、装置及可读存储介质,节约了目标任务模型的训练成本,同时还能有效的减少目标任务模型的训练时间。为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参照图1,图1为本专利技术所提供的一种意图识别模型训练方法的步骤流程图,包括:步骤1:预先根据源任务模型和源任务标注语料训练基础模型;具体的,源任务模型和目标任务模型均为意图识别模型,本专利技术预先定义了一个基础模型,通过已有的源任务模型及源任务标注语料训练该基础模型,直至该基础模型学会源任务,其中,源任务模型为基础模型提供相应的网络层,举例说明,假设源任务是造句,源任务标注语料即为造句的步骤,此时定义一个会造句的基础模型,通过源任务标注语料训练该基础模型,也即使基础模型学习造句的步骤,直至基础模型自身可以执行造句步骤,这样做可以保证基础模型可以独立实现源任务,为增强目标任务模型的准确率提供了基础。步骤2:将基础模型的网络层的参数导入到目标任务模型的公共网络层中,并固定公共网络层的参数;具体的,定义一个目标任务模型,其中,目标任务模型包括基础模型的所有网络层,将基础模型的多个网络层的参数导入到目标任务模型的公共网络层中并固定,可以理解的是,目标任务模型中的网络层包括和基础模型中的网络层相同的部分,还包括其特有的部分,这里的公共网络层是指目标任务模型中和基础模型相同的网络层,也就是说目标任务模型的公共网络层的参数复用了基础模型的各个网络层的参数,且不再进行调整,这样做为提高意图识别模型的训练效率提供了基础。具体的,本专利技术中的网络层也可以理解为是意图识别模型的特征空间。步骤3:通过目标任务标注语料微调目标任务模型的特有网络层的参数,其中,特有网络层为目标任务模型中除公共网络层外的网络层,源任务标注语料的数量大于目标任务标注语料的数量。具体的,本专利技术中的微调是指深度学习中的fine-tuning处理,所谓fine-tuning就是利用已经训练好的基础模型本文档来自技高网...
意图识别模型的训练方法、系统、装置及可读存储介质

【技术保护点】
一种意图识别模型的训练方法,其特征在于,包括:预先根据源任务模型和源任务标注语料训练基础模型;将所述基础模型的网络层的参数导入到目标任务模型的公共网络层中,并固定所述公共网络层的参数;通过目标任务标注语料微调所述目标任务模型的特有网络层的参数,其中,所述特有网络层为所述目标任务模型中除所述公共网络层外的网络层,所述源任务标注语料的数量大于所述目标任务标注语料的数量。

【技术特征摘要】
1.一种意图识别模型的训练方法,其特征在于,包括:预先根据源任务模型和源任务标注语料训练基础模型;将所述基础模型的网络层的参数导入到目标任务模型的公共网络层中,并固定所述公共网络层的参数;通过目标任务标注语料微调所述目标任务模型的特有网络层的参数,其中,所述特有网络层为所述目标任务模型中除所述公共网络层外的网络层,所述源任务标注语料的数量大于所述目标任务标注语料的数量。2.根据权利要求1所述的训练方法,其特征在于,所述公共网络层的参数包括所述公共网络层的权重;则所述固定所述公共网络层的参数的过程具体为:固定所述公共网络层的权重。3.根据权利要求2所述的训练方法,其特征在于,所述特有网络层的参数包括所述特有网络层的权重;则所述通过目标任务标注语料微调所述目标任务模型的特有网络层的参数的过程具体为:通过目标任务标注语料微调所述目标任务模型的特有网络层的权重。4.根据权利要求1-3任意一项所述的训练方法,其特征在于,所述源任务模型为单句意图识别模型;相应的,所述目标任务模型为上下文意图识别模型。5.一种意图识别模型的训练系统,其特征在于,包括:训练模块,用于预先根据源任务模型和源任务标注语料训练基础模型;固定模块,用于将所述基础模型的网络层...

【专利技术属性】
技术研发人员:韩卫强权圣
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1