【技术实现步骤摘要】
一种自然语言理解模型训练方法及装置
[0001]本申请涉及人工智能
,尤其涉及一种自然语言理解模型训练方法及装置。
技术介绍
[0002]人工智能(artificial intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言理解,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
[0003]目前,在自然语言理解领域,满足实时性要求的主流深度学习模型都是基于预训练模型的压缩微调模型。这一训练过程可以简单分为3步:1、加载预训练的自然语言理解模型,并通过指定任务训练数据微调获得一个参数量较大的老师模型;2、通过知识蒸馏等方法,将老师模型学习到的知识迁移到一个 ...
【技术保护点】
【技术特征摘要】
1.一种自然语言理解模型训练方法,其特征在于,包括:通过训练语句以及级联后的老师自然语言理解模型和感知损失网络,对所述感知损失网络进行训练,其中所述老师自然语言理解模型的输入为所述训练语句、输出为对所述训练语句处理得到的第一句向量,所述感知损失模型的输入为所述第一句向量、输出为对所述第一句向量处理得到的第二句向量,所述感知损失网络基于所述第二句向量映射的理解结果相对所述训练语句对应的理解结果真值的第一损失调整参数,所述感知损失网络采用多层序列变换transformer结构;将所述训练语句输入级联后的所述老师自然语言理解模型和训练后的所述感知损失网络进行处理,得到第三句向量,以及将所述训练语句输入级联后的学生自然语言理解模型和训练后的所述感知损失网络进行处理,得到第四句向量;计算所述第四句向量相对所述第三句向量的感知损失;根据所述感知损失调整所述学生自然语言理解模型的参数,获得训练完成的学生自然语言理解模型。2.如权利要求1所述的方法,其特征在于,所述方法还包括:将所述训练语句输入到所述老师自然语言理解模型进行处理,得到第五句向量;计算所述第五句向量映射的理解结果相对所述训练语句对应的理解结果真值的第二损失;根据所述第二损失调整所述老师自然语言理解模型的参数。3.如权利要求1所述的方法,其特征在于,所述方法还包括:将所述训练语句输入到所述老师自然语言理解模型和所述学生自然语言理解模型,获取所述老师自然语言理解模型隐藏层输出的第一特征和所述学生自然语言理解模型隐藏层输出的第二特征;计算所述第二特征相对所述第一特征的第三损失;根据所述第三损失调整所述学生自然语言理解模型的参数。4.如权利要求1所述的方法,其特征在于,所述计算所述第四句向量相对所述第三句向量的感知损失,包括:计算所述第四句向量映射的理解结果相对所述第三句向量映射的理解结果的感知损失。5.如权利要求1-4中任一项所述的方法,其特征在于,所述理解结果包括所述训练语句的意图和意图的关键信息。6.如权利要求1-5中任一项所述的方法,其特征在于,所述老师自然语言理解模型的层数和/或参数大于所述学生自然语言理解模型。7.一种自然语言理解模型训练装置,其特征在于,包括:第一训练单元,用于通过训练语句以及级联后的老师自然语言理解模型和感知损失网络,对所述感知损失网络进行训练,其中所述老师自然语言理解模型的输入为所述训练语句、输出为对所述训练语句处理得到的第一句向量,所述感知损失模型的输入为所述第一句向量、...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。