【技术实现步骤摘要】
本专利技术涉及基于特定计算模型的计算机系统,具体涉及一种基于知识蒸馏的呼吸暂停知识问答模型训练方法。
技术介绍
1、最近,通过在大规模语料库上训练transformer模型(常包含数百或数千亿的参数),使得其在解决各种自然语言处理任务方面显示出强大的能力。然而,数百或数千亿的参数大幅增加了模型的计算复杂度,对模型所部署的硬件配置提出了更加严苛的要求,使得其很难应用于真实场景中。
2、因此,在保证模型性能的前提下,为有效降低模型的计算复杂度,解决不同场景下的各种自然语言处理问题,自然语言处理方法
迫切需要一种基于知识蒸馏的呼吸暂停知识问答模型。
技术实现思路
1、本专利技术是为了解决模型计算复杂度的问题,提供一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,教师模型通过重建损失监督学生模型的特征学习,使其拥有教师模型的特征表达能力;学生模型结合分类损失,提高学生模型在下游任务中的泛化能力。相较以往的语言模型训练方法,本专利技术实现了在保持高准确率的同时,提高了问答系统的响应速
...【技术保护点】
1.一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤S1包括:
3.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤S2中,所述编码器ViT-H为预训练的编码器,所述编码器ViT-H的训练语料库大于学生模型编码器的训练语料库。
4.根据权利要求3所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:所述编码器ViT-H和所述编码器ViT-T的基础模块均包括依次连接的第一层
...【技术特征摘要】
1.一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s1包括:
3.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s2中,所述编码器vit-h为预训练的编码器,所述编码器vit-h的训练语料库大于学生模型编码器的训练语料库。
4.根据权利要求3所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:所述编码器vit-h和所述编码器vit-t的基础模块均包括依次连接的第一层标准化模块、多头注意力模块、第二层标准化模块和多层感知机,所述基础模块的输入端口同时输入至所述第一层标准化模块和所述第二层标准化模块,所述多头注意力模块的输出与所述多层感知机的输出同时对外输出。
5.根据权利要求4所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:所述编码...
【专利技术属性】
技术研发人员:李柏蕤,连荷清,武静威,
申请(专利权)人:北京小蝇科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。