一种基于知识蒸馏的呼吸暂停知识问答模型训练方法技术

技术编号:43304316 阅读:21 留言:0更新日期:2024-11-12 16:19
本发明专利技术提供一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,采用知识蒸馏的掩码语言训练模块和自监督的掩码语言训练模块,并结合重构损失和分类损失,经过呼吸暂停领域的知识训练,从教师模型中提取关键知识,并将其转移到轻量级模型中;自监督掩码语言训练模块使得学生模型能够在下游任务提供的语料信息下,并基于其提供的上下文信息,实现文本句子的补全和修正。本发明专利技术实现了在保持高准确率的同时,提高了问答系统的响应速度,这对于普及呼吸暂停相关知识、辅助快速诊断、提供个性化治疗建议等方面具有显著的有益效果,进而促进了医疗资源的合理分配和医疗服务质量的提升。

【技术实现步骤摘要】

本专利技术涉及基于特定计算模型的计算机系统,具体涉及一种基于知识蒸馏的呼吸暂停知识问答模型训练方法


技术介绍

1、最近,通过在大规模语料库上训练transformer模型(常包含数百或数千亿的参数),使得其在解决各种自然语言处理任务方面显示出强大的能力。然而,数百或数千亿的参数大幅增加了模型的计算复杂度,对模型所部署的硬件配置提出了更加严苛的要求,使得其很难应用于真实场景中。

2、因此,在保证模型性能的前提下,为有效降低模型的计算复杂度,解决不同场景下的各种自然语言处理问题,自然语言处理方法
迫切需要一种基于知识蒸馏的呼吸暂停知识问答模型。


技术实现思路

1、本专利技术是为了解决模型计算复杂度的问题,提供一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,教师模型通过重建损失监督学生模型的特征学习,使其拥有教师模型的特征表达能力;学生模型结合分类损失,提高学生模型在下游任务中的泛化能力。相较以往的语言模型训练方法,本专利技术实现了在保持高准确率的同时,提高了问答系统的响应速度,这对于普及呼吸暂本文档来自技高网...

【技术保护点】

1.一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤S1包括:

3.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤S2中,所述编码器ViT-H为预训练的编码器,所述编码器ViT-H的训练语料库大于学生模型编码器的训练语料库。

4.根据权利要求3所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:所述编码器ViT-H和所述编码器ViT-T的基础模块均包括依次连接的第一层标准化模块、多头注意...

【技术特征摘要】

1.一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s1包括:

3.根据权利要求1所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:步骤s2中,所述编码器vit-h为预训练的编码器,所述编码器vit-h的训练语料库大于学生模型编码器的训练语料库。

4.根据权利要求3所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:所述编码器vit-h和所述编码器vit-t的基础模块均包括依次连接的第一层标准化模块、多头注意力模块、第二层标准化模块和多层感知机,所述基础模块的输入端口同时输入至所述第一层标准化模块和所述第二层标准化模块,所述多头注意力模块的输出与所述多层感知机的输出同时对外输出。

5.根据权利要求4所述的一种基于知识蒸馏的呼吸暂停知识问答模型训练方法,其特征在于:所述编码...

【专利技术属性】
技术研发人员:李柏蕤连荷清武静威
申请(专利权)人:北京小蝇科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1