【技术实现步骤摘要】
一种医疗模型的参数高效微调方法和系统
[0001]本专利技术属于人工智能领域,尤其涉及一种医疗模型的参数高效微调方法和系统
。
技术介绍
[0002]基于 Transformers 架构的大型语言模型 (LLM)
,如 GPT、T5 和 BERT
,已经在各种自然语言处理 (NLP) 任务中取得了最先进的结果
。
此外,还开始使用到其他领域,例如计算机视觉 (CV) (VIT、Stable Diffusion、LayoutLM) 和音频 (Whisper、XLS
‑
R)。
传统的范式是对通用网络规模数据进行大规模预训练,然后对下游任务进行微调
。
与不经过微调的预训练 LLM (
例如,零样本推理
) 相比,在下游数据集上微调这些预训练 LLM 会带来巨大的性能提升
。
[0003]然而,随着模型变得越来越大,在消费级硬件上对模型进行全部参数的微调变得不可行
。
此外,为每个下游任务独立存储和部署 ...
【技术保护点】
【技术特征摘要】
1.
在一种医疗模型的参数高效微调方法,其特征在于,所述方法包括:步骤
S1、
收集医疗数据的数据集,并划分为训练集和测试集;步骤
S2、
以残差链接的形式,将卷积归纳偏置模块引入到
Transformer
模型,得到改进的
Transformer
模型,作为大模型;步骤
S3、
应用所述训练集对所述改进的
Transformer
模型进行预训练;步骤
S4、
应用所述测试集,通过微调卷积归纳偏置模块得参数,实现在低数据条件下微调预训练后的大模型
。2.
根据权利要求1所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤
S1
中,所述数据集中的未知类别的全部数据当作测试集,并随机输入医疗数据对未知类别数据进行推理分类
。3.
根据权利要求1所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤
S2
中,所述以残差链接的形式,将卷积归纳偏置模块引入到
Transformer
模型的方法包括:将所述卷积归纳偏置模块并联于
Transformer
模型的多头注意力模块和多层感知机,即全连接层
。4.
根据权利要求1所述的一种医疗模型的参数高效微调方法,其特征在于,在所述步骤
S2
中,所述卷积归纳偏置模块的结构为:第一卷积层
、
第一激活函数
、
第二卷积层
、
第二激活函数和第三卷积层;卷积归纳偏置模块的输入数据进入所述第一卷积层,第一卷积层的输出进入第一激活函数,第一激活函数的输出...
【专利技术属性】
技术研发人员:马骏,王晓磊,张伟,杨钰群,
申请(专利权)人:北京芯联心科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。