基于伪单词序列生成的病例分类的零样本蒸馏系统及方法技术方案

技术编号:37373157 阅读:25 留言:0更新日期:2023-04-27 07:17
本发明专利技术公开了基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,包括:模型分离模块,将教师模型分割成词嵌入层和剩余的编码层;多元正态分布生成模块,利用训练好的教师模型的网络权重计算多元正态分布系数;伪样本生成模块,利用生成的多元正态分布、分割后的教师模型编码层和教师模型词嵌入层生成词嵌入向量样本;蒸馏模块,利用生成的词嵌入向量生成样本,进行知识蒸馏,从而将教师模型的知识转移到学生模型中。本发明专利技术能够让使得没有真实数据的情境下,可以通过已经训练好的模型转移其知识给新的轻量化模型,并且直接生成词嵌入向量样本,并用其执行蒸馏过程,保证了伪样本生成和蒸馏的有效性,可以在没有数据的现实情况下蒸馏得到适用于同一领域数据预测的轻量化新模型。量化新模型。量化新模型。

【技术实现步骤摘要】
基于伪单词序列生成的病例分类的零样本蒸馏系统及方法


[0001]本专利技术属于自然语言处理领域,具体指代基于伪单词序列生成的病例分类的零样本蒸馏系统及方法。

技术介绍

[0002]病例是医疗部门指某种疾病的实例,记录着某个人或生物患过某种疾病,病例对医疗、预防、教学、科研、医院管理等都有重要的作用。但是在实际情况中,很多病例数据无法获得,并且病例包含许多不同的类别信息,如果利用人工进行筛选,会增加很大的人力成本,并且病例太多出错率也会增加。病例数据分类是为了实现辅助疾病诊断,比如在对癌症分型或糖尿病等疾病类型判断中,需要根据医院检查的各项指标和患者自身病况来判断,但是鉴于数据隐私性,一些病人的医疗和个人特征数据一般不会公开。因此在实际情况下,我们想要得到一个轻量化易于部署的可以判断患者患病类型的模型,就可以通过经过这些未公开数据训练后的模型,生成这些数据的伪样本,并且蒸馏得到所需要的轻量化模型。所以在这种情况下,自然语言处理的零样本知识蒸馏便可以解决该问题。
[0003]首先介绍一下知识蒸馏,知识蒸馏最初由Hinton提出,指通过引入训练好的复杂、但预测精度优越教师模型(Teacher model),来诱导精简、低复杂度,更适合推理部署学生网络(Student network)的训练,从而实现知识迁移(Knowledge transfer)。
[0004]但是,在实际的蒸馏过程中,需要用到原始训练数据集,但是由于数据隐私性,诸如生物特征数据和病人的医疗保健等数据一般不会公开,所以原始训练数据不可得.。由此便提出了零样本的知识蒸馏。传统的自然语言处理零样本知识蒸馏,研究的数据集样本较多类别较少,生成伪样本的方式是离散的不易于优化,并且在生成伪样本的方式上有所欠缺。
[0005]有鉴于此,本专利技术提出的基于伪单词序列的伪样本生成方法,可以通过教师模型本身的词嵌入层,生成接近与原始数据的词嵌入向量在同一空间下的伪样本,连续易于优化,从而提高蒸馏性能。并且,本专利技术还在技术方面有创新,因为图像是连续的可以直接优化,所以图像较好生成,但是自然语言中的文本是离散的,不易于直接优化,所以本专利技术也从新的角度提出了文本伪样本生成方式。

技术实现思路

[0006]针对现有技术存在的缺陷,本专利技术的目的在于提供基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,以解决现有技术中,文本单词生成离散不易于优化从而导致伪样本不接近于真实数据分布,蒸馏效果底下。本专利技术能够在由于数据隐私等原因导致的真实数据不可得的情况下,使得在真实数据上训练好的教师模型可以更好的转移和压缩其知识给轻量化的学生模型,从而方便部署,并达到知识转移的目的,并且本专利技术不需要单独的生成模型,可以直接通过教师模型词嵌入层优化连续的伪样本向量。
[0007]为达到上述目的,本专利技术采用的技术方案如下:
[0008]本专利技术的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,包括:模型分离模块;多元正态分布生成模块;伪样本生成模块;蒸馏模块;
[0009]所述模型分离模块,将教师模型分割成词嵌入层和剩余的编码层,并对公开病例数据集进行分句处理,本申请中的“公开病例数据集”为互联网上公开的病例数据集,包括心脏病,新冠感染等疾病的病例数据,要先对其进行分句处理;
[0010]所述多元正态分布生成模块包括:多元正态分布系数计算模块、模拟标签分布采样计算模块;
[0011]所述多元正态分布系数计算模块,根据训练好的教师模型的pooler层权重计算多元正态分布的相关系数矩阵,并且设置多元正态分布方差矩阵为对角线矩阵,计算得到协方差矩阵,计算类多元正态分布系数,得到对应的多元正态分布;
[0012]所述模拟标签分布采样模块,对得到的多元正态分布进行随机采样,并且对采样得到的样本进行softmax计算;
[0013]所述伪样本生成模块包括:伪样本标签生成模块、多元正态分布采样监督优化模块;
[0014]所述伪样本标签分布生成模块,从设定的最小值和设定的最大值之间进行均匀分布采样,用得到的样本代替Bert词表中的单词索引输入到教师模型的词嵌入层得到词嵌入向量,再将其输入到教师模型中得到伪样本标签分布;
[0015]所述多元正态分布采样监督优化模块,将多元正态分布采样做伪样本标签分布的监督信息,优化教师模型分割出来的词嵌入层,直到得到符合要求的词嵌入向量,并且重新初始化词嵌入层;
[0016]所述蒸馏模块包括:词嵌入空间一致性训练模块、知识转移模块;
[0017]所述词嵌入空间一致性训练模块,将教师模型词嵌入向量与学生模型词嵌入向量经过线性层转换后处于同一空间内;
[0018]所述知识转移模块,将生成的词嵌入向量分别输入教师模型,以及学生模型的线性层,转化为设定维度的词嵌入向量,得到教师模型和学生模型输出的标签分布,将其对齐,从而把教师模型的知识迁移到轻量化的学生模型当中。
[0019]进一步地,所述多元正态分布生成模块通过将已经在真实训练数据上训练好的教师模型的词嵌入层和编码层进行分离,形成新的模型并保存;
[0020]所述新的模型包括:词嵌入层模块、编码器模块;
[0021]词嵌入层模块:对输入X进行转变,公式表达如下:
[0022]Y=E
t
(X)+E
s
(X)+E
p
(X),
[0023]其中,E
t
为将单词转换为固定维的向量表示形式算子,E
s
为分割嵌入算子,E
p
为位置嵌入算子;
[0024]transformer编码器模块,采用注意力机制A,注意力机制具有Q(Query),K(Key),V(Value)三个来源于相同输入的矩阵,组成编码器F
a
,以及相应的残差机制和层归一化F
n
,公式表达如下:
[0025][0026]其中softmax的表达式为:
[0027][0028]n为softmax输入向量的n个值,
[0029]编码器的表达式为:
[0030]Y=F
n
...(F
n
(F
n
(X+F
a
(X))+F
a
(F
n
(X+F
a
(X))))。
[0031]进一步地,所述对应的多元正态分布,公式表达如下:
[0032][0033][0034]Σ=D
·
C
·
D
[0035]C(i,j)为类相似性系数,w
i
和w
j
分别为教师模型pooler层的第i位置和第j位置的神经元权重,D为由多元正态分布的每一元标准差组成的对角线矩阵,Σ为多元正态分布的协方差矩阵。
[0036]进一步地,所述模拟标签分布采样模块在softmax计算过程中加入放本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,包括:模型分离模块;多元正态分布生成模块;伪样本生成模块;蒸馏模块;所述模型分离模块,将教师模型分割成词嵌入层和剩余的编码层,并对公开病例数据集进行分句处理;所述多元正态分布生成模块包括:多元正态分布系数计算模块、模拟标签分布采样计算模块;所述多元正态分布系数计算模块,根据训练好的教师模型的pooler层权重计算多元正态分布的相关系数矩阵,并且设置多元正态分布方差矩阵为对角线矩阵,计算得到协方差矩阵,计算类多元正态分布系数,得到对应的多元正态分布;所述模拟标签分布采样模块,对得到的多元正态分布进行随机采样,并且对采样得到的样本进行softmax计算;所述伪样本生成模块包括:伪样本标签生成模块、多元正态分布采样监督优化模块;所述伪样本标签分布生成模块,从设定的最小值和设定的最大值之间进行均匀分布采样,用得到的样本代替Bert词表中的单词索引输入到教师模型的词嵌入层得到词嵌入向量,再将其输入到教师模型中得到伪样本标签分布;所述多元正态分布采样监督优化模块,将多元正态分布采样做伪样本标签分布的监督信息,优化教师模型分割出来的词嵌入层,直到得到符合要求的词嵌入向量,并且重新初始化词嵌入层;所述蒸馏模块包括:词嵌入空间一致性训练模块、知识转移模块;所述词嵌入空间一致性训练模块,将教师模型词嵌入向量与学生模型词嵌入向量经过线性层转换后处于同一空间内;所述知识转移模块,将生成的词嵌入向量分别输入教师模型,以及学生模型的线性层,转化为设定维度的词嵌入向量,得到教师模型和学生模型输出的标签分布,将其对齐,从而把教师模型的知识迁移到轻量化的学生模型当中。2.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,所述多元正态分布生成模块通过将已经在真实训练数据上训练好的教师模型的词嵌入层和编码层进行分离,形成新的模型并保存;所述新的模型包括:词嵌入层模块、编码器模块;词嵌入层模块:对输入X进行转变,公式表达如下:Y=E
t
(X)+E
s
(X)+E
p
(X),其中,E
t
为将单词转换为固定维的向量表示形式算子,E
s
为分割嵌入算子,E
p
为位置嵌入算子;transformer编码器模块:采用注意力机制A,注意力机制具有Q(Query),K(Key),V(Value)三个来源于相同输入的矩阵,组成编码器F
a
,以及相应的残差机制和层归一化F
n
,公式表达如下:其中softmax的表达式为:
n为softmax输入向量的n个值,编码器的表达式为:Y=F
n

(F
n
(F
n
(X+F
a
(X))+F
a
(F
n
(X+F
a
(X))))。3.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,所述对应的多元正态分布,公式表达如下:其特征在于,所述对应的多元正态分布,公式表达如下:∑=D
·
C
·
DC(i,j)为类相似性系数,w
i
和w
j
分别为教师模型pooler层的第i位置和第j位置的神经元权重,D为由多元正态分布的每一元标准差组成的对角线矩阵,∑为多元正态分布的协方差矩阵。4.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,所述模拟标签分布采样模块在softmax计算过程中加入放缩系数调整得到的不同类别数据模拟标签分布的概率尖锐度。5.根据权利要求1所述...

【专利技术属性】
技术研发人员:陈晟蒋智威杜娟顾庆
申请(专利权)人:南京鼓楼医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1