【技术实现步骤摘要】
基于伪单词序列生成的病例分类的零样本蒸馏系统及方法
[0001]本专利技术属于自然语言处理领域,具体指代基于伪单词序列生成的病例分类的零样本蒸馏系统及方法。
技术介绍
[0002]病例是医疗部门指某种疾病的实例,记录着某个人或生物患过某种疾病,病例对医疗、预防、教学、科研、医院管理等都有重要的作用。但是在实际情况中,很多病例数据无法获得,并且病例包含许多不同的类别信息,如果利用人工进行筛选,会增加很大的人力成本,并且病例太多出错率也会增加。病例数据分类是为了实现辅助疾病诊断,比如在对癌症分型或糖尿病等疾病类型判断中,需要根据医院检查的各项指标和患者自身病况来判断,但是鉴于数据隐私性,一些病人的医疗和个人特征数据一般不会公开。因此在实际情况下,我们想要得到一个轻量化易于部署的可以判断患者患病类型的模型,就可以通过经过这些未公开数据训练后的模型,生成这些数据的伪样本,并且蒸馏得到所需要的轻量化模型。所以在这种情况下,自然语言处理的零样本知识蒸馏便可以解决该问题。
[0003]首先介绍一下知识蒸馏,知识蒸馏最初由Hinton提出,指通过引入训练好的复杂、但预测精度优越教师模型(Teacher model),来诱导精简、低复杂度,更适合推理部署学生网络(Student network)的训练,从而实现知识迁移(Knowledge transfer)。
[0004]但是,在实际的蒸馏过程中,需要用到原始训练数据集,但是由于数据隐私性,诸如生物特征数据和病人的医疗保健等数据一般不会公开,所以原始训练数据不可得.。 ...
【技术保护点】
【技术特征摘要】
1.基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,包括:模型分离模块;多元正态分布生成模块;伪样本生成模块;蒸馏模块;所述模型分离模块,将教师模型分割成词嵌入层和剩余的编码层,并对公开病例数据集进行分句处理;所述多元正态分布生成模块包括:多元正态分布系数计算模块、模拟标签分布采样计算模块;所述多元正态分布系数计算模块,根据训练好的教师模型的pooler层权重计算多元正态分布的相关系数矩阵,并且设置多元正态分布方差矩阵为对角线矩阵,计算得到协方差矩阵,计算类多元正态分布系数,得到对应的多元正态分布;所述模拟标签分布采样模块,对得到的多元正态分布进行随机采样,并且对采样得到的样本进行softmax计算;所述伪样本生成模块包括:伪样本标签生成模块、多元正态分布采样监督优化模块;所述伪样本标签分布生成模块,从设定的最小值和设定的最大值之间进行均匀分布采样,用得到的样本代替Bert词表中的单词索引输入到教师模型的词嵌入层得到词嵌入向量,再将其输入到教师模型中得到伪样本标签分布;所述多元正态分布采样监督优化模块,将多元正态分布采样做伪样本标签分布的监督信息,优化教师模型分割出来的词嵌入层,直到得到符合要求的词嵌入向量,并且重新初始化词嵌入层;所述蒸馏模块包括:词嵌入空间一致性训练模块、知识转移模块;所述词嵌入空间一致性训练模块,将教师模型词嵌入向量与学生模型词嵌入向量经过线性层转换后处于同一空间内;所述知识转移模块,将生成的词嵌入向量分别输入教师模型,以及学生模型的线性层,转化为设定维度的词嵌入向量,得到教师模型和学生模型输出的标签分布,将其对齐,从而把教师模型的知识迁移到轻量化的学生模型当中。2.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,所述多元正态分布生成模块通过将已经在真实训练数据上训练好的教师模型的词嵌入层和编码层进行分离,形成新的模型并保存;所述新的模型包括:词嵌入层模块、编码器模块;词嵌入层模块:对输入X进行转变,公式表达如下:Y=E
t
(X)+E
s
(X)+E
p
(X),其中,E
t
为将单词转换为固定维的向量表示形式算子,E
s
为分割嵌入算子,E
p
为位置嵌入算子;transformer编码器模块:采用注意力机制A,注意力机制具有Q(Query),K(Key),V(Value)三个来源于相同输入的矩阵,组成编码器F
a
,以及相应的残差机制和层归一化F
n
,公式表达如下:其中softmax的表达式为:
n为softmax输入向量的n个值,编码器的表达式为:Y=F
n
…
(F
n
(F
n
(X+F
a
(X))+F
a
(F
n
(X+F
a
(X))))。3.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,所述对应的多元正态分布,公式表达如下:其特征在于,所述对应的多元正态分布,公式表达如下:∑=D
·
C
·
DC(i,j)为类相似性系数,w
i
和w
j
分别为教师模型pooler层的第i位置和第j位置的神经元权重,D为由多元正态分布的每一元标准差组成的对角线矩阵,∑为多元正态分布的协方差矩阵。4.根据权利要求1所述的基于伪单词序列生成的病例分类的零样本蒸馏系统及方法,其特征在于,所述模拟标签分布采样模块在softmax计算过程中加入放缩系数调整得到的不同类别数据模拟标签分布的概率尖锐度。5.根据权利要求1所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。