基于标签分布采样的病例分类模型零样本提取系统及方法技术方案

技术编号:39137735 阅读:8 留言:0更新日期:2023-10-23 14:53
本发明专利技术公开了基于标签分布采样的病例分类模型零样本提取系统及方法,包括:预训练生成模型模块,利用公开病例数据集预训练语言生成模型;迪利克雷分布生成模块,利用训练好的教师模型的线性层计算迪利克雷分布系数;伪样本生成模块,利用生成的迪利克雷分布和预训练生成模型生成伪样本;蒸馏模块,利用伪样本和教师模型对学生模型进行蒸馏,从而将教师模型的知识转移到学生模型中。本发明专利技术能够让使得没有真实数据的情境下,可以通过已经训练好的模型转移其知识给新的轻量化模型,使用了前沿的自然语言处理预训练模型放入整个过程,保证了伪样本生成和蒸馏的有效性,可以在没有数据的现实情况下蒸馏得到适用于同一领域数据预测的轻量化新模型。的轻量化新模型。的轻量化新模型。

【技术实现步骤摘要】
基于标签分布采样的病例分类模型零样本提取系统及方法


[0001]本专利技术属于自然语言处理领域,具体指代基于标签分布采样的病例分类模型零样本提取系统及方法。

技术介绍

[0002]病例是医疗部门指某种疾病的实例,记录着某个人或生物患过某种疾病,病例对医疗、预防、教学、科研、医院管理等都有重要的作用。但是在实际情况中,很多病例数据无法获得,并且病例包含许多不同的类别信息,如果利用人工进行筛选,会增加很大的人力成本,并且病例太多出错率也会增加。病例数据分类是为了实现辅助疾病诊断,比如在对癌症分型或糖尿病等疾病类型判断中,需要根据医院检查的各项指标和患者自身病况来判断,但是鉴于数据隐私性,一些病人的医疗和个人特征数据一般不会公开。因此在实际情况下,我们想要得到一个轻量化易于部署的可以判断患者患病类型的模型,就可以通过经过这些未公开数据训练后的模型,生成这些数据的伪样本,并且蒸馏得到所需要的轻量化模型。所以在这种情况下,自然语言处理的零样本知识蒸馏便可以解决该问题。
[0003]首先介绍一下知识蒸馏,知识蒸馏最初由Hinton提出,指通过引入训练好的复杂、但预测精度优越教师模型(Teacher model),来诱导精简、低复杂度,更适合推理部署学生网络(Student network)的训练,从而实现知识迁移(Knowledge transfer)。
[0004]但是,在实际的蒸馏过程中,需要用到原始训练数据集,但是由于数据隐私性,诸如生物特征数据和病人的病例等数据一般不会公开,所以原始训练数据不可得。由此便提出了零样本的知识蒸馏。传统的自然语言处理零样本知识蒸馏,研究的数据集样本较多类别较少,没有从生成样本接近真实数据样本的情况上考虑,并且在生成伪样本的方式上有所欠缺。
[0005]有鉴于此,本专利技术提出的基于标签分布的伪样本的生成方法,可以通过教师模型本身和公开病例数据集,生成接近原始真实数据集分布的有效高质量样本,从而提高零样本模型提取性能。并且,本专利技术还在技术方面有创新,因为图像是连续的可以直接优化,所以图像较好生成,但是自然语言中的文本是离散的,不易于直接优化,所以本专利技术也提出了一种有效可行的文本生成方式。

技术实现思路

[0006]针对现有技术存在的缺陷,本专利技术的目的在于提供基于标签分布采样的病例分类模型零样本提取系统及方法,解决现有技术中,零样本知识蒸馏中伪样本与原始数据样本分布不接近的问题,并且运用到病例数据的分类中。本专利技术能够在由于数据隐私等原因导致的真实数据不可得的情况下,使得在真实数据上训练好的教师模型可以更好的转移和压缩其知识给轻量化的学生模型,从而方便部署,并达到知识转移的目的。
[0007]为达到上述目的,本专利技术采用的技术方案如下:
[0008]本专利技术的基于标签分布采样的病例分类模型零样本提取系统及方法,其特征在
于,包括:所述系统预训练生成模型模块;迪利克雷分布生成模块;伪样本生成模块;蒸馏模块;
[0009]所述预训练生成模型模块利用公开病例数据集预训练语言生成模型,本申请中的“公开病例数据集”为互联网上公开的病例数据集,包括心脏病,新冠肺炎等疾病的病例数据,要先对其进行分句处理;
[0010]所述迪利克雷分布生成模块包括:相似性矩阵生成模块、迪利克雷分布生成模块;
[0011]所述相似性矩阵生成模块用于将训练好的教师模型的最后一层线性层进行类相似性矩阵系数计算,得到相似性矩阵;
[0012]所述迪利克雷分布生成模块根据相似性矩阵系数计算得到迪利克雷分布;
[0013]所述伪样本生成模块包括:伪样本标签生成模块及迪利克雷分布采样监督优化模块;
[0014]所述伪样本标签分布生成模块,将公开病例数据集输入生成模型中得到伪样本,再将伪样本输入到教师模型中得到伪样本标签分布;
[0015]所述迪利克雷分布采样监督优化模块,将迪利克雷分布采样做伪样本标签分布的监督信息,优化生成模型;
[0016]所述蒸馏模块,利用伪样本和教师模型对学生模型执行蒸馏过程,把教师模型的知识转移和压缩到学生模型中。
[0017]进一步地,所述预训练生成模块通过公开病例数据集预训练生成模型将公开病例数据集的词频投射到正态分布上面,实现输入正态分布噪声到生成模型,得到公开病例数据集对应的词频单词。
[0018]进一步地,所述生成模型采用了自然语言处理预训练模型Bert

mini,将一个正态分布变换为30522维度的one

hot词表单词索引,具体为:以Bert

mini作为基本架构,在其输入前和输出后增加两层全连接层和gumbel softmax模块对输入和输出进行变换;
[0019]预训练生成模型模块包含:全连接模块,gumbel softmax模块,Bert

mini模块;
[0020]全连接模块:将输入的正态分布噪声转化为30522维度的词表长度向量,以及将Bert

mini模块输出的词向量表示重新转换为30522维度的词表长度向量,全连接层权重为W,偏置系数为b,线性层的输入为X,公式表达如下:
[0021]Y=WX+b
[0022]gumbel softmax模块:用于转换全连接层输出的词向量π通过gumbel softmax分布G
i
~Gumbel(0,1),并除以温度系数τ控制one hot向量的尖锐程度,其中π
i
和π
j
为π在第i和第j位置上的元素,转化为输入到Bert

mini模块的形式,模块输出为y
i
,公式表达如下:
[0023][0024]进一步地,所述Bert

mini模块,将噪声转化为词表示词向量形式;
[0025]Bert

mini模块包括:词嵌入层模块,编码器模块;
[0026]词嵌入层模块:采用单词嵌入E
t
,的作用是将单词转换为固定维的向量表示形式,分割嵌入E
s
,解决包含文本分类的自然语言处理任务,位置嵌入E
p
,让输入具有先后关系的时间属性,对输入的单词token X进行处理,公式表达如下:
[0027]Y=E
t
(X)+E
s
(X)+E
p
(X)
[0028]transformer编码器模块:采用4个transformer编码器F
a
,以及相应的残差机制和层归一化F
n
,公式表达如下:
[0029]Y=F
n
...(F
n
(F
n
(X+F
a
(X))+F
a
(F
n
(X+F
a
(X))))。
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于标签分布采样的病例分类模型零样本提取系统,其特征在于,包括:所述系统预训练生成模型模块;迪利克雷分布生成模块;伪样本生成模块;蒸馏模块;所述预训练生成模型模块利用公开病例数据集预训练语言生成模型;所述迪利克雷分布生成模块包括:相似性矩阵生成模块、迪利克雷分布生成模块;所述相似性矩阵生成模块用于将训练好的教师模型的最后一层线性层进行类相似性矩阵系数计算,得到相似性矩阵;所述迪利克雷分布生成模块根据相似性矩阵系数计算得到迪利克雷分布;所述伪样本生成模块包括:伪样本标签生成模块及迪利克雷分布采样监督优化模块;所述伪样本标签分布生成模块,将公开病例数据集输入生成模型中得到伪样本,再将伪样本输入到教师模型中得到伪样本标签分布;所述迪利克雷分布采样监督优化模块,将迪利克雷分布采样做伪样本标签分布的监督信息,优化生成模型;所述蒸馏模块,利用伪样本和教师模型对学生模型执行蒸馏过程,把教师模型的知识转移和压缩到学生模型中。2.根据权利要求1所述的基于标签分布采样的病例分类模型零样本提取系统,其特征在于,所述预训练生成模块通过公开病例数据集预训练生成模型将公开病例数据集的词频投射到正态分布上面,实现输入正态分布噪声到生成模型,得到公开病例数据集对应的词频单词。3.根据权利要求2所述的基于标签分布采样的病例分类模型零样本提取系统,其特征在于,所述生成模型采用了自然语言处理预训练模型Bert

mini,将一个正态分布变换为30522维度的one

hot词表单词索引,具体为:以Bert

mini作为基本架构,在其输入前和输出后增加两层全连接层和gumbel softmax模块对输入和输出进行变换;预训练生成模型模块包含:全连接模块,gumbel softmax模块,Bert

mini模块;全连接模块:将输入的正态分布噪声转化为jy8kk维度的词表长度向量,以及将Bert

mini模块输出的词向量表示重新转换为30522维度的词表长度向量,全连接层权重为W,偏置系数为b,线性层的输入为X,公式表达如下:Y=WX+bgumbel softmax模块:用于转换全连接层输出的词向量π通过gumbel softmax分布G
i
~Gumbel(0,1),并除以温度系数τ控制one hot向量的尖锐程度,其中π
i
和π
j
为π在第i和第j位置上的元素,转化为输入到Bert

mini模块的形式,模块输出为y
i
,公式表达如下:4.根据权利要求3所述的基于标签分布采样的病例分类模型零样本提取系统,其特征在于,所述Bert

mini模块,将噪声转化为词表示词向量形式;Bert

mini模块包括:词嵌入层模块,编码器模块;词嵌入层模块:采用单词嵌入E
t
,的作用是将单词转换为固定维的向量表示形式,分割嵌入E
s
,解决包含文本分类的自然语言处理任务,位置嵌入E
p
,让输入具有先后关系的时间属性,对输入的单词token X进行处理,公式表达如下:Y=E
t
(X)+E
s
(X)+E
p
(X)
transformer编码器模块:采用4个transformer编码器F
a
,以及相应的残差机制和层归一化F
n
,公式表达如下:Y=F
n
...(F
n
(F
n
(X+F
a
(X))+F
a
(F
n
(X+F
a
(X))))。5.根据权利要求1所述的基于标签分布采样的病例分类模型零样本提取系统,其特征在于,所述相似性矩阵生成模块根据教师模型最后一层线性层系数W计算类相似性系数C,其中w
i
和w
j
分别为系数W在位置i和位置j上的元素,得到类相似性矩阵具体为:6.根据权利要求1所述的基于标签分布采样的病例分类模型零样本提取系统,其特征在于,所述迪利克雷分布生成模块根据相似性矩阵系数C计算得到迪利克雷分布系数α,其中α
i
表示系数α第i个位...

【专利技术属性】
技术研发人员:陈晟蒋智威杜娟顾庆
申请(专利权)人:南京鼓楼医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1