一种基于制造技术

技术编号:39599817 阅读:11 留言:0更新日期:2023-12-03 19:59
一种基于

【技术实现步骤摘要】
一种基于Longformer的电子病历多标签文本分类方法


[0001]本专利技术属于文本分类
,具体涉及一种基于
Longformer
的电子病历多标签文本分类方法


技术介绍

[0002]随着计算机技术和电子病历的普及,使得人们获得了巨量的电子病历数据,对进行电子病历的数据分析,电子病历文本分类是其中的重要内容

当前较为常用的模型在提取电子病历的文本特征时具有一定的局限性,主要体现在以下几个方面:
(1)
电子病历文本长度较长,模型无法准确提取长句子的文本特征
。(2)
电子病历文本句子长短不一,文本特征提取效果不好
。(3)
电子病历存在很多关联信息,同时存在大量噪声信息,导致分类整体性能偏低


技术实现思路

[0003]为了解决上述存在的问题,本专利技术提出:一种基于
Longformer
的电子病历多标签文本分类方法,包括如下步骤:
[0004]S1、
电子病历的文本通过
Longformer
预训练模型被转化为词向量,词向量作为多滤波器残差卷积神经网络的输入,多滤波器残差卷积神经网络由多滤波器卷积神经网络和残差卷积神经网络组成;
[0005]S2、
多滤波器卷积神经网络由不同大小的卷积核组构成,不同大小的卷积核提取模型中不同长度文本的特征信息;
[0006]S3、
残差卷积神经网络是一种残差结构,辅助模型解决神经网络退化的问题,解决深度神经网络梯度消失和梯度爆炸的问题;
[0007]S4、
在经过分别经过
n
个不同大小卷积核的多滤波器残差卷积神经网络提取词向量特征之后,输出
n
个隐藏特征矩阵,在模型中加入重新校准聚合模块对数据集进行降噪处理,重新校准聚合模块接受多滤波器残差卷积神经网络的输出作为输入,该模块重新校准提取到的文本特征,聚合原始文本特征和重新校准的特征,最终将新的表示与原始表示结合起来;
[0008]S5、
加入
MLP
层来提加深模型的深度,使用注意力机制进一步对特征矩阵进行处理;
[0009]S6、
将结果输入至前馈神经网络后,使用
sigmoid
函数进行分类,预测各标签的概率

[0010]本专利技术的有益效果为:在经过
Longformer
预训练模型

多滤波器残差卷积神经网络和重新聚合校准模块以及标签注意力机制的处理后,数据集中的文本语义已经被充分的提取

但是考虑到数据集规模较大,并且具有标签分布不平衡的情况,因此为了增大模型的整体深度,扩充深度学习中神经元的层数,使模型在某些有些的标签之中更好地学习文本的特征,拟合数据的信息,在模型的结尾加入前馈神经网络

最后通过
sigmoid
函数对结果
进行输出

并且在加入前馈神经网络之后,模型的性能得到了略微的提高,这也进一步证明了前馈神经网络在本模型之中的作用

附图说明
[0011]图1为本专利技术的整体技术路线图;
[0012]图2为本专利技术的整体模型结构图;
[0013]图3为本专利技术的
Longformer
处理词向量的过程图;
[0014]图4为本专利技术的分段机制图;
[0015]图5为本专利技术的多滤波器残差卷积神经网络图;
[0016]图6为本专利技术的多滤波器卷积神经网络图;
[0017]图7为本专利技术的残差块结构图;
[0018]图8为本专利技术的
RAM
计算过程图;
[0019]图9为本专利技术的上采样计算过程图;
[0020]图
10
为本专利技术的标签依赖示例图
[0021]图
11
为本专利技术的标签注意力机制模型图;
[0022]图
12
整体模型输入长度对比图1;
[0023]图
13
整体模型输入长度对比图
2。
具体实施方式
[0024]本专利技术提供了一种基于
Longformer
的电子病历多标签文本分类方法,包括如下步骤:
[0025]S1、
电子病历的文本通过
Longformer
预训练模型被转化为词向量,词向量作为多滤波器残差卷积神经网络的输入,多滤波器残差卷积神经网络由多滤波器卷积神经网络和残差卷积神经网络组成;
[0026]S2、
多滤波器卷积神经网络由不同大小的卷积核组构成,不同大小的卷积核提取模型中不同长度文本的特征信息;
[0027]S3、
残差卷积神经网络是一种残差结构,辅助模型解决神经网络退化的问题,解决深度神经网络梯度消失和梯度爆炸的问题;
[0028]S4、
在经过分别经过
n
个不同大小卷积核的多滤波器残差卷积神经网络提取词向量特征之后,输出
n
个隐藏特征矩阵,在模型中加入重新校准聚合模块对数据集进行降噪处理,重新校准聚合模块接受多滤波器残差卷积神经网络的输出作为输入,该模块重新校准提取到的文本特征,聚合原始文本特征和重新校准的特征,最终将新的表示与原始表示结合起来,以达到降噪的效果;
[0029]S5、
加入
MLP
层来提加深模型的深度,使用注意力机制进一步对特征矩阵进行处理;
[0030]S6、
将结果输入至前馈神经网络后,使用
sigmoid
函数进行分类,预测各标签的概率

[0031]模型整体架构具体如下:
[0032]首先,由于电子病历文本一般长度很长,普通预训练模型难以容纳电子病历文本
的整体长度,因此本文使用
Longformer
作为模型的预训练模型

电子病历的文本会通过
Longformer
预训练模型被转化为词向量,词向量会成为多滤波器残差卷积神经网络的输入

多滤波器残差卷积神经网络由多滤波器卷积神经网络和残差卷积神经网络组成

其中多滤波器卷积神经网络由不同大小的卷积核组构成,不同大小的卷积核有助于模型提取不同长度文本的特征信息

残差卷积神经网络是一种残差结构,它可以帮助模型解决神经网络退化的问题,解决深度神经网络梯度消失和梯度爆炸的问题

而由于本文使用的
MIMIC
数据集规模比较庞大且本文模型网络深度较深,因此残差卷积神经网络的特性很适合本文的模型

[0033]在经过分别经过
n
个不同大小卷积核的多滤波器残差卷积神经网络提取词向量特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于
Longformer
的电子病历多标签文本分类方法,其特征在于,包括如下步骤:
S1、
电子病历的文本通过
Longformer
预训练模型被转化为词向量,词向量作为多滤波器残差卷积神经网络的输入,多滤波器残差卷积神经网络由多滤波器卷积神经网络和残差卷积神经网络组成;
S2、
多滤波器卷积神经网络由不同大小的卷积核组构成,不同大小的卷积核提取模型中不同长度文本的特征信息;
S3、
残差卷积神经网络是一种残差结构,辅助模型解决神经网络退化的问题,解决深度神经网络梯度消失和梯度爆炸的问题;
S4、
在经过分别经过
n
个不同大小卷积核的多滤波器残差卷积神经网络提取词向量特征之后,输出
n
个隐藏特征矩阵,在模型中加入重新校准聚合模块对数据集进行降噪处理,重新校准聚合模块接受多滤波器残差卷积神经网络的输出作为输入,该模块重新校准提取到的文本特征,聚合原始文本特征和重新校准的特征,最终将新的表示与原始表示结合起来;
S5、
加入
MLP
层来提加深模型的深度,使用注意力机制进一步对特征矩阵进行处理;
S6、
将结果输入至前馈神经网络后,使用
sigmoid
函数进行分类,预测各标签的概率
。2.
如权利要求1所述的基于
Longformer
的电子病历多标签文本分类方法,其特征在于,所述步骤
S1
中,
Longformer
提取文本词向量,使用
Longformer
所提出的注意力机制来改进
Bert
中的
Transformer

Longformer
采用膨胀滑窗机制的滑窗机制适用于文本分类任务,考虑全面的上下文信息,使用膨胀滑窗机制对
Transformer
进行改进
。3.
如权利要求1所述的基于
Longformer
的电子病历多标签文本分类方法,其特征在于,所述步骤
S2
中,在多滤波器卷积神经网络接收词向量作为输入时,通过卷积操作对词向量进行进一步的特征提取操作,卷积的过程操作如
(3

1)
所示,其中,表示进行一个从左到右的卷积操作,
f1与
f
n
表示相应的滤波器,
H1与
H
n
表示多滤波器卷积神经网络输出的特征矩阵,
E
表示词向量矩阵,和指相应滤波器的权重矩阵,表示词向量矩阵
E
的子集,这个子集开始于第
j
行,结束于行,而同理,它开始于第
j
行,结束于第
j+k
m
‑1行
。4.
如权利要求1所述的基于
Longformer
的电子病历多标签文本分类方法,其特征在于,所述步骤
S3
中,在多滤波器卷积层中的每个滤波器顶部,加入了一个残差神经网络,解决梯度消失和梯度爆炸的问题,一个残差神经网络由
p
个残差块组成,对于一个残差块,内部由三个卷积滤波器组成,残差块接收多滤波器卷积神经网络的输入
H
,将它通过滤波器
r1进行处理,处理过程如
(3

2)
所示,
其中,
X1表示滤波器
r1的输出,表示滤波器
r1的权重矩阵,是特征矩阵
H
的子集,它开始于
H
矩阵的第
j
行,结束于第
j+k
m
‑1列,当滤波器
r1输出
X1之后,
X1会作为下一个滤波器
r2的输入,处理过程如
(3

3)
所示,其中,
X2表示滤波器
r1的输出,表示滤波器
r2的权重矩阵,是
X1的子集,它开始于
H
矩阵的第
j
行,结束于第
j+k
m
‑1列;而多滤波器卷积神经网络的输出
H
,会成为滤波器
r3的输入,经由滤波器
r3进行卷积操作后,输出
X3,处理过程如
(3

4)
所示,其中,
X3表示滤波器
r3的输出,表示滤波器
r3的权重矩阵,
H
j:j

H
的子集,它指代特征矩阵
H
中第
j
行的特征向量;
X2与
X3经过元素相加即可得到残差卷积网络的输出
X
,而每个残差块的输出
X
ip
,进行拼接形成新的特征矩阵
Y
,被输出到重新校准聚合模块之中,通过重新校准聚合模块对输出进行进一步的降噪操作
。5.
如权利要求1所述的基于
Longformer
的电子病历多标签文本分类方法,其特征在于,所述步骤
S4
...

【专利技术属性】
技术研发人员:赵迪孟佳娜李雪莹于玉海闫婧孙世昶
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1