一种面向医疗文本数据的过滤方法及系统技术方案

技术编号：28223570 阅读：38 留言：0更新日期：2021-04-28 09:52

本发明专利技术提供了一种面向医疗文本数据的过滤方法,其具体步骤如下：获取未标注医疗类别标签的医疗记录数据集S，输入训练好的DSSM

全部详细技术资料下载

【技术实现步骤摘要】
一种面向医疗文本数据的过滤方法及系统

[0001]本专利技术属于自然语言处理领域，具体涉及一种面向医疗文本数据的过滤方法及系统。

技术介绍

[0002]随着互联网技术的飞速发展，医院存储海量的医疗信息和资源，但受到健康医疗大数据领域法律相关规则的滞后性，数据没有得到充分的挖掘和利用，相关发展受到制约。近些年来，健康医疗大数据相关产业已经被列入国家大数据战略布局，和医疗健康大数据相关的政策频出，以及人工智能技术的发展进步，利用机器学习算法充分挖掘医疗数据中有用信息成为研究的热点。
[0003]而医疗数据中最为核心、数据量最多且最有价值的数据为电子病历，是患者就医过程中所产生的数据，主要包括患者的基本信息和医疗记录数据。其中医疗记录数据包括患者病史、体格检查、辅助检查以及初步诊断结果，成为数据挖掘的主要方向。越来越多的研究者利用医学自然语言理解技术，特别是机器学习相关算法对医疗数据进行挖掘。
[0004]但医疗记录的文本序列长度远大于深度神经网络所能处理的序列长度，导致神经网络不能够很好的获取整个文本序列信息，训练得到最优模型，故需要对医疗数据进行压缩过滤。

技术实现思路

[0005]针对上述
技术介绍
介绍中存在的问题，本专利技术的目的在于提供了一种面向医疗文本数据的过滤方法及系统，通过对医疗记录按句分割，统计句子频率并排序等数据预处理操作，得到可训练数据集，然后通过多种基模型对数据进行训练，并融合投票机制对预测结果进行投票，再对错误的预测结果进行反馈修正，最后根据最终预测结果过滤掉数据。<...

【技术保护点】

【技术特征摘要】
1.一种面向医疗文本数据的过滤方法,其具体步骤如下：获取未标注医疗类别标签的医疗记录数据集S，输入训练好的DSSM
‑
C
‑
BiLSTM模型，输出数据集S的预测医疗类别标签Label，通过标签Label进行数据过滤；所述DSSM
‑
C
‑
BiLSTM模型训练过程如下：(1)收集医疗记录数据集A，并对医疗记录数据集A进行数据预处理，得到数据集B，并将数据集B划分为训练集和测试集；(2)构建DSSM
‑
C
‑
BiLSTM模型，将数据集B的训练集输入到DSSM
‑
C
‑
BiLSTM模型中进行训练学习，并将数据集B的测试集输入到训练好的DSSM
‑
C
‑
BiLSTM模型中，得到医疗类别标签概率，输出预测医疗类别标签；(3)根据预测医疗类别标签和真实医疗类别标签进行模型评价指标计算，当模型评价指标满足条件后，模型训练完成。2.根据权利要求1所述的一种面向医疗文本数据的过滤方法，其特征在于：步骤(2)还包括步骤：构建多个基础模型，将数据集B的训练集输入到1个或多个基础模型中进行训练学习，并将将数据集B的测试集输入到训练好的1个或多个基础模型中，得到医疗类别标签概率，输出预测医疗类别标签；采用投票机制对所有模型得到的预测医疗类别标签进行投票融合，得到预测医疗类别标签；所述基础模型包括以下一种或多种：CNN模型、LSTM模型、BiLSTM模型、C
‑
BiLSTM模型。3.根据权利要求1所述的一种面向医疗文本数据的过滤方法，其特征在于：步骤(1)中对医疗记录数据集A进行数据预处理的具体步骤如下：(1.1)获取数据：收集医疗记录数据集A，数据集A包括N条医疗记录，医疗记录数据主要病历特征，拟诊讨论以及医疗计划，数据集A的形式为A＝{text1,text2,
…
,text
n
,
…
,text
N
}，其中text
n
表示第n条医疗记录，text
n
＝{word
n1
,word
n2
,
…
,word
nm
,
…
,word
nlen(n)
}，其中word
nm
表示第n条医疗记录第m个词，len(n)为第n条医疗记录的长度，表示第n条医疗记录的词语个数；(1.2)数据清洗：根据步骤(1.1)中获取的数据，对其进行数据清洗，包括以下一种或几种处理：相似文本去重，缺失的文本去除，以及对短的文本进行删除；(1.3)正则提取：对医疗记录数据集A进行正则提取医疗记录中病例特征部分，得到新的医疗记录数据集A
′
；(1.4)分词：利用jieba分词对数据集A
′
进行分词，并建立停用词典，移除掉语气词、标点符号、数字以及特殊符号；(1.5)获取标注数据:对数据集A
′
按句分割，得到新的数据集B，并对数据集B标注医疗记录的医疗类别，标签Label表示医疗记录的医疗类别。4.根据权利要求3所述的一种面向医疗文本数据的过滤方法，其特征在于：步骤(1.5)中的数据标注采用人工标注或半自动化标注；标注方法是1)统计数据集B每个句子出现的频率，并对句频进行降序操作，对句频较高的数据进行半自动化标注；或者是
2)采用频繁项集挖掘算法，基于已标注医疗类别的医疗记录数据集C挖掘频繁出现的某一医疗类别的模式，当数据集B也包含该医疗类别的模式，则可标注数据集B的标签Label为该医疗类别的模式对应的标签；若数据集B无法标注任一医疗类别，则进行人工标注；若数据集B标注出现两个及以上医疗类别，则进行人工标注。或者是3)采用词汇打分方法，基于已标注医疗类别的医疗记录数据集C为词表V中的医疗领域专业词汇打分，识别数据集B的词汇，给其句子中对应词汇打分，计算分值，若满足设定阈值，则标注相应的类别标签，若不满足阈值，则进行人工标注；若数据集B出现无对应分数的词汇，则不打分。5.根据权利要求1所述的一种面向医疗文本数据的过滤方法，其特征在于：步骤(2)中的DSSM
‑
C
‑
BiLSTM模型由6个连续的层组成，分别为DSSM词嵌入层，用于对输入的数据集B的每个词汇使用DSSM文本嵌入式表示方法输出DSSM词向量B_DSSM；卷积层，用于对DSSM词嵌入层输出的DSSM词向量B_DSSM进行卷积计算，输出卷积层学习特征向量B_CNN；空间注意力机制层，用于对卷积层输出的卷积层学习特征向量B_CNN进行空间注意力分配，对连续输入的序列中的每一时刻输入文本位置向量进行特征提取，并根据卷积层层级中的隐藏状态以及相似特征词向量，计算每一时刻的注意力权重，并加权后输出新的特征向量双向LSTM层，用于对空间注意力机制层输出的特征向量进行编码，提取序列特征输出给时间注意力机制层，并对时间注意力机制层输出的特征向量e
t
和前一次解码生成的输出序列进行解码输出本次的特征向量y
t
给全连接层；时间注意力机制层，用于将双向LSTM层编码后得到的数据向量进行时间注意力分配，对每一时刻输入文本位置向量进行特征提取，并根据LSTM编码层级中的隐藏状态以及相似特征词向量，计算每一时刻的注意力权重，并加权后输出的特征向量e
t
；全连接层，用于对输入的特征向量y
t
进行整合，使用softmax函数进行归一化，输出文本中属于不同类别的概率。6.根据权利要求5所述的一种面向医疗文本数据的过滤方法，其特征在于：DSSM词嵌入层的文本嵌入的具体步骤如下：数据集B为B＝{(term1,label1),(term2,label2),
…
,(term
n
,label
n
),
…
,(term
N
,label
N
)}，term
n
＝{word
n1
,word
n2
,
…
,word
nd
,
…
word
nct_n
}，其中N为样本个数，nct_n为第n条训练数据的词汇个数；对于输入训练文本中的每个词汇word
nd
，使用DSSM文本嵌入式表示方法，维度为d，由于卷积层需要固定长度的输入，因此在每个输入文本的开头和结尾都用特殊符号填充表示未登录词，以确保长度等于限定的最大长度maxlen，如果nct_n小于maxlen，填充至maxlen；输入训练文本中的每个词汇经过下面公式(1)
‑
(4)计算，最终输出低维的词向量，得到数据集B的DSSM向量表示为：B_DSSM＝{(W1,lable1),(W2,lable2),
…
,(W
n
,lable
n
)}，其中，W
n
＝{w1,w2,
…
,w
i
,
…
,w
maxlen
}，w
i
∈R
d
是输入文本中第i个词在d维上的DSSM向量表示；其中DSSM词嵌入层包括：输入层、隐藏层、输出层，首先对词表V中的|V|个词语进行
one
‑
hot编码，得到1*|V|的矩阵M，将其输入到DSSM模型中进行迭代训练，并经过relu函数计算得到低维语义向量；那么隐藏层则为|V|*d的向量矩阵，其中隐藏层的矩阵用N表示，|V|代表词表的大小，d代表词向量的维度，最后得到每个词语的词向量：Q＝M*N；其中输出DSSM向量y表示为：l1＝u1x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)l
i
＝f(u
i
l
i
‑1+b
i
),i＝2,...,d
‑1ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)y＝f(u
d
l
d
‑1+b
d
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中，x为输入DSSM的one
‑
hot高维向量，u
i
表示第i层的权值矩阵，b
i
表示第i层的bias项；第一隐层向量l1，偏置为0，第i个隐层向量l
i
；在每次卷积运算之后加入激活函数relu进行非线性变换，其表达式如下:relu(x)＝max(0,x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)如果输入的x小于0，则令输出等于0；如果输入的x大于0，则令输出等于输入；假设输入训练语料term
n
＝{word
n1
,word
n2
,
…
,word
nd
,
…
word
nct_n
}，若输入term
n
中的词汇个数小于maxlen，则填充至maxlen，其中每个输入词汇向量表示w＝maxlen*d，则输入序列向量为W＝(w1,w2,
…
,w
n
,
…
,w
maxlen
)。7.根据权利要求6所述的一种面向医疗文本数据的过滤方法，其特征在于：卷积层由三个连续的卷积和非线性变换来进行特征表示，令k
×
l为R
k
×
l
的二维卷积过滤器的大小，则每个过滤器都会产生一个特征图v∈R

【专利技术属性】
技术研发人员：郑申文，韩振兴，刘祥，丁锴，陈涛，李建元，
申请(专利权)人：银江股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人