医疗数据分类分级方法、计算机设备及存储介质技术

技术编号:30562780 阅读:13 留言:0更新日期:2021-10-30 13:46
本发明专利技术公开了一种医疗数据分类分级方法、计算机设备及存储介质,其中方法包括:医疗数据预处理:对医疗数据进行分词、过滤和词袋化处理;提取词向量:对预处理后的医疗数据进行词向量化,即将预处理后的医疗数据映射为词向量,再根据生成的词向量构建词向量语料库;构建分类模型:将所述词向量语料库中的词向量输入至TextCNN模型进行训练;分类分级预测:调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率,并输出分类分级结果。本发明专利技术可很好地解决数据稀疏、维度庞大进而导致的医疗数据分类结果准确率较低的问题。数据分类结果准确率较低的问题。数据分类结果准确率较低的问题。

【技术实现步骤摘要】
医疗数据分类分级方法、计算机设备及存储介质


[0001]本专利技术涉及电数字数据
,尤其涉及一种医疗数据分类分级方法、计算机设备及存储介质。

技术介绍

[0002]传统的医疗数据分类方法主要分为两类。一是基于词典的数据分类,将数据与建立的词典库进行比对从而进行分类。二是基于机器学习的数据分类,该方法通过文本预处理、特征提取、文本表示等特征工程,如通过词袋模型计算词的出现频率,通过TF

IDF模型计算文本中词的权重。在特征工程的基础上,使用SVM、朴素贝叶斯、K最近邻分类等分类模型进行分类。
[0003]但是,上述方案存在如下缺陷:基于词典的数据分类该方法简单,但需要建立繁琐的规则且需要人工维护规则库,无法解决医疗数据文本复杂多样,语法结构不规范的问题。基于机器学习的数据分类方法中使用的词袋模型、TF

IDF模型将每个词汇看成是独立的特征,无法根据文本的语句序列来进行建模,无法获得文本的上下文关系,不仅丢失了词序信息,而且存在数据稀疏和维度灾难等问题。此外,SVM、朴素贝叶斯等算法属于有监督的机器学习方法,需要人工标注训练数据,人工标注数据的数量及质量将影响文本分类任务的性能,当数据训练不足时会影响分类效果。
[0004]因此,针对传统的医疗数据分类方法造成分类准确性不高的问题,需要提供一种新的医疗数据分类算法与模型。

技术实现思路

[0005]为了解决上述问题,本专利技术提出一种医疗数据分类分级方法、计算机设备及存储介质,用于解决数据稀疏、维度庞大进而导致的医疗数据分类结果准确率较低的问题。
[0006]本专利技术采用的技术方案如下:一种医疗数据分类分级方法,包括以下步骤:S1. 医疗数据预处理:利用分词工具,根据医疗类数据集中的医疗数据进行分词;根据需要过滤掉的字词和标点符号建立停用词语料库,在分词之后,根据所述停用词语料库将分词结果中的停用词过滤掉;将过滤后的医疗数据词袋化,统计词频并建立词典;S2. 提取词向量:对预处理后的医疗数据进行词向量化,即将预处理后的医疗数据映射为词向量,再根据生成的词向量构建词向量语料库;S3. 构建分类模型:将所述词向量语料库中的词向量输入至TextCNN模型进行训练,所述TextCNN模型包括输入层、卷积层、池化层、全连接层;所述输入层的输入为n*m的矩阵V,其中n为预处理后的医疗数据的词语数,m为每个词语对应的词向量维度;所述卷积层采用多个高度不同、宽度固定为词向量维度m的卷积核,以在不同长度的语句中提取不同视野尺寸的特征,所述卷积核与所述输入层进行卷积运算后获得特征序列;所述池化层对所
述特征序列进行降维操作,生成所述特征序列的池化结果;所述全连接层通过Softmax函数将所述池化层的输出映射到(0,1)的范围内,即映射为概率;S4. 分类分级预测:调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率,并输出分类分级结果。
[0007]进一步地,步骤S2中,基于Word2Vec模型,通过Skip

gram算法将预处理后的医疗数据映射为词向量;读取预处理后的医疗数据作为输入,训练一个m维的Word2Vec模型,将每个词映射到n维的向量空间并存储结果作为字典。
[0008]进一步地,在所述输入层中,对词向量进行padding即填充操作,使得每个句子的长度都一样。
[0009]进一步地,在所述卷积层中,不同高度的所述卷积核提取特征的方法包括以下步骤:S301. 采用1维卷积,公式如下:其中,L
in
为输入序列长度,L
out
为输出序列长度,Padding为填充,dilation为卷积的扩张率,kernel_size为所述卷积核大小,stride为步长;S302. 所述卷积核沿着预处理后的医疗数据的文本方向进行移动,所述卷积核与所述输入层进行卷积运算后获得的特征序列为:其中,C
i
的计算公式为:其中,f为非线性函数,W为所述卷积核的权重矩阵,X
i:i+h
‑1为预处理后的医疗数据中的第i个词到第i+h

1个词对应的词向量,h为所述卷积核的高度,b为偏置项。
[0010]进一步地,所述非线性函数设置为Relu函数,即修正线性单元函数,其计算公式如下:当输入小于0时,输出都是0;当输入大于0时,输出与输入相等。
[0011]进一步地,所述卷积核设置为3个,分别是2*m、3*m和4*m,其中m为词向量的维度。
[0012]进一步地,所述池化层对所述特征序列进行的降维操作包括:首先提取所述特征序列中的最大值C
max
,然后对所述特征序列中除最大值以外的剩余数据求平均值C
avg
,再将最大值C
max
和平均值C
avg
拼接在一起作为所述特征序列的池化结果,其中:其中,表示所述特征序列中除最大值以外的剩余数
据。
[0013]进一步地,在所述全连接层中,所述Softmax函数的计算公式如下:其中,z
j
为第j个节点的输出值,k为输出节点的个数即分类分级的类别个数。
[0014]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述医疗数据分类分级方法的步骤。
[0015]一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述医疗数据分类分级方法的步骤。
[0016]本专利技术的有益效果在于:(1)本专利技术提出的医疗数据分类分级方法可很好地解决数据稀疏、维度庞大进而导致的医疗数据分类结果准确率较低的问题。
[0017](2)本专利技术在提取词向量的过程中,基于Word2Vec模型,通过Skip

gram算法将预处理后的医疗数据映射为词向量。具体读取预处理后的医疗数据作为输入,训练一个n维的Word2Vec模型,将每个词映射到n维的向量空间并存储结果作为字典。这样做能有效降低运算量,使高纬的稀疏表示,映射到低维的向量表示,保存了更多的语义信息。
[0018](3)本专利技术在池化层进行降维操作的过程中,提出了一种新的融合剩余信息的最大值池化方法,首先提取特征序列中的最大值,然后对特征序列中除最大值以外的剩余数据求平均值,再将最大值和剩余数据平均值拼接在一起,作为特征序列的池化结果,可避免信息丢失的问题,兼顾性能与效率。
[0019](4)本专利技术在进行卷积运算时,采用的非线性函数为Relu函数,可减少参数间相互依赖的关系,缓解梯度消失的问题,收敛速度与Sigmoid和Tanh函数相比较快。
[0020](5)本专利技术与传统基于机器学习算法的分类相比,传统机器学习算法准确率为61%左右,本专利技术的医疗数据分类分级方法的准确率为72.1%,准确率提升了18.2%左右。
附图说明
[0021]图1是本专利技术实施例1的医疗数据分类分级方法流程图。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗数据分类分级方法,其特征在于,包括以下步骤:S1. 医疗数据预处理:利用分词工具,根据医疗类数据集中的医疗数据进行分词;根据需要过滤掉的字词和标点符号建立停用词语料库,在分词之后,根据所述停用词语料库将分词结果中的停用词过滤掉;将过滤后的医疗数据词袋化,统计词频并建立词典;S2. 提取词向量:对预处理后的医疗数据进行词向量化,即将预处理后的医疗数据映射为词向量,再根据生成的词向量构建词向量语料库;S3. 构建分类模型:将所述词向量语料库中的词向量输入至TextCNN模型进行训练,所述TextCNN模型包括输入层、卷积层、池化层、全连接层;所述输入层的输入为n*m的矩阵V,其中n为预处理后的医疗数据的词语数,m为每个词语对应的词向量维度;所述卷积层采用多个高度不同、宽度固定为词向量维度m的卷积核,以在不同长度的语句中提取不同视野尺寸的特征,所述卷积核与所述输入层进行卷积运算后获得特征序列;所述池化层对所述特征序列进行降维操作,生成所述特征序列的池化结果;所述全连接层通过Softmax函数将所述池化层的输出映射到(0,1)的范围内,即映射为概率;S4. 分类分级预测:调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率,并输出分类分级结果。2.根据权利要求1所述的医疗数据分类分级方法,其特征在于,步骤S2中,基于Word2Vec模型,通过Skip

gram算法将预处理后的医疗数据映射为词向量;读取预处理后的医疗数据作为输入,训练一个m维的Word2Vec模型,将每个词映射到n维的向量空间并存储结果作为字典。3.根据权利要求1所述的医疗数据分类分级方法,其特征在于,在所述输入层中,对词向量进行padding即填充操作,使得每个句子的长度都一样。4.根据权利要求1所述的医疗数据分类分级方法,其特征在于,在所述卷积层中,不同高度的所述卷积核提取特征的方法包括以下步骤:S301. 采用1维卷积,公式如下:其中,L
in
为输入序列长度,L
out
为输出序列长度,Padding为填充,dilation为卷积的...

【专利技术属性】
技术研发人员:顾勤李正赵婷吴直高李青光
申请(专利权)人:成都健康医联信息产业有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1