医疗数据分类分级方法、计算机设备及存储介质技术

技术编号：30562780 阅读：13 留言：0更新日期：2021-10-30 13:46

本发明专利技术公开了一种医疗数据分类分级方法、计算机设备及存储介质，其中方法包括：医疗数据预处理：对医疗数据进行分词、过滤和词袋化处理；提取词向量：对预处理后的医疗数据进行词向量化，即将预处理后的医疗数据映射为词向量，再根据生成的词向量构建词向量语料库；构建分类模型：将所述词向量语料库中的词向量输入至TextCNN模型进行训练；分类分级预测：调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率，并输出分类分级结果。本发明专利技术可很好地解决数据稀疏、维度庞大进而导致的医疗数据分类结果准确率较低的问题。数据分类结果准确率较低的问题。数据分类结果准确率较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
医疗数据分类分级方法、计算机设备及存储介质

[0001]本专利技术涉及电数字数据
，尤其涉及一种医疗数据分类分级方法、计算机设备及存储介质。

技术介绍

[0002]传统的医疗数据分类方法主要分为两类。一是基于词典的数据分类，将数据与建立的词典库进行比对从而进行分类。二是基于机器学习的数据分类，该方法通过文本预处理、特征提取、文本表示等特征工程，如通过词袋模型计算词的出现频率，通过TF
‑
IDF模型计算文本中词的权重。在特征工程的基础上，使用SVM、朴素贝叶斯、K最近邻分类等分类模型进行分类。
[0003]但是，上述方案存在如下缺陷：基于词典的数据分类该方法简单，但需要建立繁琐的规则且需要人工维护规则库，无法解决医疗数据文本复杂多样，语法结构不规范的问题。基于机器学习的数据分类方法中使用的词袋模型、TF
‑
IDF模型将每个词汇看成是独立的特征，无法根据文本的语句序列来进行建模，无法获得文本的上下文关系，不仅丢失了词序信息，而且存在数据稀疏和维度灾难等问题。此外，SVM、朴素贝叶斯等算法属于有监督的机器学习方法，需要人工标注训练数据，人工标注数据的数量及质量将影响文本分类任务的性能，当数据训练不足时会影响分类效果。
[0004]因此，针对传统的医疗数据分类方法造成分类准确性不高的问题，需要提供一种新的医疗数据分类算法与模型。

技术实现思路

[0005]为了解决上述问题，本专利技术提出一种医疗数据分类分级方法、计算机设备及存储介质，用于解决数据稀疏、...

【技术保护点】

【技术特征摘要】
1.一种医疗数据分类分级方法，其特征在于，包括以下步骤：S1. 医疗数据预处理：利用分词工具，根据医疗类数据集中的医疗数据进行分词；根据需要过滤掉的字词和标点符号建立停用词语料库，在分词之后，根据所述停用词语料库将分词结果中的停用词过滤掉；将过滤后的医疗数据词袋化，统计词频并建立词典；S2. 提取词向量：对预处理后的医疗数据进行词向量化，即将预处理后的医疗数据映射为词向量，再根据生成的词向量构建词向量语料库；S3. 构建分类模型：将所述词向量语料库中的词向量输入至TextCNN模型进行训练，所述TextCNN模型包括输入层、卷积层、池化层、全连接层；所述输入层的输入为n*m的矩阵V，其中n为预处理后的医疗数据的词语数，m为每个词语对应的词向量维度；所述卷积层采用多个高度不同、宽度固定为词向量维度m的卷积核，以在不同长度的语句中提取不同视野尺寸的特征，所述卷积核与所述输入层进行卷积运算后获得特征序列；所述池化层对所述特征序列进行降维操作，生成所述特征序列的池化结果；所述全连接层通过Softmax函数将所述池化层的输出映射到（0,1）的范围内，即映射为概率；S4. 分类分级预测：调用已训练的TextCNN模型来计算待分类医疗数据的分类分级概率，并输出分类分级结果。2.根据权利要求1所述的医疗数据分类分级方法，其特征在于，步骤S2中，基于Word2Vec模型，通过Skip
‑
gram算法将预处理后的医疗数据映射为词向量；读取预处理后的医疗数据作为输入，训练一个m维的Word2Vec模型，将每个词映射到n维的向量空间并存储结果作为字典。3.根据权利要求1所述的医疗数据分类分级方法，其特征在于，在所述输入层中，对词向量进行padding即填充操作，使得每个句子的长度都一样。4.根据权利要求1所述的医疗数据分类分级方法，其特征在于，在所述卷积层中，不同高度的所述卷积核提取特征的方法包括以下步骤：S301. 采用1维卷积，公式如下：其中，L
in
为输入序列长度，L
out
为输出序列长度，Padding为填充，dilation为卷积的...

【专利技术属性】
技术研发人员：顾勤，李正，赵婷，吴直高，李青光，
申请(专利权)人：成都健康医联信息产业有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人