基于数据增强技术的智能分诊方法、装置、存储设备及终端制造方法及图纸

技术编号:30437821 阅读:19 留言:0更新日期:2021-10-24 17:41
本发明专利技术提供的基于数据增强技术的智能分诊方法、装置、存储设备及终端,所述智能分诊方法包括:S10,数据获取,获取患者的主诉文本,所述主诉文本包括:病情文本和基本信息文本;S20,预处理,对主诉文本进行预处理;S30,数据增强,对预处理后的主诉文本进行数据扩充,得到新文本集;S40,特征提取,对新文本集进行文本特征提取,得到文本特征向量集;S50,模型训练,对分类器进行训练,得到训练好的分类器模型;S60,分诊输出,将文本特征向量集输入训练好的分类器模型中,训练好的分类器模型将错误率被控制在目标范围内的类别作为文本分类结果并输出;本发明专利技术具有在相对较小的数据集下,准确率较高的有益效果,适用于医疗信息化领域。域。域。

【技术实现步骤摘要】
基于数据增强技术的智能分诊方法、装置、存储设备及终端


[0001]本专利技术涉及医疗信息化的
,具体涉及基于数据增强技术的智能分诊方法、装置、存储设备及终端。

技术介绍

[0002]文本分类技术主要是按照文本类型和特点实现对文本数据分析和归类;对于短文本(通常认为100词以内可以称为短文本),其具有字数少、特征维度高且稀疏等特点,常出现于网络媒体、社交平台等;对于主诉文本,根据长度分布情况,也属于短文本的范畴。
[0003]短本文分类技术中:由于字数短、包含的特征有限,使得通过少量信息推断句子含义比较困难,在相同算法下,分类精度较低。
[0004]在现有医疗环境下,病人前往医院就诊的过程中,往往需要自行决定挂哪个科室的号;然而,由于患者通常不具备足够的专业知识,不可避免会出现无法正确选择就诊科室的情况;虽然很多医院都在门诊安排有导诊人员,但考虑到实际就诊时的场景,仍然远不能满足病人的需求。
[0005]现有的为病人提供初步分诊意见的智能分诊系统,所涉及的技术方案虽然具有一定的分诊效率,但准确率仍不够高;目前的通用深度学习方法,其准确率往往取决于数据集的大小和质量,然而,由于医疗数据的敏感性、筛选出具有训练价值的数据量少,影响准确率。

技术实现思路

[0006]针对相关技术中存在的不足,本专利技术所要解决的技术问题在于:提供一种在相对较小的数据集下,准确率较高的基于数据增强技术的智能分诊方法、装置、存储设备及终端。
[0007]为解决上述技术问题,本专利技术采用的技术方案为:
[0008]基于数据增强技术的智能分诊方法,包括:
[0009]S10,数据获取,获取患者的主诉文本,所述主诉文本包括:病情文本和基本信息文本;
[0010]S20,预处理,对主诉文本进行预处理;
[0011]S30,数据增强,对预处理后的主诉文本进行数据扩充,得到新文本集;
[0012]S40,特征提取,对新文本集进行文本特征提取,得到文本特征向量集;
[0013]S50,模型训练,对分类器进行训练,得到训练好的分类器模型;
[0014]S60,分诊输出,将文本特征向量集输入训练好的分类器模型中,训练好的分类器模型将错误率被控制在目标范围内的类别作为文本分类结果并输出。
[0015]优选地,所述步骤S20,预处理,对主诉文本进行预处理;具体包括:
[0016]S201,对病情文本和基本信息文本分别进行去除停用词、分词处理;
[0017]S202,通过文本连接的方式将上述处理后的病情文本和基本信息文本进行合并关
联。
[0018]优选地,所述步骤S30,数据增强,对预处理后的主诉文本进行数据扩充,得到新文本集;具体包括:
[0019]S301,对预处理后的主诉文本进行语义识别,识别出主诉文本中的关键词;
[0020]S302,对主诉文本中的关键词,通过词转换进行文本扩充,以使新文本集的数据量大于主诉文本中的数据量;
[0021]其中,所述的词转换包括:同义词替换、随机插入、随机交换、随机删除中的至少一种方式。
[0022]优选地,所述步骤S302,对主诉文本中的关键词,通过词转换进行文本扩充所述同义词替换,具体包括:
[0023]S3021,建立基于词向量的同义词词典;
[0024]S3022,利用Word2Vec模型训练同义词词典;
[0025]S3023,将步骤S301中的关键词转换为关键词向量;
[0026]S3024,利用同义词词典,对关键词向量进行词转换,进行文本扩充得到新文本集。
[0027]优选地,所述步骤S50,模型训练,对分类器进行训练,得到训练好的分类器模型;具体包括:
[0028]S501,选择多个不同类型的分类器;
[0029]S502,每个分类器进行k折交叉验证,得到k个模型供随机抽取;
[0030]S503,随机抽取1个模型模拟概率图灵机模型的随机过程;
[0031]S504,指定目标错误率,利用概率图灵机模型进行识别,以使错误率被控制在目标范围内的类别作为文本分类结果并输出。
[0032]优选地,所述步骤S502,每个分类器进行k折交叉验证,具体包括:
[0033]S5021,将训练文本分为k份,每次选择其中1份向量数据不参与训练,其余k

1份向量数据作为训练集数据;
[0034]S5022,分别对每个分类器进行训练,得到k个训练集有差异的模型。
[0035]优选地,所述步骤S504中,所述错误率被控制在目标范围内,具体包括如下算法:
[0036]设M1是一台错误概率为ε的多项式时间概率图灵机,则对于任意给定的多项式poly(n),存在与M1等价的错误概率为:2

t
的多项式时间概率图灵机M2;
[0037]设M2模拟了2k次M1,且将M2的错误率限定在2

t
,t≥1;
[0038]错误率被控制在目标范围内,则需要M2满足:k≥t/a;
[0039]其中:ε是一个给定的常数,且0<ε<1/2;a=log2(4ε(1

ε))。
[0040]相应地,基于数据增强技术的智能分诊装置,其特征在于:包括:
[0041]数据获取模块,用于获取患者的主诉文本,所述主诉文本包括:病情文本和基本信息文本;
[0042]预处理模块,用于对主诉文本进行预处理;
[0043]数据增强模块,用于对预处理后的主诉文本进行数据扩充,得到新文本集;
[0044]特征提取模块,用于对新文本集进行文本特征提取,得到文本特征向量集;
[0045]分类器模型训练模块,用于对分类器进行训练,得到训练好的分类器模型;
[0046]识别模块,用于将文本特征向量集输入训练好的分类器模型中,训练好的分类器
模型将错误率被控制在目标范围内的类别作为文本分类结果并输出。
[0047]相应地,存储设备,其中存储有多条指令,其特征在于:所述指令适于由处理器加载并执行如上任一所述的基于数据增强技术的智能分诊方法。
[0048]相应地,终端,其特征在于:包括:
[0049]处理器,适于实现各指令;以及
[0050]存储设备,适于存储多条指令,所述指令适于由处理器加载并执行如上任一所述的基于数据增强技术的智能分诊方法。
[0051]本专利技术的有益技术效果在于:
[0052]1、本专利技术提供的基于数据增强技术的智能分诊方法及装置,在对获取的主诉文本进行预处理之后,通过数据增强,能够对主诉文本进行数据扩充,与通常做法相比,一定程度上解决了病情文本本信息量偏少,特征不足的问题,可以在小规模数据集上取得更好的泛化效果;使得在相对较小的数据集下,提高了分诊准确率,实用性极强。
[0053]2、本专利技术在进行分诊时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于数据增强技术的智能分诊方法,其特征在于:包括:S10,数据获取,获取患者的主诉文本,所述主诉文本包括:病情文本和基本信息文本;S20,预处理,对主诉文本进行预处理;S30,数据增强,对预处理后的主诉文本进行数据扩充,得到新文本集;S40,特征提取,对新文本集进行文本特征提取,得到文本特征向量集;S50,模型训练,对分类器进行训练,得到训练好的分类器模型;S60,分诊输出,将文本特征向量集输入训练好的分类器模型中,训练好的分类器模型将错误率被控制在目标范围内的类别作为文本分类结果并输出。2.根据权利要求1所述的基于数据增强技术的智能分诊方法,其特征在于:所述步骤S20,预处理,对主诉文本进行预处理;具体包括:S201,对病情文本和基本信息文本分别进行去除停用词、分词处理;S202,通过文本连接的方式将上述处理后的病情文本和基本信息文本进行合并关联。3.根据权利要求1所述的基于数据增强技术的智能分诊方法,其特征在于:所述步骤S30,数据增强,对预处理后的主诉文本进行数据扩充,得到新文本集;具体包括:S301,对预处理后的主诉文本进行语义识别,识别出主诉文本中的关键词;S302,对主诉文本中的关键词,通过词转换进行文本扩充,以使新文本集的数据量大于主诉文本中的数据量;其中,所述的词转换包括:同义词替换、随机插入、随机交换、随机删除中的至少一种方式。4.根据权利要求3所述的基于数据增强技术的智能分诊方法,其特征在于:所述步骤S302,对主诉文本中的关键词,通过词转换进行文本扩充所述同义词替换,具体包括:S3021,建立基于词向量的同义词词典;S3022,利用Word2Vec模型训练同义词词典;S3023,将步骤S301中的关键词转换为关键词向量;S3024,利用同义词词典,对关键词向量进行词转换,进行文本扩充得到新文本集。5.根据权利要求1所述的基于数据增强技术的智能分诊方法,其特征在于:所述步骤S50,模型训练,对分类器进行训练,得到训练好的分类器模型;具体包括:S501,选择多个不同类型的分类器;S502,每个分类器进行k折交叉验证,得到k个模型供随机抽取;S503,随机抽取1个模型模拟概率图灵机模型的随机过程;S504,指定目标错误率,利用概率图灵机模型...

【专利技术属性】
技术研发人员:赵杰石金铭崔芳芳王琳琳何贤英陈保站王文超
申请(专利权)人:郑州大学第一附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1