当前位置: 首页 > 专利查询>广州大学专利>正文

一种基于对抗数据增强的医疗文本专业分类方法技术

技术编号:36563966 阅读:15 留言:0更新日期:2023-02-04 17:19
本发明专利技术涉及医疗文本专业分类领域,且公开了一种基于对抗数据增强的医疗文本专业分类方法,对医疗文本数据进行预处理;基于对抗攻击数据增强方法提高医疗文本数据集的质量;将预处理好的医疗文本构建为词向量矩阵,作为卷积神经网络的输入或者调整为与训练模型要求的格式作为预训练模型的输入;基于关键文本概率信息的分类层,该基于对抗数据增强的医疗文本专业分类方法,有效缓解了医疗文本专业分类数据集面临的数据量不足、质量差和类别不平衡的问题,由于本发明专利技术采用了多步对抗攻击来产生增强样本,因此产生的增强数据不只是简单的与原始数据相似,还能达到覆盖更大的模型决策空间的特点。间的特点。间的特点。

【技术实现步骤摘要】
一种基于对抗数据增强的医疗文本专业分类方法


[0001]本专利技术涉及医疗文本专业分类领域,具体为一种基于对抗数据增强的医疗文本专业分类方法。

技术介绍

[0002]近年来,深度神经网络(DNNs)在各个领域的分类任务中取得了明显的成功,如计算机视觉、网络异常行为、医疗文本和图像等。DNNs也被应用于电子病历(EHR)系统,电子病历系统的广泛使用使得医疗专业分类的任务在现代医疗中变得更加重要。将临床笔记分类到医学专业领域如骨科、眼科、内分泌科等领域可以提高EHR系统的检索效率,使医生能够快速找到目标信息。此外,将临床笔记自动分类到正确的医疗领域可以有效地扩展医疗专业水平的下游应用。例如,明确医学子领域有利于医学知识的提取,并有效支持智能医疗决策系统。然而,获取和标记以非结构化文本形式存储的医疗文本并不容易。对于医学专业分类任务,不同的医生写作风格、文本信息的敏感性、不同疾病的爆发概率等不同医学子领域的特性导致了医疗文本数据集存在着数据量不足、质量差和不平衡的问题,这些数据集的问题进一步地导致分类任务的准确率低的问题。
[0003]下述为现有的专利以及方案:
[0004]例如专利“一种基于CNN

DBN的层次多标签医疗问题分类方法”(申请号201910490855.X)通过在CNN(卷积神经网络)中添加了标签分类器DBN的方法构建了一个层次多标签医疗问题分类方法;
[0005]在论文“Medical subdomain classification of clinical notes using a machine learning

based natural language processing approach”(Weng W H,Wagholikar K B,Mccray A T,et al.Medical subdomain classification of clinical notes using a machine learning

based natural language processing approach[J].Bmc Medical Informatics&Decision Making,2017,17(1):155.)中,作者构建了一个基于机器学习的自然语言处理(NLP)管道,开发了一个基于医疗记录内容的医疗子域分类器;另外一些工作把焦点放在改善数据集存在的问题上。
[0006]专利“一种数据增强的方法和设备”(申请号CN202010648077.5)通过GT2模型生成特定医疗领域的语料用于数据扩充来解决医疗数据集存在数据量不足、质量差和不平衡的问题。
[0007]上述解决医疗专业分类的技术中:
[0008]第一项技术虽然改善了单纯使用CNN作为分类模型的准确率,但是其融合了标签分类器的CNN

DBN层次分类器的分类结果并理想。这是由于医疗文本存在着一些专业词汇只存在于专业领域的特征,这一点并没有被CNN

DBN层次分类器充分利用。
[0009]第二项技术结合了多个机器学习模型,构造的分类器不限制数据为电子病历,但是在训练过程中仍然面临着数据量不足、质量差和类别不平衡的问题。
[0010]第三项技术是医疗文本的数据增强技术,虽然使用到了先进的GT2模型作为语料
库的生成器,通过生成接近原始数据的新数据来丰富训练集,但是新增的语料虽与原样本相似,却忽略了数据在模型决策空间的分布。
[0011]为此我们提出了一种基于对抗数据增强的医疗文本专业分类方法。

技术实现思路

[0012](一)解决的技术问题
[0013]针对现有技术的不足,本专利技术提供了一种基于对抗数据增强的医疗文本专业分类方法,解决医疗数据集存在数据量不足、质量差和类别不平衡的问题,提高医疗文本专业分类任务的准确率。
[0014](二)技术方案
[0015]为实现上述所述目的,本专利技术提供如下技术方案:一种基于对抗数据增强的医疗文本专业分类方法,包括以下步骤:
[0016]第一步:对医疗文本数据进行预处理;
[0017]第二步:基于对抗攻击数据增强方法提高医疗文本数据集的质量;
[0018]第三步:将预处理好的医疗文本构建为词向量矩阵,作为卷积神经网络的输入或者调整为与训练模型要求的格式作为预训练模型的输入;
[0019]第四步:基于关键文本概率信息的分类层,利用医疗文本中专业词的出现往往关联专业领域的特征,进一步对神经网络的分类结果做调整。
[0020]优选的,所述第二步中的基于对抗攻击数据增强方法包括以下步骤:
[0021]词的重要性排序;
[0022]组合候选词;
[0023]构建数据增强例子。
[0024]优选的,所述词的重要性排序包括以下内容:
[0025]将替换词的嵌入向量差计算为[MASK],并通过向量差在梯度方向的投影来衡量词的重要性,每个词w
i
在x中的重要性被计算为I(w
i
,x);
[0026][0027]其中,V
[MASK]为[MASK]的嵌入,为单词w
i
的嵌入,J为模型F的损失函数。
[0028]优选的,所述组合候选词包括以下步骤:
[0029]利用预先训练好的词向量模型Glove,为语料库中的每个w
i
确定同义词集Syn
wi
,基于w和同义词集中的每个词之间的余弦相似度,从WordNet中w
i
的同义词集中选取k个最接近的词,在确定每个词的候选词后,为要被扰乱的词初始化一个替换集CandiSet,对于每个攻击动作,从排序后的集合W中选择前t个词作为被扰乱的词集PerSet=w
i
,...,w
i+t
,其中i是第i个攻击动作。
[0030]优选的,所述构建数据增强例子包括以下内容:
[0031]用CandiSet中的候选词组合依次替换PerSet中的词,以生成被扰乱的例子x


[0032]优选的,在基于关键文本的概率信息的分类层中,设计了一种重新计算概率分布,包括以下步骤:
[0033]计算词类重要性;
[0034]估计输入样本的类别倾向性;
[0035]概率分布的重新计算。
[0036]优选的,所述计算词类重要性包括以下内容:
[0037]将WCI的计算公式定为:
[0038][0039]其中|D
y
|表示数据集中标签为y的例子总数,是所有类别的平均数据量k,b为协调因子,是一个常数,IDF

是逆文档频率的一个变体,用公式表示为:
[0040][0041]其中控制系数a是一个介于0和1之间的常数,用于限制的贡献,|D|本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗数据增强的医疗文本专业分类方法,其特征在于,包括以下步骤:第一步:对医疗文本数据进行预处理;第二步:基于对抗攻击数据增强方法提高医疗文本数据集的质量;第三步:将预处理好的医疗文本构建为词向量矩阵,作为卷积神经网络的输入或者调整为与训练模型要求的格式作为预训练模型的输入;第四步:基于关键文本概率信息的分类层,利用医疗文本中专业词的出现往往关联专业领域的特征,进一步对神经网络的分类结果做调整。2.根据权利要求1所述的一种基于对抗数据增强的医疗文本专业分类方法,其特征在于:所述第二步中的基于对抗攻击数据增强方法包括以下步骤:词的重要性排序;组合候选词;构建数据增强例子。3.根据权利要求2所述的一种基于对抗数据增强的医疗文本专业分类方法,其特征在于:所述词的重要性排序包括以下内容:将替换词的嵌入向量差计算为[MASK],并通过向量差在梯度方向的投影来衡量词的重要性,每个词w
i
在x中的重要性被计算为I(w
i
,x);其中,V
[MASK]
为[MASK]的嵌入,为单词w
i
的嵌入,J为模型F的损失函数。4.根据权利要求2所述的一种基于对抗数据增强的医疗文本专业分类方法,其特征在于:所述组合候选词包括以下步骤:利用预先训练好的词向量模型Glove,为语料库中的每个w
i
确定同义词集Syn
wi
,基于w和同义词集中的每个词之间的余弦相似度,从WordNet中w
i
的同义词集中选取k个最接近的词,在确定每个词的候选词后,为要被扰乱的词初始化一个替换集CandiSet,对于每个攻击动作,从排序后的集合W中选择前t个词作为被扰乱的词集PerSet=w
i
,...,w
i+t
,其中i是第i个攻击动作。5.根据权利要求2所述的一种基于对抗数据增强的医疗文本专业分类方法,其特征在于:所述构建数据增强例子包括以下内容:用CandiSet中的候选词组合依次替换Pe...

【专利技术属性】
技术研发人员:王乐李钊华顾钊铨陈光耀邓滨玥张登辉
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1