当前位置: 首页 > 专利查询>中山大学专利>正文

基于深度学习的医疗文本分类方法、装置及存储介质制造方法及图纸

技术编号:20588976 阅读:30 留言:0更新日期:2019-03-16 07:11
本发明专利技术公开了一种基于深度学习的医疗文本分类方法,包括:获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列,将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理,得到医疗疾病信息向量序列,将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果。本发明专利技术还公开了一种基于深度学习的医疗文本分类装置和计算机存储介质。本发明专利技术通过使用递归神经网络和双向注意力机制,基于医疗文本的语义表示的同时有效利用了疾病的类别信息,不需要借助额外的特征工程,提高了分类效果。

【技术实现步骤摘要】
基于深度学习的医疗文本分类方法、装置及存储介质
本专利技术涉及计算机
,尤其涉及一种基于深度学习的医疗文本分类方法、基于深度学习的医疗文本分类装置及计算机存储介质。
技术介绍
随着电子医疗系统的普及,不少医院已经积累了大量关于病人检查、诊断和治疗的医疗文本数据。自动地从这些文本中分类出病人的疾病,可以节省医生的时间、辅助医生决策,并有助于数据的结构化存储和检索。近年来,深度学习算法在自然语言处理、图像处理、语音识别领域都取得了令人瞩目的成果。与传统机器学习方法相比,深度学习算法可以捕捉到文本的语义信息,同时不需要繁琐的特征工程,只要有足够的训练数据,便可得到不错的效果。目前,已经有一部分技术人员尝试用深度学习的方法进行医疗文本的疾病分类。比如使用词向量表示输入文本中的词语,通过主题模型、基于依存关系的模型匹配和近义词匹配的方式提取特征,交给神经网络进行疾病分类。该方法虽然使用了深度学习算法,但是依然需要较复杂的特征工程,分类效率不高。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种基于深度学习的医疗文本分类方法、基于深度学习的医疗文本分类装置和计算机存储介质,旨在解决现有技术中使用深度学习算法进行分类需要依赖较复杂的特征工程,分类效率不高的技术问题。为实现上述目的,本专利技术提供一种基于深度学习的医疗文本分类方法,所述基于深度学习的医疗文本分类方法包括如下步骤:获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列;将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理,得到医疗疾病信息向量序列,其中,所述医疗疾病信息向量序列包含所述待分类医疗文本特征和所述疾病类别信息特征;将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果。优选地,所述将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理,得到医疗疾病信息向量序列的步骤包括:将所述待分类医疗文本的词向量序列和所述疾病类别信息的词向量序列输入所述递归神经网络进行处理,得到所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列;将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入所述双向注意力机制层进行处理,得到第一注意力向量序列和第二注意力向量,其中,所述第一注意力向量序列包含所述疾病类别信息的特征,所述第二注意力向量包含所述医疗文本的特征;根据所述待分类医疗文本的隐向量序列、所述第一注意力向量序列和所述第二注意力向量生成所述医疗疾病信息向量序列。优选地,所述将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入双向注意力机制层进行处理,得到第一注意力向量序列的步骤包括:计算所述待分类医疗文本的隐向量序列中各个隐向量与所述疾病类别信息的隐向量序列中各个隐向量之间的相关因子;根据所述相关因子得到所述第一注意力向量序列。优选地,所述将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入双向注意力机制层进行处理,得到第二注意力向量的步骤包括:从所述相关因子中确定最大相关因子,其中,所述最大相关因子表示待分类医疗文本的隐向量与疾病类别信息的隐向量之间相关性最大;根据所述最大相关因子得到所述第二注意力向量。优选地,所述待分类医疗文本的隐向量序列中有N个隐向量,所述根据所述待分类医疗文本的隐向量序列、所述第一注意力向量和所述第二注意力向量生成医疗疾病信息向量序列的步骤包括:计算N个所述隐向量序列中第i个隐向量与所述第一注意力向量序列的第i个注意力向量的第一哈达马乘积;计算N个所述隐向量序列中第i个隐向量与所述第二注意力向量的第二哈达马乘积;将所述第i个隐向量、所述第一哈达马乘积和所述第二哈达马乘积拼接得到所述第i个隐向量对应的第i个医疗疾病信息向量;集合N个所述隐向量对应的N个所述医疗疾病信息向量成为所述医疗疾病信息向量序列。优选地,获取的所述疾病类别信息的词向量序列为一种疾病类别信息的词向量序列,在执行所述将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果时,所述分类预测结果为所述待分类医疗文本的二分类结果。优选地,所述池化层采用最大池化法。此外,为实现上述目的,本专利技术还提供基于深度学习的医疗文本分类装置,该装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于深度学习的医疗文本分类处理程序,所述基于深度学习的医疗文本分类处理程序被所述处理器执行时实现如上所述的基于深度学习的医疗文本分类方法的步骤。此外,为实现上述目的,本专利技术还提出一种计算机存储介质,其特征在于,所述计算机存储介质上存储有基于深度学习的医疗文本分类处理程序,所述基于深度学习的医疗文本分类处理程序被处理器执行时实现如上所述的基于深度学习的医疗文本分类方法的步骤。本专利技术实施例提出的基于深度学习的医疗文本分类方法、基于深度学习的医疗文本分类装置和计算机存储介质,将医疗文本的词向量序列和疾病类别信息的词向量序列输入递归神经网络进行处理,得到对应的两种隐向量序列,将这两种隐向量序列输入双向注意力机制层进行处理,基于得到的第一注意力向量序列和第二注意力向量生成医疗疾病信息向量序列,将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类基于深度学习的医疗文本分类预测结果。本专利技术使用递归神经网络和双向注意力机制,基于医疗文本的语义表示的同时有效利用了疾病的类别信息,不需要借助额外的特征工程,提高了分类效果。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的终端结构示意图;图2为本专利技术基于深度学习的医疗文本分类方法第一实施例的流程示意图;图3为本专利技术基于深度学习的医疗文本分类方法第二实施例的流程示意图;图4为本专利技术基于深度学习的医疗文本分类方法的第二实施例中文本分类系统处理流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境的终端结构示意图。本专利技术实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)播放器、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,本文档来自技高网...

【技术保护点】
1.一种基于深度学习的医疗文本分类方法,其特征在于,所述基于深度学习的医疗文本分类方法包括以下步骤:获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列;将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理,得到医疗疾病信息向量序列,其中,所述医疗疾病信息向量序列包含所述待分类医疗文本特征和所述疾病类别信息特征;将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果。

【技术特征摘要】
1.一种基于深度学习的医疗文本分类方法,其特征在于,所述基于深度学习的医疗文本分类方法包括以下步骤:获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列;将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理,得到医疗疾病信息向量序列,其中,所述医疗疾病信息向量序列包含所述待分类医疗文本特征和所述疾病类别信息特征;将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果。2.如权利要求1所述的基于深度学习的医疗文本分类方法,其特征在于,所述将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理,得到医疗疾病信息向量序列的步骤包括:将所述待分类医疗文本的词向量序列和所述疾病类别信息的词向量序列输入所述递归神经网络进行处理,得到所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列;将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入所述双向注意力机制层进行处理,得到第一注意力向量序列和第二注意力向量,其中,所述第一注意力向量序列包含所述疾病类别信息的特征,所述第二注意力向量包含所述医疗文本的特征;根据所述待分类医疗文本的隐向量序列、所述第一注意力向量序列和所述第二注意力向量生成所述医疗疾病信息向量序列。3.如权利要求2所述的基于深度学习的医疗文本分类方法,其特征在于,所述将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入双向注意力机制层进行处理,得到第一注意力向量序列的步骤包括:计算所述待分类医疗文本的隐向量序列中各个隐向量与所述疾病类别信息的隐向量序列中各个隐向量之间的相关因子;根据所述相关因子得到所述第一注意力向量序列。4.如权利要求3所述的基于深度学习的医疗文本分类方法,其特征在于,所述将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入双向注意力机制层进行处理,得到第二注意力向量的步骤包括:从所述相关因子中确定最大相关因子,其中,所述最大相关因子表示待分类医疗文本的隐向量与疾病类别信息的隐向量之间相关性最大;根据...

【专利技术属性】
技术研发人员:任江涛刘乃银
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1