基于深度学习的医疗文本分类方法、装置及存储介质制造方法及图纸

技术编号：20588976 阅读：30 留言：0更新日期：2019-03-16 07:11

本发明专利技术公开了一种基于深度学习的医疗文本分类方法，包括：获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列，将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理，得到医疗疾病信息向量序列，将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果。本发明专利技术还公开了一种基于深度学习的医疗文本分类装置和计算机存储介质。本发明专利技术通过使用递归神经网络和双向注意力机制，基于医疗文本的语义表示的同时有效利用了疾病的类别信息，不需要借助额外的特征工程，提高了分类效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的医疗文本分类方法、装置及存储介质
本专利技术涉及计算机
，尤其涉及一种基于深度学习的医疗文本分类方法、基于深度学习的医疗文本分类装置及计算机存储介质。
技术介绍
随着电子医疗系统的普及，不少医院已经积累了大量关于病人检查、诊断和治疗的医疗文本数据。自动地从这些文本中分类出病人的疾病，可以节省医生的时间、辅助医生决策，并有助于数据的结构化存储和检索。近年来，深度学习算法在自然语言处理、图像处理、语音识别领域都取得了令人瞩目的成果。与传统机器学习方法相比，深度学习算法可以捕捉到文本的语义信息，同时不需要繁琐的特征工程，只要有足够的训练数据，便可得到不错的效果。目前，已经有一部分技术人员尝试用深度学习的方法进行医疗文本的疾病分类。比如使用词向量表示输入文本中的词语，通过主题模型、基于依存关系的模型匹配和近义词匹配的方式提取特征，交给神经网络进行疾病分类。该方法虽然使用了深度学习算法，但是依然需要较复杂的特征工程，分类效率不高。上述内容仅用于辅助理解本专利技术的技术方案，并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种基于深度学习的医疗文本分类方法、基于深度学习的医疗文本分类装置和计算机存储介质，旨在解决现有技术中使用深度学习算法进行分类需要依赖较复杂的特征工程，分类效率不高的技术问题。为实现上述目的，本专利技术提供一种基于深度学习的医疗文本分类方法，所述基于深度学习的医疗文本分类方法包括如下步骤：获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列；将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次...

【技术保护点】
1.一种基于深度学习的医疗文本分类方法，其特征在于，所述基于深度学习的医疗文本分类方法包括以下步骤：获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列；将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理，得到医疗疾病信息向量序列，其中，所述医疗疾病信息向量序列包含所述待分类医疗文本特征和所述疾病类别信息特征；将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果。

【技术特征摘要】
1.一种基于深度学习的医疗文本分类方法，其特征在于，所述基于深度学习的医疗文本分类方法包括以下步骤：获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列；将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理，得到医疗疾病信息向量序列，其中，所述医疗疾病信息向量序列包含所述待分类医疗文本特征和所述疾病类别信息特征；将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果。2.如权利要求1所述的基于深度学习的医疗文本分类方法，其特征在于，所述将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理，得到医疗疾病信息向量序列的步骤包括：将所述待分类医疗文本的词向量序列和所述疾病类别信息的词向量序列输入所述递归神经网络进行处理，得到所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列；将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入所述双向注意力机制层进行处理，得到第一注意力向量序列和第二注意力向量，其中，所述第一注意力向量序列包含所述疾病类别信息的特征，所述第二注意力向量包含所述医疗文本的特征；根据所述待分类医疗文本的隐向量序列、所述第一注意力向量序列和所述第二注意力向量生成所述医疗疾病信息向量序列。3.如权利要求2所述的基于深度学习的医疗文本分类方法，其特征在于，所述将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入双向注意力机制层进行处理，得到第一注意力向量序列的步骤包括：计算所述待分类医疗文本的隐向量序列中各个隐向量与所述疾病类别信息的隐向量序列中各个隐向量之间的相关因子；根据所述相关因子得到所述第一注意力向量序列。4.如权利要求3所述的基于深度学习的医疗文本分类方法，其特征在于，所述将所述待分类医疗文本的隐向量序列和所述疾病类别信息的隐向量序列输入双向注意力机制层进行处理，得到第二注意力向量的步骤包括：从所述相关因子中确定最大相关因子，其中，所述最大相关因子表示待分类医疗文本的隐向量与疾病类别信息的隐向量之间相关性最大；根据...

【专利技术属性】
技术研发人员：任江涛，刘乃银，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人