一种基于深度学习大规模病历的辅助诊断系统技术方案

技术编号:21481586 阅读:29 留言:0更新日期:2019-06-29 05:44
本发明专利技术公开了一种基于深度学习大规模病历的辅助诊断系统,包括:循环神经网络模型、卷积神经网络模型和融合计算单元,所述循环神经网络模型通过基于对大规模带有诊断结论的既往病历,依据循环神经网络进行训练获得;所述卷积神经网络模型通过人为生成的病历,依据卷积神经网络进行训练获得,其中人为生成的病历是基于知识图谱里的疾病和症状对应关系,根据发病率和症状发生率排列组合,人为生成病历;将性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息输入到循环神经网络模型和卷积神经网络模型中,融合计算单元根据循环神经网络模型和卷积神经网络模型生物计算结果,给出与该病历相关的诊断提示。

【技术实现步骤摘要】
一种基于深度学习大规模病历的辅助诊断系统
本专利技术涉及深度学习技术及自然语言处理技术,尤其涉及一种基于大规模病历数据的辅助诊断系统。
技术介绍
20世纪70年代中期,美国斯坦福大学研制出世界上第一个临床决策支持系统CDSS(MYCIN)。而后出现了很多基于知识库的CDSS,由三个重要部分组成:数据库(DataRepository)、推理机(RulesEngine)和人机交互接口(Interface),通常采用IF-THEN规则,或基于先验概率和条件概率的贝叶斯统计。基于此,庞大可靠的临床知识库成为CDSS的行业壁垒。随着技术的发展,近几年出现了基于人工智能技术的CDSS,通过深度学习技术让计算机学习过去的经验或临床常规模式,然后将学到的这些经验放进其知识库。与基于知识的CDSS不同,基于电子病历的辅助诊断决策方法通过对大规模电子病历数据集的进行关联规则挖掘、分类、回归等操作能够不断发现新的知识来帮助医生在疾病诊断过程中做出更好的决策。基于中文电子病历的辅助诊断决策方法研究仍处于起步阶段,在国内,周志华,姜远等人将机器学习模型用于疾病预测分析但是均为单病种疾病预测模型,很难直接适用于多特征多类别医学数据集的预测中。在自然语言处理领域,机器学习技术,尤其是深度学习技术,善于捕捉文本特征并学习隐含的语义信息。深度学习中的循环神经网络和卷积神经网络被用于对文本进行分类。循环神经网络适用于学习长时序序列的信息,卷积神经网络适用于学习短序列的信息。从文字到进入神经网络里计算之前需要对文字进行向量化,向量化的方法有对单字进行向量化的One-hot方法,也有基于上下文的Word2Vec方法。
技术实现思路
本专利技术的目的是针对现有辅助诊断系统技术的不足,提供一种利用大规模中文电子病历的基于深度学习的辅助诊断系统。本专利技术可利用原始的病历数据,通过深度学习来自动学习病历与疾病的对应关系,而不需要通过专家来提炼相关的统计概率。本专利技术的目的是通过以下技术方案来实现:一种基于深度学习大规模病历的辅助诊断系统,包括:循环神经网络模型、卷积神经网络模型和融合计算单元,所述循环神经网络模型通过基于对大规模带有诊断结论的既往病历,依据循环神经网络进行训练获得;所述卷积神经网络模型通过人为生成的病历,依据卷积神经网络进行训练获得,其中人为生成的病历是基于知识图谱里的疾病和症状对应关系,根据发病率和症状发生率排列组合,人为生成病历;将性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息输入到循环神经网络模型和卷积神经网络模型中,融合计算单元根据循环神经网络模型和卷积神经网络模型生物计算结果,给出与该病历相关的诊断提示。进一步地,所述既往病历中包括性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息。进一步地,所述既往病历中不同病历数超过百万条,覆盖600种全科疾病。进一步地,所述循环神经网络模型为LSTM模型,训练的预处理包括将性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查按字符根据字典转化为向量,按照设定好的长度配比拼接成固定长度的序列,同时将每条病历对应的诊断根据字典转化为向量,训练一个基于双向LSTM的循环神经网络模型。进一步地,所述人为病历是从数据库中获取600种全科疾病及其对应的症状,以及疾病的发病率和症状的发生率,通过符合疾病发病率和症状发生率的概率分布,排列组合生成人为病历。进一步地,所述卷积神经网络模型的训练中,将症状词根据预训练的Word2Vec模型转化为词向量,按照设定好的长度限制拼接成固定长度的序列,同时将每条病历对应的诊断根据字典转化为向量,训练一个并联不同卷积核尺寸的卷积神经网络模型。进一步地,接受性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息,将上述信息根据字典转化为向量,按照设定好的长度配比拼接成固定长度的序列,依据循环神经网络模型进行诊断提示;从上述主诉、现病史、体格检查、辅助检查的信息中提取出症状信息,并将其根据所述的Word2Vec模型转化为词向量,按照设定好的长度限制拼接成固定长度的序列,依据卷积神经网络模型进行诊断提示;将上述两个模型的诊断提示结果通过融合计算单元进行加权融合,归一化并排序得到诊断提示结果。本专利技术的有益效果是:本专利技术充分利用了日益增长的电子病历数据,不再完全依赖高年资医生给出的疾病和症状的关系。根据本专利技术做出的从病历到疾病的提示方法随着病历数量增加,会越来越准确反映病历描述和对应疾病的关系。而基于专家系统和纯粹知识图谱的系统则受制于固定的疾病症状关系数值,不仅更新关系数值的成本很高,而且不能发掘潜在的疾病症状关系。本专利技术由于可以不断用同一套方法学习新病历,而且可以自发地学习到并非显而易见的信息。附图说明图1是本专利技术训练循环神经网络模型的步骤流程图。图2是本专利技术训练卷积神经网络模型的步骤流程图。图3是本专利技术利用以上两个模型进行提示的步骤流程图。具体实施方式下面根据具体实施详细描述本专利技术,本专利技术的目的和效果将变得更加明显。本专利技术提供一种基于深度学习大规模病历的辅助诊断系统,包括:循环神经网络模型、卷积神经网络模型和融合计算单元,所述循环神经网络模型通过基于对大规模带有诊断结论的既往病历对循环神经网络进行训练获得,如图1所示;所述卷积神经网络模型通过人为生成的病历对卷积神经网络进行训练获得,其中人为生成的病历是基于知识图谱里的疾病和症状对应关系,根据发病率和症状发生率排列组合,人为生成病历,如图2所示;将性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息输入到循环神经网络模型和卷积神经网络模型中,融合计算单元根据循环神经网络模型和卷积神经网络模型两方面的计算结果,给出与该病历相关的疾病提示,如图3所示。进一步地,所述既往病历中包括性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查。进一步地,所述既往病历中不同病历数超过百万条,覆盖600种全科疾病。进一步地,所述循环神经网络模型为LSTM模型,训练的预处理包括将性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查按字符根据字典转化为向量,按照设定好的长度配比拼接成固定长度的序列,同时将每条病历对应的诊断根据字典转化为向量,训练一个基于双向LSTM的循环神经网络模型。进一步地,所述人为病历是从数据库中获取600种全科疾病及其对应的症状,以及疾病的发病率和症状的发生率,通过符合疾病发病率和症状发生率的概率分布,排列组合生成人为病历。进一步地,所述卷积神经网络模型的训练中,将症状词根据预训练的Word2Vec模型转化为词向量,按照设定好的长度限制拼接成固定长度的序列,同时将每条病历对应的诊断根据字典转化为向量,训练一个并联不同卷积核尺寸的卷积神经网络模型。进一步地,接受性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息,将上述信息根据字典转化为向量,按照设定好的长度配比拼接成固定长度的序列,用循环神经网络模型进行诊断提示;从上述主诉、现病史、体格检查、辅助检查的信息中提取出症状信息,并将其根据所述的Word2Vec模型转化为词向量,按照设定好的长度限制拼接成固定长度的本文档来自技高网
...

【技术保护点】
1.一种基于深度学习大规模病历的辅助诊断系统,其特征在于,包括:循环神经网络模型、卷积神经网络模型和融合计算单元,所述循环神经网络模型通过基于对大规模带有诊断结论的既往病历对循环神经网络进行训练获得;所述卷积神经网络模型通过人为生成的病历对卷积神经网络进行训练获得,其中人为生成的病历是基于知识图谱里的疾病和症状对应关系,根据发病率和症状发生率排列组合,人为生成病历。将性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息输入到循环神经网络模型和卷积神经网络模型中,融合计算单元根据循环神经网络模型和卷积神经网络模型生物计算结果,给出与该病历相关的诊断提示。

【技术特征摘要】
1.一种基于深度学习大规模病历的辅助诊断系统,其特征在于,包括:循环神经网络模型、卷积神经网络模型和融合计算单元,所述循环神经网络模型通过基于对大规模带有诊断结论的既往病历对循环神经网络进行训练获得;所述卷积神经网络模型通过人为生成的病历对卷积神经网络进行训练获得,其中人为生成的病历是基于知识图谱里的疾病和症状对应关系,根据发病率和症状发生率排列组合,人为生成病历。将性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息输入到循环神经网络模型和卷积神经网络模型中,融合计算单元根据循环神经网络模型和卷积神经网络模型生物计算结果,给出与该病历相关的诊断提示。2.根据权利要求1所述的基于深度学习大规模病历的辅助诊断系统,其特征在于,所述既往病历中包括性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查。3.如权利要求2所述的基于深度学习大规模病历的辅助诊断系统,其特征在于,所述既往病历中不同病历数超过百万条,覆盖600种全科疾病。4.如权利要求3所述的基于深度学习大规模病历的辅助诊断系统,其特征在于,所述循环神经网络模型为LSTM模型,训练的预处理包括将性别、年龄、主诉、现病史、既往史、个人史、家族史、体格检查、辅助检查的信息按字符根据字典转化为向量,按照设定好的长度配比拼接成固定长度的...

【专利技术属性】
技术研发人员:孟海忠毛葛永吴边陈啸冬尹伟东曹晓光任宇翔
申请(专利权)人:挂号网杭州科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1