当前位置: 首页 > 专利查询>东华大学专利>正文

基于深度学习的乳腺电子病历联合关系抽取与结构化系统技术方案

技术编号:20162541 阅读:17 留言:0更新日期:2019-01-19 00:15
本发明专利技术涉及一种基于深度学习的乳腺电子病历联合关系抽取与结构化系统,包括乳腺电子病历数据的结构化模块和乳腺电子病历数据的关系抽取模块,所述乳腺电子病历数据的结构化模块基于深度学习将大量非结构化的文本数据转化为评估算法可识别的结构化数据;所述乳腺电子病历数据的关系抽取模块基于深度学习建立电子病历结构化模型,得到评估结果。本发明专利技术能够有效提高乳腺电子病历中的结构化以及关系抽取的自动化和智能化水平。

【技术实现步骤摘要】
基于深度学习的乳腺电子病历联合关系抽取与结构化系统
本专利技术涉及医疗设备
,特别是涉及一种基于深度学习的乳腺电子病历联合关系抽取与结构化系统。
技术介绍
随着医疗信息化的快速发展,医疗机构在临床诊断的过程中产生了大量的原始电子病历数据,这些电子病历是记录患者诊断与治疗过程的重要信息,蕴含着丰富的知识。由于电子病历多为非结构化、叙述性文本,不能较好地存储、组织和管理病历中的临床信息,因此,未被结构化的电子病历文本很难被充分利用。所以目前对电子病历分析的研究主要集中在电子病历结构化的方面,通过对疾病的检查指标数据进行结构化,从杂乱、冗余、高复杂的非结构化电子病历数据获取规范、有价值的数据,最后利用人工智能算法对患者所患疾病进行诊断已成为研究热点。另外,如今大多数乳腺电子病历仍是由自然语言书写而成,海量错综复杂的半结构化,甚至是非结构化的数据挑战着医疗行业。这使得尽管病人的数据充足,但难以从这些数据中获取知识,也使得资源难以合理地分配,给整个医疗行业的发展带来了巨大的压力。就乳腺这一疾病而言,其患者的电子病历记录信息分散在叙述性医疗文本中,无法直接交由计算机识别分析。所以首要解决的问题就是实现中文文本的结构化。常规的中文文本结构化方法,传统的pipeline管道模型在生物医疗的结构化过程中也有大量的应用,它的主要特点之一是的基础上增加了实体间的关系抽取。首先通过结构化技术识别给定医疗临床文本中的实体,检查每个实体对,再使用关系分类模型来确定它们是否具有特定关系。仍存在如下问题:1)结构化实体抽取的过程中会产生的错误,可能传播到关系分类的任务中去,没有将结构化、关系分类这两个任务的之间的依赖考虑在内。2)在pipeline管道模型的基础上产生的联合实体关系抽取模型虽然在一定程度上通过同时处理两个子任务,来减少错误传播以及子任务之间的依赖问题,但这种模型大部分是基于特征的方法,需要大量的特征工程,并且还会遭受特征稀疏性问题,因为联合任务的组合特征空间明显大于其子任务的特征空间。常规结构化方法并不适用于乳腺电子病历报告的实体以及关系提取。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于深度学习的乳腺电子病历联合关系抽取与结构化系统,能够有效提高乳腺电子病历中的结构化以及关系抽取的自动化和智能化水平。本专利技术解决其技术问题所采用的技术方案是:提供一种基于深度学习的乳腺电子病历联合关系抽取与结构化系统,包括乳腺电子病历数据的结构化模块和乳腺电子病历数据的关系抽取模块,所述乳腺电子病历数据的结构化模块基于深度学习将大量非结构化的文本数据转化为评估算法可识别的结构化数据;所述乳腺电子病历数据的关系抽取模块基于深度学习建立电子病历结构化模型,得到评估结果。所述乳腺电子病历数据的结构化模块首先选取较完整的乳腺电子病历文本数据进行数据清洗、分词和标注,形成初步的数据训练集文件;其次读取已标注的训练数据,依据文本的字符特征构建字向量,以字向量构建文本特征向量作为整个模型的输入;最后经过文本的预处理操作后,得到由字向量构建的文本特征向量,再利用神经网络模型进行进一步的特征抽取以及分类操作,获得非结构化文本中的实体。所述乳腺电子病历数据的结构化模块根据医疗领域的分词算法得到更加准确的分词结果,再对词语或字进行相关标注以及词向量或字向量训练;其中,模型训练提供用于训练预测模型的算法支持,通过预配置的CNN和LSTM算法调用,同时实现一个自定义的模型类以及内部相应的接口函数用于网络模型训练;最后,通过模型训练生成能够进行结构化的模型,从而能够提取非结构化的乳腺电子病历中的疾病、症状、检查和治疗的实体。在字向量训练时,模型中网络的输入是由每个乳腺电子病历的句子向量矩阵构成,而单个的句子向量矩阵由预先训练好的字向量构成;其中,字向量的构建利用Skip-gram模型作为基础,通过给定的中心字来预测上下文周围的字,通过大量的医疗评价语料集进行字向量训练。所述乳腺电子病历数据的关系抽取模块首先把结构化之后的结果中的两组实体以及实体间的句子作为输入;其次利用所输入的训练集建立关系抽取模型,利用测试集检测模型性能;最后给定一份原始的乳腺电子病历报告文本,实验乳腺电子病历结构化以及关系抽取模型的可用性,得到结构化后的结果。所述乳腺电子病历数据的关系抽取模块所要预测的实体间关系包括:因症状而采取检查、检查而发现某种症状、治疗施加于某种疾病、治疗恶化某种疾病和治疗改善了某种疾病;通过结构化获得的两个实体对应的编码向量,以及实体间的句子作为关系抽取CNN模型的输入;通过预先整理的实体间关系与预测的结果进行误差比较,从而生成有效的关系抽取网络,建立关系抽取预测模型,并利用测试集检测模型的性能。所述乳腺电子病历数据的关系抽取模块基于机器学习的算法将生物医学NER视为序列标记问题,其中每个算法的目标是为给定输入句子找到最佳标签序列;通过把结构化也作为序列BIO标注任务,再利用编码层对输入的乳腺电子病历进行特征提取;将特征表示输入至结构化部分利用LSTM解码,将解码后的表示输入至Softmax层预测序列对应的标注;最后,将乳腺电子病历对应的表示与编码层的特征进行连接作为联合表示进行关系分类。所述特征提取是采用Bi-LSTM网络实现的,具体为:将输入语句转换为字向量,将其输入Bi-LSTM层;对于给定的输入序列,针对每一个输入将其向量化成d维向量;前向LSTM采用从左向右的输入方式,针对每一字得出相应的输出,从而得到前向句子输出;后向LSTM采用从右向左的输入方式,针对每一个字得出相应的输出,得到后向句子输出;将得到的前向句子输出和后向句子输出相加,即得出Bi-LSTM的输出结果。有益效果由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术针对乳腺疾病患者的电子病历,利用深度学习算法进行文本结构化,该结构化数据和关系抽取的准确度取得了比传统pipeline模型的结构化以及关系抽取方法更高的性能;相较于pipeline模型,深度学习通过神经网络编码层的输出进行模型参数共享,在训练时两个任务都会通过后向传播算法来更新共享参数来实现两个子任务之间的依赖。深度学习的高级特征抽取能力可以将文本的语义信息转化为一个低维高密度的特征向量,大大地降低了特征工程。所以通过深度学习的联合抽取可以获得更好的结构化以及关系分类效果。附图说明图1为本专利技术的总体框图;图2为本专利技术中基于深度学习的文本字、词向量预处理模块框图;图3为本专利技术中基于深度学习特征提取的流程图;图4为本专利技术中利用深度学习算法进行实体标签预测以及关系抽取的流程图。具体实施方式下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。本专利技术的实施方式涉及一种利用深度学习对乳腺电子病历的联合关系抽取与结构化,进而利用常规机器学习算法进行乳腺肿瘤风险性评估的分析系统,包括:1)乳腺电子病历数据的结构化模块,即基于深度学习的文本结构化模块。首先选取较完整的乳腺电子病历文本数据进行数据清洗、分词、标注,形成初步的本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的乳腺电子病历联合关系抽取与结构化系统,其特征在于,包括乳腺电子病历数据的结构化模块和乳腺电子病历数据的关系抽取模块,所述乳腺电子病历数据的结构化模块基于深度学习将大量非结构化的文本数据转化为评估算法可识别的结构化数据;所述乳腺电子病历数据的关系抽取模块基于深度学习建立电子病历结构化模型,得到评估结果。

【技术特征摘要】
1.一种基于深度学习的乳腺电子病历联合关系抽取与结构化系统,其特征在于,包括乳腺电子病历数据的结构化模块和乳腺电子病历数据的关系抽取模块,所述乳腺电子病历数据的结构化模块基于深度学习将大量非结构化的文本数据转化为评估算法可识别的结构化数据;所述乳腺电子病历数据的关系抽取模块基于深度学习建立电子病历结构化模型,得到评估结果。2.根据权利要求1所述的基于深度学习的乳腺电子病历联合关系抽取与结构化系统,其特征在于,所述乳腺电子病历数据的结构化模块首先选取较完整的乳腺电子病历文本数据进行数据清洗、分词和标注,形成初步的数据训练集文件;其次读取已标注的训练数据,依据文本的字符特征构建字向量,以字向量构建文本特征向量作为整个模型的输入;最后经过文本的预处理操作后,得到由字向量构建的文本特征向量,再利用神经网络模型进行进一步的特征抽取以及分类操作,获得非结构化文本中的实体。3.根据权利要求2所述的基于深度学习的乳腺电子病历联合关系抽取与结构化系统,其特征在于,所述乳腺电子病历数据的结构化模块根据医疗领域的分词算法得到更加准确的分词结果,再对词语或字进行相关标注以及词向量或字向量训练;其中,模型训练提供用于训练预测模型的算法支持,通过预配置的CNN和LSTM算法调用,同时实现一个自定义的模型类以及内部相应的接口函数用于网络模型训练;最后,通过模型训练生成能够进行结构化的模型,从而能够提取非结构化的乳腺电子病历中的疾病、症状、检查和治疗的实体。4.根据权利要求3所述的基于深度学习的乳腺电子病历联合关系抽取与结构化系统,其特征在于,在字向量训练时,模型中网络的输入是由每个乳腺电子病历的句子向量矩阵构成,而单个的句子向量矩阵由预先训练好的字向量构成;其中,字向量的构建利用Skip-gram模型作为基础,通过给定的中心字来预测上下文周围的字,通过大量的医疗评价语料集进行字向量训练。5.根据权利要求1所述的基于深度学习的乳腺电子病历联合关系抽取与结构化系统,其特征在于,所述乳腺电子...

【专利技术属性】
技术研发人员:潘乔陈德华朱立峰左铭赵艳王梅俞春濡
申请(专利权)人:东华大学上海交通大学医学院附属瑞金医院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1