一种提取疾病预后协变量的结构化数据的方法及系统技术方案

技术编号:30966140 阅读:14 留言:0更新日期:2021-11-25 20:36
本发明专利技术提供了一种基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法、系统、智能终端和计算机可读存储介质。本申请的方法在数据处理的不同阶段,均采用了效果最好的模型进行数据提取,提高了数据库构建的准确率。采用上述技术方案后,仅需输入协变量的名称即可完成结构化数据的提取。从不可直接用于统计分析的中文医疗文本中提取出可用于统计分析的结构化数据库,帮助临床医生从病历文本中发现潜在的疾病预后影响因素。不仅免除人工提取协变量的过程,还具有较好的兼容移植性,可在各类平台上方便嵌套、开发和维护。开发和维护。开发和维护。

【技术实现步骤摘要】
一种提取疾病预后协变量的结构化数据的方法及系统


[0001]本专利技术涉及自然语言处理
,尤其涉及一种基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法、系统、智能终端和计算机可读存储介质。

技术介绍

[0002]电子病历是真实世界大数据中质量较高的部分。电子病历从21世纪初开始兴起,其使用率在2008年仅为9%,而到2015年已经上升到96%。由于电子病历代替了传统的手写病历的方式,使得电子病历在各种类型的真实世界数据中所占比例较大,相较互联网等来自多媒体的真实世界数据,电子病历数据的质量更高。截止到2018年,仅上海市卫生健康委员会健康档案数据平台已有超过一千万份住院病历,十亿份急诊病历。电子病历主要包括病例首页、入院记录、出院小结及各类影像学图片等。很多重要的临床信息都被记录在非结构化的文本中,如现病史、体格检查和病程记录等,临床医生花费了大量的时间来记录,这部分信息所占比重大,据专家估计这部分信息占总量的80%以上,但利用率低,无法直接用于数据统计分析。
[0003]目前自然语言处理技术(Natural Language Processing,NLP)已经被广泛应用于从非结构化的电子病历中提取信息,运用NLP技术将非结构化的文本转换为结构化数据能够有效减少人工阅读文本提取数据的时间,提高了非结构化数据的可用性,从而可以实现大规模文本的自动处理。鉴于电子病历由不同的部分组成,每个部分内容结构不同,数据提取的方法不同。目前国内外,对于如何将医疗文本直接转化为可以用于数据统计分析的结构化数据库的相关方法研究及应用很少,针对中文医疗文本的信息提取研究,命名实体识别方面的工作较多,也有相关专利,而基于此的应用主要集中在基于识别后的实体构建知识图谱,开发医患对话机器等场景。现有技术中还缺少一种关于预后影响因素的结构化数据库的构建方法,这种结构化数据库中数据能够直接用于数据分析,以支持临床预后影响因素分析、预后模型构建等应用场景。而在这一应用场景中,现有的命名实体识别方法是无法直接应用的。

技术实现思路

[0004]为了克服上述技术缺陷,本专利技术的第一个方面在于提供一种基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法,包括以下步骤:
[0005]步骤S1:预处理非结构化医疗文本:获取非结构化医疗文本,并通过正则表达式去除非结构化医疗文本中的包含否定词和/或阴性词的文本,然后采用BIO标注体系对非结构化医疗文本进行标注;
[0006]步骤S2:通过NER模型识别医疗实体:所述NER模型为基于ERNIE预训练模型、膨胀卷积神经网络和条件随机场的医疗实体识别模型,首先将标注后的医疗文本通过 ERNIE预训练模型转换为字向量,然后将字向量输入到膨胀卷积神经网络中以得到每个字的标签得分,最后将每个字的标签得分(即膨胀卷积神经网络的输出)输入到条件随机场中以得到每
个字的医疗实体类别;
[0007]以往对于NER模型的研究集中在人名、地名和机构名等方面的研究,对于医疗实体的研究较少,医疗实体具有自身领域独特的特征,分类较多,且同一医疗实体的表述众多,无法通过编写词典库穷尽,因此需要通过深入挖掘上下文之间的关系来找出特定的实体,而深度学习能够通过学习到医疗文本深层次的隐含特征来进行命名实体的识别。现有技术中的Word2Vec模型不具备根据下游任务微调的能力,该字向量不会随着上下文语境的变化而变化,因此在对于某些类别的实体,用Word2Vec作为字嵌入层时效果会受到影响。而ERNIE通过微调,可以自行根据上下文的不同来调整字向量,能够更好的表达其在具体语境中的含义,解决了一词多义的问题,使得NER模型的效果得到提升。在使用同一神经网络时,ERNIE的效果要好于现有技术中的BERT模型,因为ERNIE在预训练时采用更多的优质的中文语料库有关;而在使用同一预训练模型时,IDCNN的效果要优于现有技术中的BILSTM模型,且IDCNN优于可以并行化训练,速度要明显快于现有技术中的BILSTM模型;
[0008]步骤S3:构建半结构化数据库:根据识别出的医疗实体类别和实体名称,构建半结构化数据库,所述半结构化数据库包括患者编号、医疗实体类别和实体名称;
[0009]步骤S4:目标医疗实体的存在判断:利用半结构化数据库,训练ERNIE深度学习模型以构建协变量提取器,向协变量提取器中输入目标医疗实体的标准名称,通过ERNIE 深度学习模型将目标医疗实体的标准名称与半结构化数据库中的实体名称进行相似度比对,通过逻辑回归函数判断目标医疗实体的标准名称与实体名称是否相似,如果相似,则表示匹配,代表该目标协变量存在于非结构化医疗文本中,则输出结果为“1”,以疾病实体为例,则“1”表示患者患有该医疗实体名称对应的疾病;如果不相似,则表示不匹配,代表该目标协变量不存在于非结构化医疗文本中,则输出结果为“0”,以疾病实体为例,则“0”表示该患者未患有该医疗实体名称对应的疾病;ERNIE深度学习模型是一个整体,逻辑回归是其中的一步;
[0010]传统的文本相似度识别模型,首先通过计算出相似度,然后通过设定阈值或者排序来确定文本是否匹配,这种方法往往受人为因素干扰,阈值的大小的设定对结果影响很大。而本研究提出通过监督学习,利用文本相似度匹配这一技术来实现实体的统一,通过比较几种深度学习模型的效果,能够实现较为精确地提取出所需的协变量。此外,本申请中的ERNIE采用了孪生网络,使得两个实体所处的网络参数共享,不容易造成过拟合,计算量小,耗时短,对计算机的性能要求低,因此取得的效果由于现有技术中的BERT 模型;
[0011]步骤S5:构建结构化数据库:在所述协变量提取器中依次输入目标医疗实体的名称之后,所述协变量提取器就会构建一个结构化数据库,所述结构化数据库包括患者编号、目标医疗实体的标准名称及其对应的输出结果。
[0012]本申请中的所述“标准名称”主要指国际公认的标准名称和编码字典,例如,国际疾病编码字典ICD10。
[0013]对于目标医疗实体的标准名称是指需要进行结构化处理的目标医疗实体,例如医生想知道哪些人患了心梗,则目标实体的标准名称就是“心肌梗塞”。
[0014]进一步地,在步骤S4中,所述ERNIE深度学习模型采用12层Transformer,隐藏层大小为768,多头注意力机制为12头,优化器为Adam,设置学习率为2e

05,一次训练所选取的样本数(batch size)为32,训练迭代10次。
[0015]进一步地,在步骤S4中,所述相似度比对的方法包括下述步骤:利用孪生网络结构,首先将目标医疗实体的标准名称与实体名称这两个实体分别送入ERNIE,ERNIE的参数对这两个实体共享,得到两个实体的句向量,随后送入汇聚层,采用平均汇聚方式对句向量进行特征提取和压缩,得到u和v,最后将u、v、|u

v|拼接后送入全连接层,将这两个实体进行相似度比对,通过逻辑回归函数判断两个实体是否相似,如果相似,则表示匹配,代表该本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法,其特征在于,包括以下步骤:步骤S1:预处理非结构化医疗文本:获取非结构化医疗文本,并通过正则表达式去除非结构化医疗文本中的包含否定词和/或阴性词的文本,然后采用BIO标注体系对非结构化医疗文本进行标注;步骤S2:通过NER模型识别医疗实体:所述NER模型为基于ERNIE预训练模型、膨胀卷积神经网络和条件随机场的医疗实体识别模型,首先将标注后的医疗文本通过ERNIE预训练模型转换为字向量,然后将字向量输入到膨胀卷积神经网络中以得到每个字的标签得分,最后将每个字的标签得分输入到条件随机场中以得到文本中包含的所有的实体名称和每个字的医疗实体类别;步骤S3:构建半结构化数据库:根据识别出的医疗实体类别和实体名称,构建半结构化数据库,所述半结构化数据库包括患者编号、医疗实体类别和实体名称;步骤S4:目标医疗实体是否存在的判断:利用半结构化数据库,训练ERNIE深度学习模型以构建协变量提取器,向协变量提取器中输入目标医疗实体的标准名称,通过ERNIE深度学习模型将目标医疗实体的标准名称与半结构化数据库中的实体名称进行相似度比对,并通过逻辑回归函数判断目标医疗实体的标准名称与实体名称是否相似,如果相似,则表示匹配,代表该目标协变量存在于非结构化医疗文本中,则输出结果为“1”,以疾病实体为例,则“1”表示患者患有该医疗实体名称对应的疾病;如果不相似,则表示不匹配,代表该目标协变量不存在于非结构化医疗文本中,则输出结果为“0”,以疾病实体为例,则“0”表示该患者未患有该医疗实体名称对应的疾病;步骤S5:构建结构化数据库:在所述协变量提取器中依次输入目标医疗实体的名称之后,所述协变量提取器就会构建一个结构化数据库,所述结构化数据库包括患者编号、目标医疗实体的标准名称及其对应的输出结果。2.如权利要求1所述的基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法,其特征在于,在步骤S4中,所述ERNIE深度学习模型采用12层Transformer,隐藏层大小为768,多头注意力机制为12头,优化器为Adam,设置学习率为2e

05,一次训练所选取的样本数为32,训练迭代10次。3.如权利要求1所述的基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法,其特征在于,在步骤S4中,所述相似度比对的方法包括下述步骤:利用孪生网络结构,首先将目标医疗实体的标准名称与实体名称这两个实体分别送入ERNIE,ERNIE的参数对这两个实体共享,得到两个实体的句向量,随后送入汇聚层,采用平均汇聚方式对句向量进行特征提取和压缩,得到u和v,最后将u、v、|u

v|拼接后送入全连接层,将这两个实体进行相似度比对,通过逻辑回归函数判断两个实体是否相似,如果相似,则表示匹配,代表该目标协变量存在于非结构化的原始医疗文本中;如果不相似,则表示不匹配,代表该目标协变量不存在于非结构化的原始医疗文本中。4.如权利要求1所...

【专利技术属性】
技术研发人员:贺佳吴骋林振秦宇辰秦婴逸李冬冬王志勇何倩陈琪郭威郭轶斌
申请(专利权)人:中国人民解放军海军军医大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1