一种提取疾病预后协变量的结构化数据的方法及系统技术方案

技术编号：30966140 阅读：14 留言：0更新日期：2021-11-25 20:36

本发明专利技术提供了一种基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法、系统、智能终端和计算机可读存储介质。本申请的方法在数据处理的不同阶段，均采用了效果最好的模型进行数据提取，提高了数据库构建的准确率。采用上述技术方案后，仅需输入协变量的名称即可完成结构化数据的提取。从不可直接用于统计分析的中文医疗文本中提取出可用于统计分析的结构化数据库，帮助临床医生从病历文本中发现潜在的疾病预后影响因素。不仅免除人工提取协变量的过程，还具有较好的兼容移植性，可在各类平台上方便嵌套、开发和维护。开发和维护。开发和维护。

全部详细技术资料下载

【技术实现步骤摘要】
一种提取疾病预后协变量的结构化数据的方法及系统

[0001]本专利技术涉及自然语言处理
，尤其涉及一种基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法、系统、智能终端和计算机可读存储介质。

技术介绍

[0002]电子病历是真实世界大数据中质量较高的部分。电子病历从21世纪初开始兴起，其使用率在2008年仅为9％，而到2015年已经上升到96％。由于电子病历代替了传统的手写病历的方式，使得电子病历在各种类型的真实世界数据中所占比例较大，相较互联网等来自多媒体的真实世界数据，电子病历数据的质量更高。截止到2018年，仅上海市卫生健康委员会健康档案数据平台已有超过一千万份住院病历，十亿份急诊病历。电子病历主要包括病例首页、入院记录、出院小结及各类影像学图片等。很多重要的临床信息都被记录在非结构化的文本中，如现病史、体格检查和病程记录等，临床医生花费了大量的时间来记录，这部分信息所占比重大，据专家估计这部分信息占总量的80％以上，但利用率低，无法直接用于数据统计分析。
[0003]目前自然语言处理技术(Natural Language Processing,NLP)已经被广泛应用于从非结构化的电子病历中提取信息，运用NLP技术将非结构化的文本转换为结构化数据能够有效减少人工阅读文本提取数据的时间，提高了非结构化数据的可用性，从而可以实现大规模文本的自动处理。鉴于电子病历由不同的部分组成，每个部分内容结构不同，数据提取的方法不同。目前国内外，对于如何将医疗文本直接转化为可以用于数据统计分析的结构化数据库的...

【技术保护点】

【技术特征摘要】
1.一种基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法，其特征在于，包括以下步骤：步骤S1：预处理非结构化医疗文本：获取非结构化医疗文本，并通过正则表达式去除非结构化医疗文本中的包含否定词和/或阴性词的文本，然后采用BIO标注体系对非结构化医疗文本进行标注；步骤S2：通过NER模型识别医疗实体：所述NER模型为基于ERNIE预训练模型、膨胀卷积神经网络和条件随机场的医疗实体识别模型，首先将标注后的医疗文本通过ERNIE预训练模型转换为字向量，然后将字向量输入到膨胀卷积神经网络中以得到每个字的标签得分，最后将每个字的标签得分输入到条件随机场中以得到文本中包含的所有的实体名称和每个字的医疗实体类别；步骤S3：构建半结构化数据库：根据识别出的医疗实体类别和实体名称，构建半结构化数据库，所述半结构化数据库包括患者编号、医疗实体类别和实体名称；步骤S4：目标医疗实体是否存在的判断：利用半结构化数据库，训练ERNIE深度学习模型以构建协变量提取器，向协变量提取器中输入目标医疗实体的标准名称，通过ERNIE深度学习模型将目标医疗实体的标准名称与半结构化数据库中的实体名称进行相似度比对，并通过逻辑回归函数判断目标医疗实体的标准名称与实体名称是否相似，如果相似，则表示匹配，代表该目标协变量存在于非结构化医疗文本中，则输出结果为“1”，以疾病实体为例，则“1”表示患者患有该医疗实体名称对应的疾病；如果不相似，则表示不匹配，代表该目标协变量不存在于非结构化医疗文本中，则输出结果为“0”，以疾病实体为例，则“0”表示该患者未患有该医疗实体名称对应的疾病；步骤S5：构建结构化数据库：在所述协变量提取器中依次输入目标医疗实体的名称之后，所述协变量提取器就会构建一个结构化数据库，所述结构化数据库包括患者编号、目标医疗实体的标准名称及其对应的输出结果。2.如权利要求1所述的基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法，其特征在于，在步骤S4中，所述ERNIE深度学习模型采用12层Transformer，隐藏层大小为768，多头注意力机制为12头，优化器为Adam，设置学习率为2e
‑
05，一次训练所选取的样本数为32，训练迭代10次。3.如权利要求1所述的基于非结构化医疗文本提取疾病预后协变量的结构化数据的方法，其特征在于，在步骤S4中，所述相似度比对的方法包括下述步骤：利用孪生网络结构，首先将目标医疗实体的标准名称与实体名称这两个实体分别送入ERNIE，ERNIE的参数对这两个实体共享，得到两个实体的句向量，随后送入汇聚层，采用平均汇聚方式对句向量进行特征提取和压缩，得到u和v，最后将u、v、|u
‑
v|拼接后送入全连接层，将这两个实体进行相似度比对，通过逻辑回归函数判断两个实体是否相似，如果相似，则表示匹配，代表该目标协变量存在于非结构化的原始医疗文本中；如果不相似，则表示不匹配，代表该目标协变量不存在于非结构化的原始医疗文本中。4.如权利要求1所...

【专利技术属性】
技术研发人员：贺佳，吴骋，林振，秦宇辰，秦婴逸，李冬冬，王志勇，何倩，陈琪，郭威，郭轶斌，
申请(专利权)人：中国人民解放军海军军医大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人