一种中医电子病历结构化方法和终端技术

技术编号:26306211 阅读:21 留言:0更新日期:2020-11-10 20:05
本发明专利技术提出了一种中医电子病历结构化方法和终端,该方法包括:将中医电子病历文本数据输入训练好的Bert‑CRF模型,得到中医实体;基于中医实体库对所述中医实体进行边界修正,得到修正后的修正实体;基于症状分解元素字典树和最大正向匹配算法对症状所述修正实体中的症状实体进行分解,得到分解后的实体元素;基于所述实体元素在元素图谱中进行查询,得到对应所述实体元素的标准元素节点,并通过所述标准元素节点得到标准症状组。解决部分中医实体识别的边界问题,提高了实体识别的准确率与召回率;本方案了中医症状归一化方法,能够准确进行症状归一化。

【技术实现步骤摘要】
一种中医电子病历结构化方法和终端
本专利技术涉及数据结构化
,特别涉及一种中医电子病历结构化方法和终端。
技术介绍
由于中医病历文本表示的复杂性以及特殊性,中医病历中拥有许多专有名词以及表示,往往与常见的中文表示有较大的不同,这种情况导致容易出现失误等情况,由此需要对其中的名称,特别针对症状进行名称的标准化。目前已有的方案中,主要使用HMM,CRF等模型来进行电子病历实体识别。HMM,CRF等模型来进行电子病历实体识别的方法是西医电子病历实体识别中常用的方法,但其在中医领域并不能取得预期的效果,由于训练的语料中并不包含大量的中医相关语料,在中医电子病历的实体识别任务上也无法达到预期的效果。至于症状归一化常用的方法中,主要通过计算症状与中医标准症状库中标准症状之间的相似度,相似度最高的作为症状归一化后的标准症状。通常相似度计算基于最小编辑距离,Jaccard相似系数,词向量余弦相似度等。但是最小编辑距离和Jaccard相似系数等都是基于字符串的相似度计算方法,无法处理字符完全不同意思却相同的情况,例如“纳差”和“食欲不振”字符层面上本文档来自技高网...

【技术保护点】
1.一种中医电子病历结构化方法,其特征在于,包括:/n将中医电子病历文本数据输入训练好的Bert-CRF模型,得到中医实体;/n基于中医实体库对所述中医实体进行边界修正,得到修正后的修正实体;/n基于症状分解元素字典树和最大正向匹配算法对所述修正实体中的症状实体进行分解,得到分解后的实体元素;/n基于所述实体元素在元素图谱中进行查询,得到对应所述实体元素的标准元素节点,并通过所述标准元素节点得到标准症状组。/n

【技术特征摘要】
1.一种中医电子病历结构化方法,其特征在于,包括:
将中医电子病历文本数据输入训练好的Bert-CRF模型,得到中医实体;
基于中医实体库对所述中医实体进行边界修正,得到修正后的修正实体;
基于症状分解元素字典树和最大正向匹配算法对所述修正实体中的症状实体进行分解,得到分解后的实体元素;
基于所述实体元素在元素图谱中进行查询,得到对应所述实体元素的标准元素节点,并通过所述标准元素节点得到标准症状组。


2.如权利要求1所述的一种中医电子病历结构化方法,其特征在于,在“将中医电子病历文本数据输入训练好的Bert-CRF模型”之前,还包括:
通过Bert模型在中医语料库上进行增强预训练,以在所述Bert模型上已有预训练任务的基础上增加预测中医实体的任务;
在完成增强预训练的所述Bert模型接入CRF层,得到Bert-CRF模型;
通过所述Bert-CRF模型在进行了人工标注的中医电子病历实体识别数据集上进行训练,得到训练好的Bert-CRF模型。


3.如权利要求2所述的一种中医电子病历结构化方法,其特征在于,所述预测中医实体的任务包括以下操作:通过所述Bert模型随机mask中医实体,让所述Bert模型从包含被mask掉的中医实体以及其他随机采样实体的待选实体集合中找出所述被mask掉的中医实体。


4.如权利要求3所述的一种中医电子病历结构化方法,其特征在于,所述找到所述被mask掉的中医实体的概率通过以下公式来确定:



其中,Wi0表示中医实体Wi的第一个位置的上下文向量表示,ek表示第k个待选中医实体的特征向量表示,ej表示第j个待选中医实体的特征向量表示。


5.如权利要求2所述的一种中医电子病历结构化方法,其特征在于,其中,所述CRF层用于保证通过所述Bert-CRF模型得到的中医实体的类别标签是合法的;
该方法还包括:
通过中医电子病历历史数据计算中医实体的类别标签之...

【专利技术属性】
技术研发人员:李文友赵静沈新吴海杰何洁
申请(专利权)人:南京大经中医药信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1