【技术实现步骤摘要】
一种基于电子病历的心脑血管病知识图谱问答方法
本专利技术涉及深度学习和问答系统领域,尤其是涉及一种基于电子病历的心脑血管病知识图谱问答方法。
技术介绍
心脑血管病是一种严重威胁人类,特别是50岁以上中老年人健康的常见疾病。即使应用目前最先进、完善的治疗手段,仍可有50%以上的脑血管意外幸存者生活不能完全自理。我国每年死于心脑血管疾病近300万人,占我国每年总死亡病因的51%。因此,一种线上心脑血管领域的问答方法及系统十分必要,这对医师来说可以扩展专业知识能力,同时也能提升用户心脑血管的知晓率。现有的心血管病专家决策系统有两种,一种是通过设定心血管指标结合电子病历进行诊疗,另一种是基于机器学习来辅助医生对病人建模评估心血管病风险,提供类似案例。但普遍存在的主要问题有用户描述不精确导致并发症指向多种疾病、检查数据不充分无法精确推理,专家系统和医院病历系统直接关联过于复杂等。
技术实现思路
本专利技术为了解决上述问题,提出了一种基于电子病历的心脑血管病知识图谱问答方法及系统,针对异构电子病历数据构建心血 ...
【技术保护点】
1.基于电子病历的心脑血管病知识图谱问答方法,其特征在于该方法包括如下步骤:/n步骤1. 构建基于爬虫、知识库及病历的心脑血管病领域词典;/n利用爬虫程序收集百科及医疗健康网站疾病相关数据,整理获得带实体标签的爬虫实体数据集D1,进一步提取线上开源知识库获得带有实体标签的线上实体数据集D2,从电子病历临床数据提取体格检查及住院检查页和其它检查工作表作为病历实体数据集D3,融合以上三个数据集并人工修正获得心脑血管实体数据集R1,包含疾病、症状、药物、检查、部位、手术和科室7类实体及概述、病因、诊断、治疗4类实体属性;/n步骤2.构建电子病历文本训练数据集;/n提取电子病历临床 ...
【技术特征摘要】
1.基于电子病历的心脑血管病知识图谱问答方法,其特征在于该方法包括如下步骤:
步骤1.构建基于爬虫、知识库及病历的心脑血管病领域词典;
利用爬虫程序收集百科及医疗健康网站疾病相关数据,整理获得带实体标签的爬虫实体数据集D1,进一步提取线上开源知识库获得带有实体标签的线上实体数据集D2,从电子病历临床数据提取体格检查及住院检查页和其它检查工作表作为病历实体数据集D3,融合以上三个数据集并人工修正获得心脑血管实体数据集R1,包含疾病、症状、药物、检查、部位、手术和科室7类实体及概述、病因、诊断、治疗4类实体属性;
步骤2.构建电子病历文本训练数据集;
提取电子病历临床数据的有效主体内容包含入院记录、病程记录及出院记录三部分,进一步对电子病历临床数据其余组成部分通过正则及工作表筛选获得病历训练集T1,进一步对病历训练集T1中的病人姓名、地址、病历号及医院做脱敏处理获得病历训练集T2,进一步对病历训练集T2中症状的否定修饰结合人工规则筛选获得训练文本集T3;
步骤3.构建基于电子病历的命名实体识别模型;
使用步骤1获取的实体数据集R1作为jieba分词工具的用户分词词典对步骤2的训练文本集T3提取实体标注训练集,将实体语料按句分隔,对句子采用BIO标注进行基于字的标注;
根据电子病历长文本的特点使用在长文本场景下的Longformer代替谷歌Bert工具进行基于字的向量化,每个字的字嵌入向量构成句子表示矩阵,对句子表示矩阵使用双向长短期记忆模型和条件随机场进行序列标注,输出词标注结果和其对应的标签,训练获得基于深度学习的序列标注模型M1;
步骤4.构建基于实体语料的实体关系抽取模型;
根据步骤3序列标注模型M1输出实体标签预测数据集MT1,同时根据实体类别定义以疾病实体为起始节点的7类关系,分别对应:疾病-症状、疾病-药物、疾病-检查、疾病-疾病、疾病-科室、疾病-手术和疾病-部位;
设定关联阈值...
【专利技术属性】
技术研发人员:殷昱煜,梁炎炎,万健,梁婷婷,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。