System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法技术_技高网

一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法技术

技术编号:40804952 阅读:15 留言:0更新日期:2024-03-28 19:29
本发明专利技术涉及一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,属于自然语言处理领域。本发明专利技术根据哈尔滨工业大学网络智能研究室给出的标签规范结合静脉血栓栓塞症相关风险评估量表定义实体类型和关系类型,用于标注临床的电子病历中静脉血栓栓塞症相关信息;其次在联合抽取模型上融入双仿射机制,让电子病历文本中的实体对进行信息交互,提升医疗文本实体识别和关系抽取的效果;通过以上过程本发明专利技术达到了在临床电子病历中抽取静脉血栓栓塞症相关信息从而构建知识图谱的目的。

【技术实现步骤摘要】

本专利技术涉及一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,属于自然语言处理领域。


技术介绍

1、静脉血栓栓塞症(venous thromboembolism,vte)包括深静脉血栓形成(deepvenous thrombosis,dvt)和肺栓塞(pulmonary embolism,pe)在内的一系列疾病,其病死率仅次于在肿瘤和心肌梗死。然而,只有一小部分患者接受了推荐的静脉血栓栓塞预防治疗,在偏远地区这一情况更加严重。因此,我们迫切需要提高非专科医生对vte的及时诊疗和增强患者对vte危险性的认识。

2、电子病历(emr)记录了患者在医院中的整个医疗活动,包含了大量的专业医学知识,是一种珍贵的医疗信息资源。知识图谱能够有效地整合电子病历中的医学知识,为提高非专科医生对vte的及时诊疗和增强患者对vte危险性提供了可选择的解决方案。信息抽取(ie)能够从非结构化的电子病历中识别与患者密切相关的特定命名实体和关系,获得有价值的医学知识。但是,传统电子病历信息抽取方法依赖于具体的领域、语言和文本风格等因素,导致系统的可移植性差。并且,这些手工方法很难列出所有需要建模的规则。

3、深度学习被用于学习电子病历中医学实体之间的关系,减少了对人工特征工程的依赖,解决了传统电子病历信息抽取方法中存在的问题。流水线方法作为基于深度学习信息抽取方法中的一种,将命名实体识别和关系抽取视为两个独立的子任务,先进行命名实体识别,再根据命名实体识别的结果进行关系分类。然而,流水线方式存在以下的缺点,(1)误差传递,命名实体模型识别的错误会传递到关系抽取的模型,影响最终抽取效果。(2)缺少交互,命名实体识别模型与关系抽取模型是两个模型,两个模型分开训练又分开预测,导致实体与关系之间缺少信息。(3)关系抽取的冗余,关系抽取模型对多个实体进行两两配对,产生很多冗余的关系对。

4、联合抽取的方式是指在实体和关系抽取在一个模型内进行,在一定程度上克服流水线模式的三个缺点。联合模型的难点在于如何加强实体模型和关系模型之间的信息交互,在建模的时候考虑到此类约束将有助于联合模型的性能。


技术实现思路

1、鉴于现有技术中的上述缺陷或不足,本专利技术提供一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,提升了医疗文本实体识别和关系抽取的效果,从而构建高质量的知识图谱。

2、本专利技术的技术方案是:一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,所述方法包括如下:

3、step1、首先在哈尔滨工业大学网络智能研究室给出的标签规范的基础上结合静脉血栓栓塞症相关风险评估量表定义实体类型和关系类型,获取电子病历文本数据,对数据清洗后进行实体和关系的标注;

4、step2、其次获取标注好的数据集,对数据集进行预处理,得到每句话中的实体位置和实体类型,以及实体之间的关系类型,用于训练实体关系联合抽取模型;

5、step3、对输入联合抽取模型的电子病历文本使用中文预训练模型bert对上下文进行编码,提取每个字符的特征,使用双向gru进一步提取文本上下文特征,使用双仿射机制构造全局矩阵同时识别实体和关系,最后进行模型训练;

6、step4、利用训练好的联合抽取模型从未标注的文本中获取关系三元组,利用关系三元组构建知识图谱。

7、进一步地,所述step1中,定义实体类型和关系类型;定义实体类型,用于标注实体类型;定义关系类型,用于标注关系类型;数据清洗是对异类异常值,格式异常及脏乱进行映射和清洗。

8、进一步地,所述step2中包括:对标注好的数据进行预处理,包括把对超出最大长度的文本进行切分,获取每一句中的实体位置和类型以及它们之间关系的类型,从而获得模型能够训练的数据。

9、进一步地,所述step3的具体步骤如下:

10、step3.1.对输入联合抽取模型的电子病历文本使用中文预训练模型bert对上下文进行编码,提取每个字符的特征,得到词向量;

11、step3.2.使用bigru获取词向量的上下文信息;

12、step3.3.利用biaffine使得电子病历中的实体对进行信息交互,同时利用带有上下文信息的词向量构造全局矩阵,模型通过全局矩阵同时进行实体识别和关系分类。

13、本专利技术的有益效果是:

14、1、本专利技术根据哈尔滨工业大学网络智能研究室给出的标签规范结合静脉血栓栓塞症相关风险评估量表定义实体类型和关系类型,用于标注临床的电子病历中静脉血栓栓塞症相关信息;

15、2、在联合抽取模型上融入双仿射机制,让电子病历文本中的实体对进行信息交互,提升医疗文本实体识别和关系抽取的效果;

16、3、本专利技术提升了医疗文本实体识别和关系抽取的效果,能实现从电子病历中抽取静脉血栓栓塞症相关信息用于构建高质量的知识图谱。

本文档来自技高网...

【技术保护点】

1.一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,其特征在于,所述方法包括如下:

2.根据权利要求1所述的一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,其特征在于:所述Step1中,定义实体类型和关系类型;定义实体类型,用于标注实体类型;定义关系类型,用于标注关系类型;数据清洗是对异类异常值,格式异常及脏乱进行映射和清洗。

3.根据权利要求1所述的一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,其特征在于:所述Step2中包括:对标注好的数据进行预处理,包括把对超出最大长度的文本进行切分,获取每一句中的实体位置和类型以及它们之间关系的类型,从而获得模型能够训练的数据。

4.根据权利要求1所述的一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,其特征在于:所述Step3的具体步骤如下:

【技术特征摘要】

1.一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,其特征在于,所述方法包括如下:

2.根据权利要求1所述的一种从电子病历抽取静脉血栓栓塞症相关信息用于构建知识图谱的方法,其特征在于:所述step1中,定义实体类型和关系类型;定义实体类型,用于标注实体类型;定义关系类型,用于标注关系类型;数据清洗是对异类异常值,格式异常及脏乱进行映射和清洗。

3.根据权利...

【专利技术属性】
技术研发人员:贺建峰蔡风华张洪江鲁成新刘云川
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1