基于统一医学语言系统的医学知识图谱构建方法技术方案

技术编号:39496911 阅读:12 留言:0更新日期:2023-11-24 11:25
本发明专利技术提供一种基于统一医学语言系统的医学知识图谱构建方法,充分利用统一医学语言系统内部丰富的结构化医学数据资源来动态构建知识图谱

【技术实现步骤摘要】
基于统一医学语言系统的医学知识图谱构建方法


[0001]本专利技术属于医学数据处理
,具体地,涉及一种基于医学数据结构化的知识图谱构建方法


技术介绍

[0002]知识图谱(
Knowledge Graph

KG
)是有效存储医学关联数据的方法,它们有能力对复杂多样的数据结构进行建模

从形式上看,知识图谱可以被描述为有标记的聚合图,支持对于类型多

来源多的知识进行语义表示和知识关联,能有效融合多来源

多类型数据的知识关联;从功能上看,知识图谱具有强大的语义关联能力

信息组织能力和知识融合能力,能实现智能检索

路径发现

知识推理,可以应用在学科知识发现方面

[0003]医学数据结构化是通过将医学领域中的非结构化文本数据(例如入院病历

检查报告和病程记录)转换为可检索

可分析和可计算的结构化医学数据,实现对这些数据的深入理解和利用,这一过程主要涉及对具有医学意义的实体(如疾病

症状

药物等)以及实体属性(如名称

代码

描述等)和实体之间关系信息的解析和抽取

由于知识图谱对于复杂数据出色的存储能力,使其可以应用于医学数据结构化,使非结构化的文本数据可以被转化为结构化的形式,使得医学数据更易于管理<br/>、
分析和利用,从而辅助医学机构和从业人员从海量的文本数据中提取有价值的信息,支持临床决策

医学研究和医学管理等工作

[0004]对于医学数据,其数据种类繁多,来源丰富,综合分析的难度很大,统一医学语言系统(
Unified Medical Language System

UMLS
)旨在解决医学领域中不同专业领域和不同医学术语的异构性和不一致性问题,其是由美国国立卫生研究院(
NIH
)国家医学图书馆(
NLM
)开发的医学知识管理系统
。UMLS
的主要组成部分包括:概念
(CUIs)、
术语集
(Terminologies)、
语义网络
(Semantic Network)
和元词典
(Metathesaurus)
,通过
UMLS
,医学专业人员

研究者和开发人员可以更方便地获取和共享医学知识,促进了医学领域的研究和实践

[0005]目前,现有的医学知识图谱数据来源都是从多个数据源并由网络爬虫爬取或者人工筛选的方式进行获取的,可能存在以下问题:
(1)
信息重复,来源于多种数据源的信息没有办法很好地归纳治理;
(2)
知识图谱信息缺失,知识图谱中很多实体以及实体之间潜在的关系没有被挖掘;
(3)
更新效率低,由于来源复杂,更新过程中容易出现错误信息


技术实现思路

[0006]针对现有技术中存在的问题
, 本专利技术提出一种基于统一医学语言系统的医学知识图谱构建方法,目的在于实现一个医学来源统一,医学信息准确,医学数据结构化的知识图谱构建方法

[0007]本专利技术是这样实现的,基于统一医学语言系统的医学知识图谱构建方法,所述方法包括:医学文本数据获取:通过建立
MySQL
数据库,抽取统一医学语言系统
(Unified Medical Language System

UMLS)
的英文医学文本数据;医学文本数据筛选:根据所述医学
语言系统文档确定医学数据的目标段落类型,并根据所述目标段落类型对相应的所述医学数据进行段落数据处理及抽取,得到目标实体及相互关系数据;医学知识图谱获取:根据所述目标实体及相互关系数据并加入辅助属性得到目标三元组,导入知识图谱获得包含医学实体以及各实体关系的医学知识图谱;知识图谱存储:将所述医学知识图谱存储在
Neo4j
图数据库中

[0008]优选的,对所述统一医学语言系统进行分析;采用所述系统中规定的
MySQL
导入脚本,并设置
UMLS
规定的
MySQL

5.5
数据库版本,
UMLS
的数据以
RRF
格式存储,编写
MySQL
导入脚本并生成
UMLS
数据库,并对应
UMLS
官方数据文档分析所述
UMLS
数据库各表中存储数据的作用

[0009]优选的,通过所述医学语言系统文档,筛选所述
UMLS
数据库中符合要求的数据段落,类型主要包括:疾病

症状

身体部位

药品和手术等在医学过程中涉及到的典型数据实体,并将所述数据进行清洗

去重

标准化和规范化等处理步骤

[0010]优选的,所述对数据进行清洗

去重

标准化和规范化等处理步骤还需执行如下步骤:将所述处理医学数据中失效数据进行剔除,并将所述
UMLS
数据库已抽取的目标段落类型中不符合构建医学知识图谱的实体剔除;剔除处理医学数据中的失效数据和不符合建立医学知识图谱的实体,包括所述
UMLS
数据库中早期存在的医学实体但目前已经更换名称以及医学实体存储的语言为小语种,不利于溯源及翻译,为提高知识图谱的数据质量,舍弃相应数据

[0011]翻译所述
UMLS
英文数据库中英文医学实体为中文,并建立所述英文医学实体与中文医学实体对应的索引表,英文医学数据将按照国际编码为对齐标准

[0012]建立
UMLS
英文数据库与中文医学实体的所述对应索引表,使得每个英文医学实体能唯一对应中文医学实体,避免英文翻译过程中的重复现象,提高所述知识图谱内容的准确性并压缩占用空间,使得知识图谱能够以中文为基础进行查询和展示,便于用户使用中文习惯进行知识图谱的查询和浏览

[0013]优选的,所述将所述英文医学实体按国际编码进行整合处理还包括:
UMLS
数据库中的所述英文医学实体分别对应国际疾病分类标准编码
ICD10
和手术编码
ICD9CM
,设定所述国际编码相同即均为同一医学实体,并按照对齐后的英文医学实体,进行统一翻译,并进行人工检查并调整翻译结果,以契合中文习惯

[0014本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于统一医学语言系统的医学知识图谱构建方法,其特征在于,所述方法步骤如下:步骤
a1
,医学文本数据获取:通过建立
MySQL
数据库,抽取统一医学语言系统
(Unified Medical Language System

UMLS)
的英文医学文本数据;步骤
a2
,医学文本数据筛选:根据所述医学语言系统文档确定医学数据的目标段落类型,并根据所述目标段落类型对相应的所述医学数据进行段落数据处理及抽取,得到目标实体及相互关系数据;步骤
a3
,医学知识图谱获取:根据所述目标实体及相互关系数据并加入辅助属性得到目标三元组,导入知识图谱获得包含医学实体以及各实体关系的医学知识图谱;步骤
a4
,医学知识图谱存储:将所述医学知识图谱存储在
Neo4j
图数据库中
。2.
按照权利要求1所述的医学知识图谱构建方法,其特征在于,所述步骤
a1
还包括:对所述统一医学语言系统进行分析;采用所述系统中规定的
MySQL
导入脚本,并设置
UMLS
规定的
MySQL

5.5
数据库版本,
UMLS
的数据以
RRF
格式存储,编写
MySQL
导入脚本并生成
UMLS
数据库,并对应
UMLS
官方数据文档分析所述
UMLS
数据库各表中存储数据的作用
。3.
按照权利要求1所述的医学知识图谱构建方法,其特征在于,所述步骤
a2
还包括:通过所述医学语言系统文档,筛选所述
UMLS
数据库中符合要求的数据段落,类型主要包括:疾病

症状

身体部位

药品和手术等在医学过程中涉及到的典型数据实体,并将所述数据进行清洗

去重

标准化和规范化等处理步骤
。4.
按照权利要求3所述的医学知识图谱构建方法,其特征在于,所述对数据进行清洗

去重

标准化和规范化等处理步骤执行如下步骤:步骤
b1
,将所述处理医学数据中失效数据进行剔除,并将所述
UMLS
数据库已抽取的目标段落类型中不符合构建医学知识图谱的实体剔除;步骤
b2
,翻译所述
UMLS
英文数据库中英文医学实体为中文,并建立所述英文医学实体与中文医学实体对应的索引表,英文医学数据将按照国际编码为对齐标准
。5.
按照权利要求4所述的医学知识图谱构建方法,其特征在于,所述步骤
b1<...

【专利技术属性】
技术研发人员:胡博
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1