【技术实现步骤摘要】
基于统一医学语言系统的医学知识图谱构建方法
[0001]本专利技术属于医学数据处理
,具体地,涉及一种基于医学数据结构化的知识图谱构建方法
。
技术介绍
[0002]知识图谱(
Knowledge Graph
,
KG
)是有效存储医学关联数据的方法,它们有能力对复杂多样的数据结构进行建模
。
从形式上看,知识图谱可以被描述为有标记的聚合图,支持对于类型多
、
来源多的知识进行语义表示和知识关联,能有效融合多来源
、
多类型数据的知识关联;从功能上看,知识图谱具有强大的语义关联能力
、
信息组织能力和知识融合能力,能实现智能检索
、
路径发现
、
知识推理,可以应用在学科知识发现方面
。
[0003]医学数据结构化是通过将医学领域中的非结构化文本数据(例如入院病历
、
检查报告和病程记录)转换为可检索
、
可分析和可计算的结构化医学数据,实现对这些数据的深入理解和利用,这一过程主要涉及对具有医学意义的实体(如疾病
、
症状
、
药物等)以及实体属性(如名称
、
代码
、
描述等)和实体之间关系信息的解析和抽取
。
由于知识图谱对于复杂数据出色的存储能力,使其可以应用于医学数据结构化,使非结构化的文本数据可以被转化为结构化的形式,使得医学数据更易于管理< ...
【技术保护点】
【技术特征摘要】
1.
一种基于统一医学语言系统的医学知识图谱构建方法,其特征在于,所述方法步骤如下:步骤
a1
,医学文本数据获取:通过建立
MySQL
数据库,抽取统一医学语言系统
(Unified Medical Language System
,
UMLS)
的英文医学文本数据;步骤
a2
,医学文本数据筛选:根据所述医学语言系统文档确定医学数据的目标段落类型,并根据所述目标段落类型对相应的所述医学数据进行段落数据处理及抽取,得到目标实体及相互关系数据;步骤
a3
,医学知识图谱获取:根据所述目标实体及相互关系数据并加入辅助属性得到目标三元组,导入知识图谱获得包含医学实体以及各实体关系的医学知识图谱;步骤
a4
,医学知识图谱存储:将所述医学知识图谱存储在
Neo4j
图数据库中
。2.
按照权利要求1所述的医学知识图谱构建方法,其特征在于,所述步骤
a1
还包括:对所述统一医学语言系统进行分析;采用所述系统中规定的
MySQL
导入脚本,并设置
UMLS
规定的
MySQL
‑
5.5
数据库版本,
UMLS
的数据以
RRF
格式存储,编写
MySQL
导入脚本并生成
UMLS
数据库,并对应
UMLS
官方数据文档分析所述
UMLS
数据库各表中存储数据的作用
。3.
按照权利要求1所述的医学知识图谱构建方法,其特征在于,所述步骤
a2
还包括:通过所述医学语言系统文档,筛选所述
UMLS
数据库中符合要求的数据段落,类型主要包括:疾病
、
症状
、
身体部位
、
药品和手术等在医学过程中涉及到的典型数据实体,并将所述数据进行清洗
、
去重
、
标准化和规范化等处理步骤
。4.
按照权利要求3所述的医学知识图谱构建方法,其特征在于,所述对数据进行清洗
、
去重
、
标准化和规范化等处理步骤执行如下步骤:步骤
b1
,将所述处理医学数据中失效数据进行剔除,并将所述
UMLS
数据库已抽取的目标段落类型中不符合构建医学知识图谱的实体剔除;步骤
b2
,翻译所述
UMLS
英文数据库中英文医学实体为中文,并建立所述英文医学实体与中文医学实体对应的索引表,英文医学数据将按照国际编码为对齐标准
。5.
按照权利要求4所述的医学知识图谱构建方法,其特征在于,所述步骤
b1<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。