当前位置: 首页 > 专利查询>新疆大学专利>正文

一种基于代谢病的事理知识图谱的构建方法及系统技术方案

技术编号:34954473 阅读:25 留言:0更新日期:2022-09-17 12:32
本发明专利技术涉及一种基于代谢病的事理知识图谱获取方法及系统,首先获取代谢病相关数据,识别出代谢病相关数据文本中的触发词及其对应的事件类型,然后针对每个事件触发词及事件类型构建对应的问题,将问题与上下文拼接后输入模型以抽取事件其他组成部分,获得完整事件表述,然后判断各完整事件之间的关系,最后根据所抽取的信息构建代谢病事理知识图谱。本申请上述方法充分利用临床信息构建知识图谱,构建更加完善的代谢病知识图谱,可以帮助科研工作者或医疗从业人员快捷方便的查询相关的知识,辅助临床医生做科学决策,另一方面也可以为代谢病相关的各种智能服务提供数据支撑。为代谢病相关的各种智能服务提供数据支撑。为代谢病相关的各种智能服务提供数据支撑。

【技术实现步骤摘要】
一种基于代谢病的事理知识图谱的构建方法及系统


[0001]本专利技术涉及事理知识图谱构建领域,特别是涉及一种基于代谢病的事理知识图谱的构建方法及系统。

技术介绍

[0002]随着知识图谱的快速发展,医疗知识图谱同样是一个研究热点。传统的知识图谱大多都是以实体为中心的,而作为描述现实世界的另一个重要元素——事件,以及事件之间的关系,在传统知识图谱很少有系统的定义,在这样的背景下,有学者提出了事理图谱的概念。事理图谱以事件为中心,着重描述事件之间的关系(因果关系,转折关系,顺承关系,条件关系等多种关系),与传统知识图谱着重描述实体之间相对静态变化缓慢的确定型知识不同,事理图谱描述的知识是动态的,具有一定的转移概率,对事件发展的规律进行描述,对于知识推理也是非常重要的。但目前鲜有医疗事理知识图谱,充分挖掘医疗领域中的事件可以帮助分析疾病的诱因以及制定相关防治措施。基于此,本专利技术提出一种医疗领域中基于代谢病的事理知识图谱的构建方法及系统。

技术实现思路

[0003]本专利技术的目的是提供一种基于代谢病的事理知识图谱的构建方法及系统,以充分挖掘医疗领域中的事件,进而帮助分析疾病的诱因以及制定相关防治措施。
[0004]为实现上述目的,本专利技术提供了如下方案:
[0005]一种基于代谢病的事理知识图谱获取方法,包括:
[0006]获取代谢病相关数据,所述代谢病相关数据包括结构化数据和非结构化数据;
[0007]利用序列标注模型对所述非结构化数据中每一事件的触发词和事件类型进行抽取;
[0008]根据抽取的每一所述触发词以及对应事件类型,生成关于事件参数角色的问题,根据所述问题,利用基于MRC的模型获得所述事件参数;所述事件参数为所述触发词对应事件的事件参数;
[0009]根据每一事件的所述触发词、所述事件类型、所述事件参数角色、以及所述事件参数得到事件的完整表述,记为第一完整事件;
[0010]根据多个所述第一完整事件,利用事件关系分类模型获得多个所述第一完整事件之间的关系,将多个所述第一完整事件根据事件之间的关系进行关联,得到第一级代谢病事理知识图谱;
[0011]将所述结构化数据利用正则表达式进行抽取,得到所述结构化数据中每一事件的完整表述,记为第二完整事件,将多个所述第二完整事件进行关联,得到第二级代谢病事理知识图谱;
[0012]根据所述第一级代谢病事理知识图谱和所述第二级代谢病事理知识图谱获得初级代谢病事理知识图谱;
[0013]将所述初级代谢病事理知识图谱融入第三方数据库的知识,获得最终的代谢病事理知识图谱,所述第三方数据库包括相关医疗知识图谱和知识库。
[0014]本专利技术还提供一种基于代谢病的事理知识图谱获取系统,包括:
[0015]代谢病相关数据获取模块,用于获取代谢病相关数据,所述代谢病相关数据包括结构化数据和非结构化数据;
[0016]触发词和事件类型抽取模块,用于利用序列标注模型对所述非结构化数据中每一事件的触发词和事件类型进行抽取;
[0017]事件参数获取模块,用于根据抽取的每一所述触发词以及对应的事件类型,生成关于事件参数角色的问题,根据所述问题,利用基于MRC的模型获得所述事件参数;所述事件参数为所述触发词对应事件的事件参数;
[0018]第一完整事件获取模块,用于根据每一事件的所述触发词、所述事件类型、所述事件参数角色以及所述事件参数得到事件的完整表述,记为第一完整事件;
[0019]第一级代谢病事理知识图谱构建模块,用于根据多个所述第一完整事件,利用事件关系分类模型获得多个所述第一完整事件之间的关系,将多个所述第一完整事件根据事件之间的关系进行关联,得到第一级代谢病事理知识图谱;
[0020]第二级代谢病事理知识图谱构建模块,用于将所述结构化数据利用正则表达式进行抽取,得到所述结构化数据中每一事件的完整表述,记为第二完整事件,将多个所述第二完整事件进行关联,得到第二级代谢病事理知识图谱;
[0021]初级代谢病事理知识图谱构建模块,用于根据所述第一级代谢病事理知识图谱和所述第二级代谢病事理知识图谱获得初级代谢病事理知识图谱;
[0022]最终代谢病事理知识图谱构建模块,用于将所述初级代谢病事理知识图谱融入第三方数据库的知识,获得最终代谢病事理知识图谱,所述第三方数据库包括相关医疗知识图谱和知识库。
[0023]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0024]本专利技术提供的一种基于代谢病的事理知识图谱获取方法及系统,首先获取代谢病相关数据,识别出代谢病相关数据文本中的触发词及其对应的事件类型,然后针对每个事件触发词及事件类型构建对应的问题,将问题与上下文拼接后输入模型以抽取事件其他组成部分,获得完整事件表述,然后判断各完整事件之间的关系,最后根据所抽取的信息构建代谢病事理知识图谱。本申请上述方法充分利用医疗文本信息,医学文献,指南等构建知识图谱,构建更加完善的代谢病知识图谱,可以帮助科研工作者或医疗从业人员快捷方便的查询相关的知识,辅助临床医生做科学决策,另一方面也可以为代谢病相关的各种智能服务提供数据支撑。
附图说明
[0025]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0026]图1为本专利技术实施例1提供的基于代谢病的事理知识图谱获取方法流程图;
[0027]图2为本专利技术实施例1提供的包含事件类型、触发器和事件参数的完整事件表述示意图;
[0028]图3为本专利技术实施例1提供的事件抽取的整体步骤示意图;
[0029]图4为本专利技术实施例1提供的关于事件检测模块整体示意图,输入为文本,输出是每个字对应的标记(BIO);
[0030]图5为本专利技术实施例1提供的触发词提取模块输出示意图;
[0031]图6为本专利技术实施例1提供的基于MRC模型事件参数提取的示意图;
[0032]图7为本专利技术实施例1提供的生成事件参数提取中使用问句的两种方法的示意图;
[0033]图8为本专利技术实施例1提供的基于深度神经网络对事件关系进行提取的示意图;
[0034]图9为本专利技术实施例1提供的初步代谢病事理知识图谱示意图;
[0035]图10为本专利技术实施例1提供的利用基于Bert深度神经网络模型进行知识融合时语义关系分类示意图。
具体实施方式
[0036]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0037]本专利技术的目的是提供一种基于代谢病本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于代谢病的事理知识图谱获取方法,其特征在于,包括:获取代谢病相关数据,所述代谢病相关数据包括结构化数据和非结构化数据;利用序列标注模型对所述非结构化数据中每一事件的触发词和事件类型进行抽取;根据抽取的每一所述触发词以及对应事件类型,生成关于事件参数角色的问题,根据所述问题,利用基于MRC的模型获得所述事件参数;所述事件参数为所述触发词对应事件的事件参数;根据每一事件的所述触发词、所述事件类型、所述事件参数角色、以及所述事件参数得到事件的完整表述,记为第一完整事件;根据多个所述第一完整事件,利用事件关系分类模型获得多个所述第一完整事件之间的关系,将多个所述第一完整事件根据事件之间的关系进行关联,得到第一级代谢病事理知识图谱;将所述结构化数据利用正则表达式进行抽取,得到所述结构化数据中每一事件的完整表述,记为第二完整事件,将多个所述第二完整事件进行关联,得到第二级代谢病事理知识图谱;根据所述第一级代谢病事理知识图谱和所述第二级代谢病事理知识图谱获得初级代谢病事理知识图谱;将所述初级代谢病事理知识图谱融入第三方数据库的知识,获得最终的代谢病事理知识图谱,所述第三方数据库包括相关医疗知识图谱和知识库。2.根据权利要求1所述的方法,其特征在于,所述利用序列标注模型对所述非结构化数据中每一事件的触发词和事件类型进行抽取,具体包括:从所述非结构化数据中选取部分数据作为训练集,针对所述训练集中的每一事件文本进行标注,得到标注好的训练集;所述标注的内容包括事件的触发词、事件类型、事件参数角色、事件参数以及事件之间的关系;利用所述标注好的训练集对所述序列标注模型进行训练,得到训练好的序列标注模型,其中,训练过程中以事件文本作为输入,以触发词和事件类型作为输出;将所述非结构化数据中除部分数据外的剩余数据输入到所述训练好的序列标注模型进行事件检测,得到所述剩余数据中每一事件的触发词和事件类型。3.根据权利要求2所述的方法,其特征在于,所述根据抽取的每一所述触发词对应的事件类型,生成关于事件参数角色的问题,根据所述问题,利用基于MRC的模型获得所述事件参数,具体包括:利用所述标注好的训练集对基于MRC的模型进行训练,得到训练好的基于MRC的模型;其中基于MRC的模型训练过程中以事件文本和关于事件参数角色的问题作为输入,以事件参数作为输出,所述关于事件参数角色的问题通过事件触发词对应的事件类型获得;根据抽取的每一所述触发词对应的事件类型,生成关于事件参数角色的问题,将所述问题以及事件上下文文本输入所述训练好的基于MRC的模型,得到事件参数。4.根据权利要求1所述的方法,其特征在于,所述将所述初级代谢病事理知识图谱融入第三方数据库知识,获得最终的代谢病事理知识图谱,具体包括:从所述第三方数据库中获取与所述代谢病相关数据中实体m同类的实体集合S,并计算所述m与所述S中所有实体的字符特征相似度,选取相似度最高的前k个实体作为m的候选实
体;采用分层比例的抽样方法从所述候选实体中选取部分实体数据;对所述部分实体数据之间的关系进行标注,得到标注数据;所述关系包括同义关系和上下位关系;利用所述标注数据训练基于深度神经网络的语义关系分类模型,得到最优语义关系分类模型,所述语义关系分类模型训练过程中以所述标注数据为输入,以实体之间的关系为输出;将剩余实体数据输入所述最优语义关系分类模型中,得到所述剩余实体数据之间的关系;所述剩余实体数据为所述候选实体中除所述部分实体数据之外的数据;根据所述剩余实体数据之间的关系对所述剩余实体数据进行匹配,获得整理后的数据;利用所述整理后的数据扩充所述初级代谢病事理知识图谱,获得最终的代谢病事理知识图谱。5.根据权利要求1所述的方法,其特征在于,所述获取代谢病相关数据之前,所述方法还包括构建代谢病本体的初始模型:归纳代谢病领域的概念,对所述概念进行分类,获得概念类型;所述概念类型包括病因、症状、诊断和治疗;确定各所述概念类型之间的关系;定义各所述概念类型中包含数据的属性,得到代谢病本体的初始模型;所述最终的代谢病事理知识图谱是在所述代谢病本体的初始模型上进行构建的。6.一种基于代谢病的事理知识图谱获取系统,其特征在于,包括:代谢病相关数据获取模块,用于获取代谢病相关数据,所述代谢病相关数据包括结构化数据和非结构化数据;触发词和事件类型抽取模块,用于利用序列标注模型对所述非结构化数据中每一事件的触发词和事件类型进行抽取;事...

【专利技术属性】
技术研发人员:于清谌业林吾守尔
申请(专利权)人:新疆大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1