一种知识图谱的逻辑增强方法及装置制造方法及图纸

技术编号:18785942 阅读:28 留言:0更新日期:2018-08-29 07:50
本发明专利技术涉及大数据处理,尤其涉及一种知识图谱的逻辑增强方法,包括,获取预定格式的医学电子文本,从医学电子文本中提取特征实体,特征实体包括疾病实体、症状实体和高危因素实体;将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布,对实体节点之间的关系强度进行量化。最终构建的面向医学领域的多属性贝叶斯网络,能够自动调整知识图谱当中关系强度的概率表示,有效解决因关系强度缺失导致的推理有效性偏低问题,增强现有图谱的逻辑推理能力。

A logical enhancement method and device for knowledge map

The present invention relates to large data processing, in particular to a logic enhancement method for knowledge atlas, including acquiring a predetermined medical electronic text format, extracting feature entities from medical electronic text, including disease entities, symptom entities and high-risk factor entities, and taking disease entities and symptom entities as node structures. A basic Bayesian network model is constructed by adding high-risk entities as nodes in the basic Bayesian network model. A multi-attribute Bayesian network model is constructed. The multi-attribute Bayesian network model includes the topological relationship among disease entities, symptom entities and entities with high-risk factors, and the probability between entities. The strength of the relationship between entities is quantified. Finally, a multi-attribute Bayesian network for medical domain can automatically adjust the probability representation of relationship strength in knowledge maps, effectively solve the problem of low reasoning validity caused by the lack of relationship strength, and enhance the logical reasoning ability of existing maps.

【技术实现步骤摘要】
一种知识图谱的逻辑增强方法及装置
本专利技术涉及大数据处理,尤其涉及一种知识图谱的逻辑增强方法。
技术介绍
随着知识图谱、web语义网络等技术在医学知识的表示与融合、辅助诊断中的广泛应用,智慧医疗吸引着越来越多学业界和产业界的关注。其中,对于计算机辅助临床诊断,常有背景知识不足、信息描述模糊、含干扰因素等情况,加之人类对医学知识的局限性,因此部分医学诊治推理可视为不确定性推理。基于知识图谱的医学推理模型是一种典型的结构推理模型。知识图谱利用其图结构的特性,可直观表示医学实体以及实体间的关系,形成带语义的网络化知识库,增强医学知识的连通性,并支持领域知识的权威检索与浏览。然而,由于传统的知识图谱缺少实体间关系的概率权重,其往往仅能基于子图中路径的连通性、路径跳数、可达路径总数目以及子图匹配程度等进行粗粒度逻辑推理,而缺乏进行更细粒度的概率推理能力。在医学辅助诊断中,由于每种症状特征或其他特征对是否患病产生的影响力不同,将特征一视同仁的推理方法将导致判断结果出现误差。
技术实现思路
为了解决现有技术中,在知识图谱建立过程中将特征一视同仁的推理方法容易导致判断结果出现误差的技术问题,本专利技术提供一种知识图谱的逻辑增强方法,具体包括:获取预定格式的医学电子文本;从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。其中,构建基本的贝叶斯网络模型包括:基于医学电子文本对疾病实体和症状实体进行统计,计算各实体节点间的OR值;用OR值表示疾病实体-症状实体间和症状实体-症状实体间的互信息强度,设置合适的互信息强度阈值,去除互信息强度小于阈值的实体节点间关系边;根据实体节点之间的互信息强度计算各实体节点的全局影响力,根据全局影响力建立节点间的顺序,根据节点间顺序依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点的先验概率以及节点间的条件概率分布;其中,构建多属性贝叶斯网络模型包括:在基本的贝叶斯网络模型的拓扑结构上增加高危因素实体作为节点;补全与高危因素实体相关的疾病实体和症状实体;建立高危因素实体-高危因素实体、疾病实体-高危因素实体以及症状实体-高危因素实体之间的拓扑关系;计算高危因素实体-高危因素实体、疾病实体-高危因素实体以及症状实体-高危因素实体之间的概率分布。其中,基本的贝叶斯网络模型还包括K2贪心算法,当新增节点时,为新增节点添加父节点,实现基本贝叶斯网络拓扑关系的自动学习。其中,利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化,包括:利用所构建贝叶斯网络中,各节点的先验概率和节点间的条件概率,为知识图谱中的关系边添加概率权重,量化知识图谱中实体节点之间的关系强度。其中,从医学电子文本中提取特征实体还包括:以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体,利用别名库对实质相同的特征实体进行对齐处理。其中,高危因素实体包括性别、年龄、家族史、民族、居住地、职业、吸烟频度、肥胖程度和婚姻状况中的至少一个,特征实体还包括否定症状实体,所构建的多属性贝叶斯网络模型中还将否定症状实体作为节点。一种知识图谱的逻辑增强方法,包括:获取预定类型和格式的电子文本;从电子文本中提取作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性原因的第三类实体;将第一类实体和第二类实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括第一类实体和第二类实体节点之间的拓扑关系,以及实体节点之间的概率分布;在基本的贝叶斯网络模型中增加第三类实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括第一类实体、第二类实体和第三类实体节点之间的拓扑关系,以及实体节点之间的概率分布;利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。一种知识图谱的逻辑增强装置,包括:获取单元,用于获取预定格式的医学电子文本;提取单元,用于从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;第一构建单元,用于将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;第二构建单元,用于在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;量化单元,用于利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。其中,第一构建单元用于基于医学电子文本对疾病实体和症状实体进行统计,计算各实体节点间的OR值;用OR值表示疾病实体-症状实体间和症状实体-症状实体间的互信息强度,设置合适的互信息强度阈值,去除互信息强度小于阈值的实体节点间关系边;根据实体节点之间的互信息强度计算各实体节点的全局影响力,根据全局影响力建立节点间的顺序,利用K2贪心算法根据节点间顺序依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点间的概率分布。其中,量化单元用于利用构建的多属性贝叶斯网络中,各节点的先验概率以及节点间的条件概率分布,通过节点间的先验概率和条件概率量化知识图谱中实体节点之间的关系强度。其中,提取单元还用于以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体,利用别名库对实质相同的特征实体进行对齐处理。其中,特征实体还包括否定症状实体,所构建的多属性贝叶斯网络模型中还将否定症状实体作为节点。一种计算机可读存储介质,包括多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括节点和节点之间的关系,所述节点包括作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性原因的第三类实体,所述节点之间的关系包括第一类实体、第二类实体和第三类实体间的概率分布和拓扑结构,所述概率分布采用量化的方式。本专利技术和现有技术相比具有以下技术效果:通过构建基于医学文本的多属性贝叶斯网络,并将其应用于医学知识图谱的关系强度量化中,能够对现有图谱进行逻辑增强,提高其推理有效性。通过挖掘多源医学文本中蕴含的医学知识,并自动学习贝叶斯网络的拓扑结构,能够表示疾病、症状、高危因素之间丰富的关联关系;通过计算贝叶斯网络中各节点间的概率分布,能够客观地量化疾病、症状、高危因素实体间的依赖关系强度;最终构建的面向医学领域的多属性贝叶斯网络,能够自动调整图谱当中关系强度的概率表示,避免了人工标注缺乏客观依据和标准的问题,具有一定本文档来自技高网...

【技术保护点】
1.一种知识图谱的逻辑增强方法,其特征在于包括:获取预定格式的医学电子文本;从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。

【技术特征摘要】
1.一种知识图谱的逻辑增强方法,其特征在于包括:获取预定格式的医学电子文本;从医学电子文本中提取特征实体,特征实体包括作为判断结果的疾病实体、作为显性关联因素的症状实体和作为隐性关联因素的高危因素实体;将疾病实体和症状实体作为节点构建基本的贝叶斯网络模型,所述基本的贝叶斯网络模型包括疾病实体和症状实体节点之间的拓扑关系,以及实体节点之间的概率分布;在基本的贝叶斯网络模型中增加高危因素实体作为节点,构建多属性贝叶斯网络模型,所述多属性贝叶斯网络模型包括疾病实体、症状实体和高危因素实体节点之间的拓扑关系,以及实体节点之间的概率分布;利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化。2.如权利要求1所述的方法,其特征在于,构建基本的贝叶斯网络模型包括:基于医学电子文本对疾病实体和症状实体进行统计,计算各实体节点间的OR值;用OR值表示疾病实体-症状实体间和症状实体-症状实体间的互信息强度,设置合适的互信息强度阈值,去除互信息强度小于阈值的实体节点间关系边;根据实体节点之间的互信息强度计算各实体节点的全局影响力,根据全局影响力建立节点间的顺序,根据节点间顺序依次增加新的节点,得到基本的贝叶斯网络模型的拓扑关系;通过医学电子文本统计结果和贝叶斯估计的方法,计算各节点的先验概率以及节点间的条件概率分布;构建多属性贝叶斯网络模型包括:在基本的贝叶斯网络模型的拓扑结构上增加高危因素实体作为节点;补全与高危因素实体相关的疾病实体和症状实体;建立高危因素实体-高危因素实体、疾病实体-高危因素实体以及症状实体-高危因素实体之间的拓扑关系;计算高危因素实体-高危因素实体、疾病实体-高危因素实体以及症状实体-高危因素实体之间的概率分布。3.如权利要求2所述的方法,其特征在于,所述基本的贝叶斯网络模型还包括K2贪心算法,当新增节点时,为新增节点添加父节点,实现基本贝叶斯网络拓扑关系的自动学习。4.如权利要求1所述的方法,其特征在于,利用构建的多属性贝叶斯网络,对知识图谱中各节点间的关系强度进行量化,包括:利用所构建多属性贝叶斯网络中,节点间的先验概率和条件概率,为知识图谱中的关系边添加权重,量化图谱中实体节点之间的关系强度。5.如权利要求1所述的方法,其特征在于,从医学电子文本中提取特征实体还包括:以模板学习为基础,采用与全科知识图谱进行匹配的方法,从医学电子文本中抽取特征实体;并利用别名库对实质相同的特征实体进行对齐处理。6.如权利要求1所述的方法,其特征在于,所述高危因素实体包括性别、年龄、家族史、民族、居住地、职业、吸烟频度、肥胖程度和婚姻状况中的至少一个,特征实体还包括否定症状实体,所构建的多属性贝叶斯网络模型中还将否定症状实体作为节点。7.一种知识图谱的逻辑增强方法,其特征在于包括:获取预定类型和格式的电子文本;从电子文本中提取作为判断结果的第一类实体、作为显性原因的第二类实体和作为隐性...

【专利技术属性】
技术研发人员:雷凯沈颖张丽珠齐竹云
申请(专利权)人:北京大学深圳研究生院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1