本发明专利技术公开了一种疾病知识图谱构建方法及其系统、设备、存储介质,属于疾病知识图谱技术领域。其中,疾病知识图谱构建方法,包括以下步骤:A、信息抽取:从多源数据库中提取或学习实体、属性以及实体间的相互关系,形成本体化的知识表达;B、知识融合:对知识进行整合,以消除矛盾和歧义;C、知识加工:对于经过融合的知识,经过质量评估之后,加入到知识库中。还包括疾病知识图谱平台系统、设备和存储介质。针对现有技术中存在的问题,它从多个数据源中抽取实体、属性及其之间的关系,并进行融合、加工,可以快速构建规范化和标准化的疾病知识图谱。
【技术实现步骤摘要】
一种疾病知识图谱构建方法和平台系统、设备、存储介质
本专利技术涉及疾病知识图谱
,尤其涉及一种疾病知识图谱构建方法及其系统、设备、存储介质。
技术介绍
知识图谱的前身是语义网,它吸收了语义网、本体在知识组织和表达方面的理念,使得知识更易于在计算机之间和计算机与人之间交换、流通和加工。具体来说,一个知识图谱由模式图、数据图及两者之间的关系组成:模式图对人类知识领域的概念层面进行描述,强调概念及概念关系的形式化表达,模式图中节点是概念实体,边是概念间的语义关系,如part-of;数据图对物理世界层面进行描述,强调一系列客观事实。数据图中的节点有两类,一是模式图中的概念实体,二是描述性字符串,数据图中的边是具体事实的语义描述;模式图和数据图之间的关系指数据图的实例与模式图的概念之间的对应,或者说模式图是数据图的模具。著名的通用知识图谱中有,谷歌“KnowledgeGraph”、搜狗“知立方”、YAGO、DBpedia等,它们具有规模大、领域宽,包含大量常识等特点。目前,医学是知识图谱应用最广的垂直领域之一,如上海曙光医院构建的中医药知识图谱、本体医疗知识库SNOMED-CT,IBMWatsonHealth等应用近两年也开始进入人们视线。知识图谱是智能大数据的前沿研究问题,它以独有的技术优势顺应了信息化时代的发展,比如渐增式的数据模式设计;良好的数据集成;现有RDF、OWL等标准支持;语义搜索和知识推理能力等。在医学领域,随着区域卫生信息化及医疗信息系统的发展,积累了海量的医学数据。如何从这些数据中提炼信息,并加以管理、共享及应用,是推进医学智能化的关键问题,是医学知识检索、临床诊断、医疗质量管理、电子病历及健康档案智能化处理的基础。互联网和电子病例带来了医疗数据的爆炸性增长,然而这些数据在语种、主题、存储等方面都存在较大差异,尤其在医学领域的疾病知识图谱需要具备专业性、准确性和可应用性等条件。现有的研究成果多集中在特定数据集上,普遍存在算法准确率低、限制条件多、扩展性差等问题,同时知识复用、实体消歧等问题也有待进一步研究。由于医学自身的专业性,现有通用领域的知识图谱构建技术应用到医学领域构建成本高,需要花费大量的时间和人力投入,并且还得不到能准确刻画疾病的知识图谱。疾病知识图谱的构建相对于通用领域的知识图谱具有构建难度大、效率低,难以应用到实际场景等特点,急需适用于医学领域的知识图谱构建框架。中国专利技术专利申请,公开号:CN106776711A;公开日:2017年5月31日,公开了一种基于深度学习的中文医学知识图谱构建方法。包括:从数据源获取医疗领域相关数据;使用分词工具对非结构化数据进行分词,使用RNN完成序列标注任务以识别医疗相关的实体,实现知识单元的抽取;对实体进行特征向量的构建,使用RNN进行序列标注并完成知识单元间关系的识别;进行实体对齐后,利用提取的实体以及实体之间的关系构建知识图谱。本专利技术巧妙地将循环神经网络用于知识单元抽取和知识单元间关系识别,能很好地完成对非结构化数据的处理。该专利技术提出适用于医学领域的特征来进行网络的训练任务,相对于通用特征而言更能够代表医学实体,使得抽取出的知识单元和知识单元间的关系更加准确、全面。但仍存在信息学习过程中的知识冲突问题。中国专利技术专利申请,公开号:CN108492887A,公开日:2018.09.04;公开了一种医疗知识图谱构建方法及装置,能够充分利用数据驱动和知识驱动来构建知识图谱,解决临床上相同类型的医疗实体间联系不紧密的技术问题。该方法包括:通过自然语言处理技术分词从医疗资料中抽取目标实体;根据Apriori算法确定指定类实体的频繁项集,得到所述指定类的实体组;将所述目标实体以及所述实体组作为知识图谱中的节点,计算每一节点之间的强度指标,得到医疗知识图谱;将构建的所述医疗知识图谱存储在Neo4j图数据库中。该专利中实体及属性关系抽取方法中,数据库的来源过于单一,在知识图谱的构建过程中,不可避免地会出现一些冲突,但该专利没有给出实体、概念或属性的冲突解决的方法,会限制其推广应用。中国专利技术专利申请,公开号:CN107145744A;公开日:2017.09.08,公开一种医学知识图谱的构建方法、装置及辅助诊断方法,医学知识图谱的构建方法包括:根据医学数据库构建用户词典;处理电子病历数据并进行命名实体识别;将识别的各个实体建立关联关系;根据该关联关系,建立医学知识图谱。基于医学知识图谱的辅助诊断方法包括:获取患者的主诉数据和检查数据并进行处理,得到患者的症状实体和体征实体;在医学知识图谱中查找与症状实体和体征实体相关联的疾病实体,分别计算每个疾病实体在其对应的症状实体与体征实体构成的集合下的后验概率;输出后验概率最大的疾病实体及其关联节点对应的数据。该专利技术为临床医学提供智能化的辅助诊断,从而减轻医护人员工作负担,缓解医疗压力,降低医疗事故的发生。该专利的数据源来源过于单一,且该专利重点在于使用已经构建完成的医学知识图谱为患者进行诊断,存在信息学习过程中的知识冲突问题。综上,现有技术中急需构建一种全面的、准确的、规范化和标准化的疾病知识图谱。
技术实现思路
1.专利技术要解决的技术问题为了克服上述技术问题,本专利技术提供了一种疾病知识图谱构建方法及其系统、设备、存储介质。它从多个数据源中抽取实体、属性及其之间的关系,并进行融合、加工,可以快速构建规范化和标准化的疾病知识图谱。2.技术方案为解决上述问题,本专利技术提供的技术方案为:第一、本专利技术提出了一种疾病知识图谱构建方法,包括以下步骤:A、信息抽取:从多源数据库中提取或学习实体、属性以及实体间的相互关系,形成本体化的知识表达;B、知识融合:对知识进行整合,以消除矛盾和歧义;C、知识加工:对于经过融合的知识,经过质量评估之后,加入到知识库中。进一步地,步骤C之后还包括:D、知识图谱的更新。第二、本专利技术提供了一种疾病知识图谱平台系统,根据以上所述的一种疾病知识图谱构建方法,包括信息抽取模块,用于从多源数据库中提取或学习实体、属性以及实体间的相互关系,形成本体化的知识表达;知识融合模块:用于对知识进行整合,以消除矛盾和歧义;知识加工模块:用于对于经过融合的知识,经过质量评估之后,加入到知识库中。第三、本专利技术提供了一种设备,所述设备包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如以上所述的方法。第四、本专利技术提供了一种存储有计算机程序的存储介质,该程序被处理器执行时实现如以上所述的方法。3.有益效果采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:(1)本专利技术通过整合医学本体技术,基于本体对各类医学实体的自动抽提、并辅以友好的人机交互,能极大的提高疾病知识图谱的构建效率和质量;(2)本专利技术从多个数据源中抽取实体、属性及其之间的关系,并进行融合、加工,可以快速构建规范化和标准化的疾病知识图谱。附图说明图1为本专利技术实施例的流程图之一;图2为本专利技术实施例的流程图之二;图3为支持向量机示意图之一;图4为支持向量机示意图之二;图5为中文三大百科属性图;图6为本专利技术实施例提供的一种设备的结构示意图;图7为本专利技术实施例的流程图之三;图8为本本文档来自技高网...
【技术保护点】
1.一种疾病知识图谱构建方法,其特征在于,包括以下步骤:A、信息抽取:从多源数据库中提取或学习实体、属性以及实体间的相互关系,形成本体化的知识表达;B、知识融合:对知识进行整合,以消除矛盾和歧义;C、知识加工:对于经过融合的知识,经过质量评估之后,加入到知识库中。
【技术特征摘要】
1.一种疾病知识图谱构建方法,其特征在于,包括以下步骤:A、信息抽取:从多源数据库中提取或学习实体、属性以及实体间的相互关系,形成本体化的知识表达;B、知识融合:对知识进行整合,以消除矛盾和歧义;C、知识加工:对于经过融合的知识,经过质量评估之后,加入到知识库中。2.根据权利要求1所述的一种疾病知识图谱构建方法,其特征在于,步骤C之后还包括:D、知识图谱的更新。3.根据1所述的一种疾病知识图谱构建方法,其特征在于,步骤A中所述的多源数据库为开放链接数据库和百科,实体的提取步骤为:A101、实体学习;A102、实体对齐学习;A103、上下位关系学习和整合;进一步地,步骤A中,属性的提取步骤为:A201、从开放链接数据集中获取实体的属性;A202、从在线百科中学习实体的属性,并对实体属性进行往上规约从而生成概念的属性。4.根据1所述的一种疾病知识图谱构建方法,其特征在于,步骤A中,还包括规则和公理的学习,所述的规则和公理的学习由用户针对领域和应用场景添加相应的规则和公理;优选地,步骤A还包括学习过程中的冲突解决,所述的冲突解决包括冲突检测和冲突解决方法。5.根据权利要求3所述的一种疾病知识图谱构建方法,其特征在于,A102、实体对齐的学习方法为:先把从百科中学习到的实体中描述同一目标的内容进行合并,再把经过合并后的结果实体集与从开放链接数据中抽取的实体进行合并;优选地,步骤A103上下位关系学习和整合包括:从开放链接数据集中抽取上下位关系、从百科中抽取上下位关系、基于CRF的开放上下位关系学习和分类树整合;优选地,步骤D中所述知识图谱的更新包括数据模式层的更新和数据层的更新。6.根据权利要求7所述的一种疾病知识图谱构建...
【专利技术属性】
技术研发人员:蒋小云,
申请(专利权)人:长沙瀚云信息科技有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。