一种新型冠状病毒知识图谱的构建方法及系统技术方案

技术编号:36766565 阅读:15 留言:0更新日期:2023-03-08 21:24
本发明专利技术公开一种新型冠状病毒知识图谱的构建方法及系统,该方法包括以下步骤:基于冠状病毒传染病本体CIDO、基因本体GO、疾病本体DOID、ICD

【技术实现步骤摘要】
一种新型冠状病毒知识图谱的构建方法及系统


[0001]本专利技术涉及计算机
及生物医学领域,特别涉及一种新型冠状病毒知识图谱的构建方法及系统。

技术介绍

[0002]随着新型冠状病毒肺炎疫情的流行与扩散,导致相关的研究工作数量激增,以及科学文献以及数据库被广泛发布,研究人员对多源异构的各类数据中知识的及时跟踪变成了一个较为艰难的任务。
[0003]现有技术中,以COVID

19KnowledgeGraph为代表的新型冠状病毒知识图谱虽然提供了新型冠状病毒病理学的相关知识服务,但是由于这类知识图谱的构建较大程度上依赖信息学手段,对生物医学领域的先验知识结合不足,知识未必具有领域意义;而且这类知识图谱往往侧重于某个具体方向,缺乏对新型冠状病毒领域知识更全面、细致的梳理和组织。

技术实现思路

[0004]本专利技术提供了一种新型冠状病毒知识图谱的构建方法及系统,以解决现有技术无法从多源异构数据源中精确抽取知识以及有序整合的问题。
[0005]本专利技术提供了一种新型冠状病毒知识图谱的构建方法,包括以下步骤:
[0006]基于冠状病毒传染病本体CIDO、基因本体GO、疾病本体DOID、疾病本体ICD

11、手术操作本体ICD
‑9‑
CM、检验标准库LOINC、解剖本体Uber Ontology、药学数据库DrugBank和组学数据库NCBI,设置新型冠状病毒本体,并根据所述新型冠状病毒本体,设置新型冠状病毒知识图谱的概念层,所述概念层用于规范新型冠状病毒知识图谱的概念类型和关系类型;
[0007]从多源异构数据源中抽取所述概念层中定义的各类实体的名称和编码属性信息以及不同实体之间的关系;
[0008]将各个实体的属性信息分别建模成新型冠状病毒知识图谱中的节点,将所述不同实体之间的关系建模成对应节点之间的链接的边,所述属性信息包括名称信息、类型信息和定义信息。
[0009]本专利技术还提供了一种新型冠状病毒知识图谱的构建系统,包括:
[0010]设置模块,用于基于冠状病毒传染病本体CIDO、基因本体GO、疾病本体DOID、疾病本体ICD

11、手术操作本体ICD
‑9‑
CM、检验标准库LOINC、解剖本体Uber Ontology、药学数据库DrugBank和组学数据库NCBI,设置新型冠状病毒本体,并根据所述新型冠状病毒本体,设置新型冠状病毒知识图谱的概念层,所述概念层用于规范新型冠状病毒知识图谱的概念类型和关系类型;
[0011]抽取模块,用于从多源异构数据源中抽取所述概念层中定义的各类实体的名称和编码属性信息以及不同实体之间的关系;
[0012]构建模块,用于将各个实体的属性信息分别建模成新型冠状病毒知识图谱中的多
个节点,将所述不同实体之间的关系建模成对应节点之间的链接的边,所述属性信息包括名称信息、类型信息和定义信息。
[0013]本专利技术实施例通过定义新型冠状病毒知识图谱的概念层,从多源异构数据中精确提炼出具有生物医学意义的知识,并以人类可读的形式展现,能够扩大知识图谱的覆盖范围,提供更好的信息化知识服务,进而提高科研工作的效率。
附图说明
[0014]图1为本专利技术实施例中的一种新型冠状病毒知识图谱的构建方法流程图;
[0015]图2为本专利技术实施例中新型冠状病毒知识图谱的概念层中的顶层概念及关联网络的示意图;
[0016]图3为本专利技术实施例中的药物命名实体识别过程示意图;
[0017]图4为本专利技术实施例中的关系抽取过程示意图;
[0018]图5为本专利技术实施例中的一种新型冠状病毒知识图谱的构建系统示意图。
具体实施方式
[0019]本专利技术实施例针对知识检索和知识推理等新型冠状病毒知识服务的应用场景,面向新型冠状病毒相关科研人员,提供了对新冠病毒领域中包括疾病、病毒、解剖、生物过程、细胞成分、分子功能、药物、蛋白、基因、DNA、RNA以及干预措施在内的13类顶层概念的建模,对结构化数据库、网页公开数据中上述概念对应的实体及相关关系的抽取,以及对医学文献中药物、疾病实体及相关关系的抽取能力。
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]如图1所示,为本专利技术实施例中的一种新型冠状病毒知识图谱的构建方法流程图,包括以下步骤:
[0022]步骤101,基于冠状病毒传染病本体CIDO、基因本体GO、疾病本体DOID、疾病本体ICD

11、手术操作本体ICD
‑9‑
CM、检验标准库LOINC、解剖本体Uber Ontology、药学数据库DrugBank和组学数据库NCBI,设置新型冠状病毒本体,并根据所述新型冠状病毒本体,设置新型冠状病毒知识图谱的概念层。
[0023]其中,冠状病毒传染病本体(Coronavirus Infectious Disease Ontology,简称:CIDO)是一种新的传染病本体扩展,基因本体(Gene ontology,简称:GO)是一种系统地对物种基因及其产物属性进行注释的方法和过程,疾病本体(Disease Ontology,简称:DOID)用于描述经诊断的疾病,国际疾病伤害及死因分类标准第十一版(The International Statistical Classification of Diseases and Related Health Problems 11th Revision,简称:ICD

11)是联合国专门机构世界卫生组织制定的第十一版国际疾病分类,国际疾病分类第9版的临床修订本(International Classification of Diseases Clinical Modification of 9th,简称:ICD
‑9‑
CM)是美国国家卫生统计中心组织修订和出版的手术操作分类系统,NCBI(National Center for Biotechnology Information,美国
国家生物技术信息中心)是蛋白质组学研究中最常用的公共数据库之一,观测指标标识符逻辑命名与编码系统(Logical Observation Identifiers Names and Codes,简称:LOINC)是一部数据库和通用标准,用于标识检验医学及临床观测指标。
[0024]新型冠状病毒知识图谱的概念层用于规范新型冠状病毒知识图谱的概念类型和关系类型。概念层规范的概念类型包括以下类型中的多个:疾病、药物、基因、生物过程、分子功能、细胞成分、蛋白质、DNA、RNA、解剖、病毒和干预措施;概念层规范本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种新型冠状病毒知识图谱的构建方法,其特征在于,包括以下步骤:基于冠状病毒传染病本体CIDO、基因本体GO、疾病本体DOID、疾病本体ICD

11、手术操作本体ICD
‑9‑
CM、检验标准库LOINC、解剖本体UberOntology、药学数据库DrugBank和组学数据库NCBI,设置新型冠状病毒本体,并根据新型冠状病毒本体,设置新型冠状病毒知识图谱的概念层,所述概念层用于规范新型冠状病毒知识图谱的概念类型和关系类型;从多源异构数据源中抽取所述概念层中定义的各类实体的名称和编码属性信息以及不同实体之间的关系;将各个实体的属性信息分别建模成新型冠状病毒知识图谱中的节点,将所述不同实体之间的关系建模成对应节点之间的链接的边,所述属性信息包括名称信息、类型信息和定义信息。2.如权利要求1所述的方法,其特征在于,所述概念层规范的概念类型包括以下类型中的多个:疾病、药物、基因、生物过程、分子功能、细胞成分、蛋白质、DNA、RNA、解剖、病毒和干预措施;所述概念层规范的关系类型包括以下类型中的多个:载体、局限于、类似于、关联、上调、下调、子类、体现、参与、相互作用、调节、共变、触发条件和可治疗。3.如权利要求2所述的方法,其特征在于,所述病毒与所述疾病之间的关系类型为触发条件,不同的疾病之间的关系类型为子类,所述药物与所述疾病之间的关系类型为可治疗。4.如权利要求1所述的方法,其特征在于,所述从多源异构数据源中抽取所述概念层中定义的多个实体的名称信息以及不同实体之间的关系,包括:对多源异构数据源中的数据进行断句和分词,得到预处理后的数据;通过命名实体识别从所述预处理后的数据中抽取所述概念层中定义的多个实体的名称信息,所述名称信息包含在所述数据的实体语句中;基于深度神经网络的关系抽取方法,从所述实体语句中识别所述概念层中定义的不同实体之间的关系。5.如权利要求4所述的方法,其特征在于,所述基于深度神经网络的关系抽取方法,从所述实体语句中识别所述概念层中定义的不同实体之间的关系,包括:以单词为基本单位,使用词向量和位置向量表征所述实体语句,得到所述实体语句对应的向量拼接结果;将所述向量拼接结果输入深度神经网络,通过所述深度神经网络进行关系分类判别,所述深度神经网络包括注意力模型、全连接神经网络层和卷积神经网络模型;针对所述深度神经网络判别出具有关系的实体语句,进行句法结构分析,并依据实体间的依存关系抽取关系词,得到因果关系元组,所述因果关系元组包括不同实体之间的...

【专利技术属性】
技术研发人员:宋伟郑翔文刘圣王鹏飞马斌焦亚鑫
申请(专利权)人:北京迈迪培尔信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1