一种药学知识图谱构建方法和装置制造方法及图纸

技术编号:33048729 阅读:13 留言:0更新日期:2022-04-15 09:33
本申请公开了一种药学知识图谱构建方法和装置,该方法包括以下步骤:获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;根据药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;将多个药学数据源中的药学数据导入与关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储;根据关系数据与图数据之间的映射关系,将关系数据库中的关系数据转换为图数据,并将图数据导入与图数据模型对应的图数据库,生成药学数据的知识网络。学数据的知识网络。学数据的知识网络。

【技术实现步骤摘要】
一种药学知识图谱构建方法和装置


[0001]本申请属于计算机
,具体涉及一种药学知识图谱构建方法和装置。

技术介绍

[0002]随着人们健康意识的提升,互联网技术的发展,医药数据大量涌现,突发公共卫生事件给药物研发和数据挖掘带来了巨大挑战。传统的药学相关研究和智能分析往往专注于单个药物,但随着药学知识体系的不断深入和扩展,知识间的关系已经成为数据深入分析挖掘的基础工作之一。
[0003]在大数据背景下,知识图谱(Knowledge Graph)成为资源管理和知识应用的重要技术,它用于整合、挖掘和展示专业知识及其内在关系,为智能化信息应用、搜索引擎和语义处理等技术奠定了基础。知识图谱旨在描述客观世界中的实体、概念、事件、属性以及这些因素之间的联系。知识图谱本质上是语义网络(Semantic Network)的知识库,也可以简单地理解为多关系图(Multi

relational Graph)。知识图谱涉及知识表示、知识提取、知识融合和知识推理等关键技术,知识图谱的构建包括本体构建、自然语言处理、网络爬虫、属性抽取、实体对齐、知识存储和知识可视化等内容。知识图谱在医学领域具有广泛应用前景,主要用于处理医疗大数据中知识分散、异构、冗余和碎片化的问题。目前医学知识图谱主要应用于疾病分析和预测、药物的研究、医疗智能问答,医学知识搜索引擎等领域。
[0004]目前,与药学知识图谱类似的应用多数侧重于生物医学一个具体领域,如药物基础研究、临床治疗、疾病诊断、医学文献等,这些领域和药学信息部分相交,但不能完全涵盖药学领域。而Drugbank、PubChem、FDA等机构提供了较全面的药物综合信息,对药物基础数据(如化合物理化性质、药理药效等)的表示比较一致,但由于数据来源复杂,缺乏完整的药学数据模型,因此很难形成系统化、结构化、标准化的药学数据,无法实现数据融合,在数据的集成性、透明性、一致性、完整性、可溯源性方面都存在一定的缺陷。
[0005]申请内容
[0006]本申请实施例的目的是提供一种药学知识图谱构建方法和装置,以解决现有技术无法实现药学数据融合的缺陷。
[0007]为了解决上述技术问题,本申请是这样实现的:
[0008]第一方面,提供了一种药学知识图谱构建方法,包括以下步骤:
[0009]获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;
[0010]根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;
[0011]将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联;
[0012]根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。
[0013]第二方面,提供了一种药学知识图谱构建装置,包括:
[0014]构建模块,用于获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;
[0015]生成模块,用于根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;
[0016]导入模块,用于将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联;
[0017]处理模块,用于根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。
[0018]本申请实施例通过针对多来源、异构的药学及相关数据源,借助知识图谱技术和本体理论对药学数据进行模型化、标准化、网络化,便于理清知识结构、快速获得相关知识及其逻辑关系,形成系统化、结构化、标准化的药学数据,实现数据融合,进而高效准确地进行数据关联分析或形成药学知识网络,有助于处理医疗大数据中分散、异构、冗余和碎片化问题,有助于药学数据的共享和交互。
附图说明
[0019]图1是本申请实施例提供的一种药学知识图谱构建方法流程图;
[0020]图2是本申请实施例提供的药学知识图谱构建方法的一种具体实现图;
[0021]图3是本申请实施例提供的一种药学知识图谱构建装置的结构示意图。
具体实施方式
[0022]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0023]本体(Ontology)是一种针对特定领域共享概念提供的明确、规范、结构化的描述,旨在帮助知识和信息的描述及组织,具有词义消歧、同义词与近义词控制、实体类型和关系类型展示等功能。本体作为一种能在语义和知识层次上描述概念的建模工具,已经在知识工程、人工智能、语义网等相关领域进行了深人研究,广泛应用于解决通信、异构环境互操作和系统工程中的知识共享、知识获取和系统集成等问题。
[0024]生物医学本体描述的概念指生物医学研究的对象,包括基因、蛋白质、细胞、组织、器官、物种以及化合物与药物、生物学通路、疾病与症状等;生物医学本体描述的关系主要指概念间逻辑或生物学关系,例如简单的关联关系、从属关系、蛋白质间的相互作用关系、
疾病和症状的包含关系、药物和基因的靶向关系等。生物医学本体主要应用于生物医学数据分析、检索和数据集成。
[0025]药学本体(Ontology)帮助药学知识和信息进行描述和组织,构成药学专业术语与术语间的关系的一个药学知识网络,结合计算机技术能使药学相关数据在网络中共享和交换。通过药学本体中的标准化术语,不同来源的数据集中的元数据可以进行术语的统一,进而消除异质性,实现药学数据的整合。同时,通过本体中标准化术语之间的关系,数据集中的元数据之间还可以构建起语义关联,实现元数据内容的索引,从而对原始数据进行更深层次的整合、注释、分析与挖掘等。
[0026]知识库(Knowledge Base)是知识工程中结构化、可操作、有组织的知识集群,是针对某些领域问题求解的需要,采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
[0027]本体为知识库的建立提供一个基本的结构,它用一套概念和术语来描述这一领域,并且获取该领域的本质的概念结构,本体构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种药学知识图谱构建方法,其特征在于,包括以下步骤:获取多个药学数据源中的药学数据,以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型;根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系;将所述多个药学数据源中的药学数据导入与所述关系数据模型对应的关系数据库,将每个药学数据源中的药学数据作为独立的数据库存储,不同的药学数据库之间没有关联;根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络。2.根据权利要求1所述的方法,其特征在于,所述以药学领域中的概念和术语为基础,参考权威数据源中的数据表示方法和层级关系,结合生物医学本体库,并根据所述多个药学数据源中的药学数据格式和药学数据内容,构建药学本体模型,具体包括:根据所述多个药学数据源中的药学数据格式和药学数据内容,结合生物医学本体和医学词表,确定药学本体中的概念、属性、层次、范围、类型和定义,明确药学概念之间的关系,复用部分现有本体并建立药学本体模型,所述药学本体模型包括概念/类、关系、函数、公理和实例,制定每类概念的数据层次、范围、类型和定义,实现药学概念的结构化、标准化和规范化的描述,并构建药学术语集。3.根据权利要求1所述的方法,其特征在于,所述药学本体模型中的概念类型包括:药物、疾病、症状、非活性成分、药品、临床试验、不良反应、仪器设备、生产、试验方法、机构、器官组织、文献、专利、靶点、治疗和生物分子;所述药学本体模型中的药学概念之间的关系包括:药物作用关系(is_drug_action_on)、相互作用关系(is_interaction_with)、化学反应产物关系(is_chemical_reaction_poduct_from)、导致关系(causes)、成分关系(is_ingredient_of)、参比/标准制剂关系(is_reference_listed_drug_to)、对象关系(is_object_of)、鉴定关系(is_identified_by)、有关关系(is_relation_with)、引用关系(is_citatioin_from)、来源于(is_source_from)、是(is_a)、部分关系(is_part_of)、相同关系(is_same_as)、产物关系(is_product_of)和有关(is_relation_with);此外,每个概念还有hasName、hasDescription、hasEntityClass、hasSynonyms、hasSource和hasID基本属性。4.根据权利要求1所述的方法,其特征在于,所述根据所述药学本体模型,构建关系数据模型和图数据模型,生成关系数据与图数据之间的映射关系,具体包括:根据关系数据库规范,以所述多个药学数据源中的药学数据格式、药学数据内容和药学本体及概念之间关系为参考,结合本体模型,进行关系数据的数据定义、数据操作和数据约束,构建关系数据模型;从图数据设计出发,结合所述药学本体模型,确定每个药学数据源中的实体,及每个药学数据源直接给出的实体间的关系;以关系数据模型为基础,建立三元组形式的数据标准,确定每个实体的定义和描述、实体间的关系类型和实体的属性,并生成图数据库以及关系数据与图数据之间的映射关系,
所述三元组形式的数据标准为第一实体

第二实体

关系的数据标准,或者实体

属性

属性值的数据标准。5.根据权利要求1所述的方法,其特征在于,所述根据关系数据与图数据之间的映射关系,将所述关系数据库中的关系数据转换为图数据,并将所述图数据导入与所述图数据模型对应的图数据库,生成药学数据的知识网络,具体包括:根据关系数据与图数据之间的映射关系,从所述关系数据库中抽取关系数据,将所述关系数据转换为第一实体

第二实体

关系

属性...

【专利技术属性】
技术研发人员:王鹏飞毛逸清宋伟蒋文婷马斌刘圣
申请(专利权)人:北京迈迪培尔信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1