一种药学数据集成方法及系统技术方案

技术编号:32743491 阅读:12 留言:0更新日期:2022-03-20 08:50
本申请公开了一种药学数据集成方法及系统,该方法包括以下步骤:针对多个药学数据源,分别建立各个药学数据源的数据模型和数据采集器;根据各个药学数据源的数据模型和数据采集器,建立各个药学数据源的采集任务;其中,不同的药学数据源的采集任务相互独立;基于各个药学数据源的采集任务,生成各个药学数据源的采集数据,并将所述采集数据同步到采集数据库;对所述采集数据进行数据分类和预处理,将得到的缓存数据导入到数据缓存库;对所述缓存数据进行标准化,将得到的标准化数据导入到药学关系数据库;将所述标准化数据转换为标准化图格式数据,将所述标准化图格式数据导入到药学图数据库,并基于所述药学图数据库构建药学知识库。知识库。知识库。

【技术实现步骤摘要】
一种药学数据集成方法及系统


[0001]本申请属于计算机
,具体涉及一种药学数据集成方法及系统。

技术介绍

[0002]随着生命科学领域的数据飞速增长,同时新的技术突破进一步促进了药物设计、药物筛选、临床试验等药物研发和产生,与人类健康密切相关的生命医学领域的数据已经达到了惊人的地步。药学是由多个学科相互交叉、互相渗透构成的一门庞大的科学体系,与数理化、生命科学、药物专业、临床医学、文献学等学科紧密相连。研究人员、临床医生和医疗机构如何有效地获取、分类、存储和分析药学及相关信息,发现蕴藏其中的有用知识,对揭示人体奥秘、提高人类健康水平有着十分重要的科学价值和现实意义。
[0003]来自生物、医药、医械、试验与健康管理等各方面的数据共同构成了生物

医学

药学大数据。药学数据有如下特点:(1)原始数据量大、离散性强、异构数据多。(2)难以用数学方式表达其结构及特征,且难以标准化,例如:药物的药理药效描述、药物溶出度曲线、医学文献等非结构化数据。(3)数据包含大量冗余的、无意义的或不一致的属性。(4)数据获取困难,常有噪声干扰,且数据更新频繁。由于药学数据具有以上特点,所以多来源的药学数据采集、整理、集成、共享和管理都是难点。
[0004]目前医药相关的数据集成系统有一些已经开展的工作,主要在以下几方面:(1)疾病信息监控系统,例如:全球新冠肺炎疫情地图(https://ncov.dxy.cn/ncovh5/view/pneumonia)是新型冠状病毒(SARS

CoV

2)新闻监控系统,通过采集和汇总全球官方网站的疾病资讯,实时报告确诊病例、可疑感染和死亡人数的情况。(2)医疗大数据管理系统,例如:基于网络爬虫技术的健康医疗大数据采集整理系统(卞伟玮等,山东大学学报,2017),通过爬虫采集并集成公共卫生系统的医疗数据,建立统一的数据管理系统。(3)医学文献分析系统,例如:爬取胃癌文献,整理并分析中国胃癌发病区域(Spatiotemporal Hotspots of Study Areas in Research of Gastric Cancer in China Based on Web

Crawled Literature.Int J Environ Res Public Health,2021 Apr 10;18(8):3997.)。(4)百科知识系统,例如:百度百科等知识系统通过采集大量网络数据,建立分类数据词条系统。
[0005]针对不同的应用范围和数据需求,药学相关机构各自构建了相对独立的信息系统,由于形成时期、目的、数据来源等多种原因,各系统间存在着逻辑结构、物理结构的差异,导致数据的不一致性、不完整性,造成多数系统之间难以进行有效的数据共享和交互,从而演化为信息孤岛。
[0006]目前,药学数据集成系统中存在的技术问题主要是:
[0007](1)多来源的数据表示和标准化问题。多来源的药学数据存在分布零散、结构各异、冗余度高、数据表示不一致等情况;此外网页数据是一种非结构化的数据形式,爬虫等工具只能进行网页数据爬取,虽然文本数据挖掘、自然语言理解等技术为采集提供了相应的解决方法,但是计算机程序不能够完全识别药学的专业数据;而且网络数据分散存储在不同服务器上,每个数据源提供的数据内容、形式很可能不完备,不同来源的数据表示、规
范、命名规则、数据质量等都有差异,如何把数据有效归类、统一存储是个难题。
[0008](2)多来源数据难以采集和更新。药学数据范围比较广、涉及的领域多、专业性强,包括药物、药品、辅料、疾病、靶点、代谢、临床试验、注册审批、专利、文献、医疗器械、基因蛋白、新闻资讯等。多数据源采集时,每个数据源需要独立的数据采集模型,模型的建立往往不能自动完成,因为数据展现形式差别较大,很多重要数据项难以自动识别,且每个网站需采集的数据内容不同,需要领域专家进行人工筛选,再结合自动网页分析,才能形成特定数据源的数据采集模型。虽然多数药学数据不需要实时更新,但是周更新、月更新是常态,现有系统中除了专业机构内部数据能通过统一接口进行数据更新外,很多药学平台的数据更新慢或不更新,因此数据过于陈旧。此外,采集系统对系统设计、开发和数据处理要求比较高,作业调度系统的设计和强壮性直接影响多采集任务的工作效率;采集任务常常会工作数天甚至数周,还可能由于网络或数据访问限制等原因中断,需要考虑断点续传、异常处理和数据一致问题;采集后的数据清洗、校验、入库流程需要建立专门的预处理流程,也需要进行一定规模的数据计算,例如:数据查重和合并。因此这种全面、大量专业数据采集的系统对系统设计、开发维护、资源调度、软硬件环境、人员水平等方面都有较高要求。
[0009](3)多来源数据集成问题。一,数据模式集成问题。药学数据在不同数据源中的表现形式不同,存在着明显的语法异构,如关系数据库、XML文档等结构化数据及TXT文本、图片等非结构化数据。其中,关系型数据库是药学数据源中应用最广泛的一种数据库,这些数据库普遍存在着结构异构,没有统一的数据模式,因此数据难以有效利用。例如不同的药学数据源中,存在相似的数据采用不同的数据模式表示,或不同的数据模式表示相同的数据等情况。如何实现中粒度的数据集成,解决结构异构问题,是目前的一个研究难点。二,语义集成问题。为了实现药学数据的共享,还要解决的关键问题是语义上的异构问题,将孤立的数据集成起来。语义异构指在一些领域内对词汇的意义表达的不同导致的交流的障碍。医学领域的术语异构问题比较严重,一个药物或疾病常常有数十个同义词或近义词。例如:NCBI、EBI等科研机构提供基础生物医学数据,其内部数据是结构化和标准化的,国际机构之间通过定义统一数据交换格式定期进行数据交换,同时为使用者提供了主要数据项的ID对应表,这实际上是一个数据交换系统。又如:临床试验、注册审批等数据一般来自各国政府机构,如WHO、欧盟临床官网、美国临床试验官网,官方数据库对提交的数据有格式要求,因此其内部数据结构统一,但一般不对医学术语进行严格校验,各系统间不交换数据,虽然WHO、美国临床试验官网有其它国家数据,但是其它数据的内容和原始数据源提供的有差别,可见这些系统并没有真正实现多源数据集成。
[0010]申请内容
[0011]本申请实施例的目的是提供一种药学数据集成方法及系统,以解决现有技术中的诸多缺陷。
[0012]为了解决上述技术问题,本申请是这样实现的:
[0013]第一方面,提供了一种药学数据集成方法,包括以下步骤:
[0014]针对多个药学数据源,分别建立各个药学数据源的数据模型和数据采集器;其中,不同的药学数据源的数据采集器相互独立;
[0015]根据各个药学数据源的数据模型和数据采集器,建立各个药学数据源的采集任务;其中,不同的药学数据源的采集任务相互独立;
[0016]基于各个药学数据源的采集任务,生成各个药学数据源的采集数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种药学数据集成方法,其特征在于,包括以下步骤:针对多个药学数据源,分别建立各个药学数据源的数据模型和数据采集器;其中,不同的药学数据源的数据采集器相互独立;根据各个药学数据源的数据模型和数据采集器,建立各个药学数据源的采集任务;其中,不同的药学数据源的采集任务相互独立;基于各个药学数据源的采集任务,生成各个药学数据源的采集数据,并将所述采集数据同步到采集数据库;对所述采集数据进行数据分类和预处理,将得到的缓存数据导入到数据缓存库;对所述缓存数据进行标准化,将得到的标准化数据导入到药学关系数据库;将所述标准化数据转换为标准化图格式数据,将所述标准化图格式数据导入到药学图数据库,并基于所述药学图数据库构建药学知识库。2.根据权利要求1所述的方法,其特征在于,所述针对多个药学数据源,分别建立各个药学数据源的数据模型和数据采集器,具体包括:对各个药学数据源进行分析,筛选出数据内容和重要数据项,借助药学本体模型,对比各个药学数据源的数据结构,建立各个药学数据源的数据模型,为各个药学数据源建立独立的数据采集器。3.根据权利要求1所述的方法,其特征在于,所述根据各个药学数据源的数据模型和数据采集器,建立各个药学数据源的采集任务,具体包括:根据各个药学数据源的数据模型和数据采集器,确定各个药学数据源的数据采集范围、离线采集需求、实时采集需求、数据采集策略、数据更新策略,定制并配置离线采集模块、实时采集模块和异常处理模块,建立独立的采集任务。4.根据权利要求1所述的方法,其特征在于,所述对所述采集数据进行数据分类和预处理,将得到的缓存数据导入到数据缓存库,具体包括:按照药物、药品、疾病、临床试验、生产鉴定、组学数据、靶点、专利和文献的类别,对所述采集数据进行分类,从所述采集数据中确定重要字段作为数据源内数据关联的基础参考数据;对所述采集数据进行清洗和加工,去除重复数据项、特殊字符和处理空值,完成所述采集数据的格式化,将得到的缓存数据导入到数据缓存库,所述数据缓存库为非关系型数据库。5.根据权利要求1所述的方法,其特征在于,所述将所述标准化数据转换为标准化图格式数据,将所述标准化图格式数据导入到药学图数据库,并基于所述药学图数据库构建药学知识库,具体包括:根据关系数据

图数据映射规则,从所述药学关系数据库中抽取出实体数据、关系数据和属性数据,并将实体数据、关系数据和属性数据转换为实体1

实体2

关系

属性格式,生成标准化图格式数据,将所...

【专利技术属性】
技术研发人员:刘圣毛逸清宋伟马斌蒋文婷王鹏飞
申请(专利权)人:北京迈迪培尔信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1