当前位置: 首页 > 专利查询>之江实验室专利>正文

基于深度图匹配的医疗数据元自动化分类方法及系统技术方案

技术编号:32200194 阅读:13 留言:0更新日期:2022-02-08 16:06
本发明专利技术公开了一种基于深度图匹配的医疗数据元自动化分类方法及系统,本发明专利技术定义了基于最小元数据信息的医疗数据元图数据模型,使得深度图匹配模型的效果同样适用于极低元数据信息的局部数据沼泽的情况,达到使用最少的元数据信息完成数据元自动化分类的目的,同时保证在图数据模型标准下采集的图结构数据适用于深度图匹配模型的训练;基于表示学习方法计算医疗数据元的向量表示,通过向量表示的分类,快速、自动化筛选有可能映射到标准数据模型的有效数据元;基于图注意力机制计算列顶点的向量表示,构建深度图匹配模型完成医疗数据元的自动化分类。本发明专利技术方法及系统具有良好的可拓展性,可应用于各类数据沼泽向数据湖转化问题的处理。问题的处理。问题的处理。

【技术实现步骤摘要】
基于深度图匹配的医疗数据元自动化分类方法及系统


[0001]本专利技术属于区域性医疗大数据中心、数据生产平台领域,尤其涉及一种基于深度图匹配的医疗数据元自动化分类方法及系统。

技术介绍

[0002]随着医疗信息化的建设与发展,大数据与医疗服务的结合,促进了智慧医疗技术不断提升。目前,智慧医疗已经初具雏形,区域性医疗机构组成医联体或医共体并构建统一的医疗大数据中心已成后续智慧医疗数据治理体系发展的必然趋势。然而,医疗机构形态各异的信息平台、软件以及结构复杂的系统,导致不同机构平台之间无法实现数据的共享与交互,数据呈碎片化,形成数据孤岛。在区域性医疗机构间构建医疗大数据中心的过程中,时常发现机构内数据(尤其是历史久远的数据)缺乏管理,信息系统文档缺乏有效维护,字段备注丢失,文档质量低下,难以快速有效追溯数据血缘,形成局部的数据沼泽。传统的医疗大数据中心开发过程中,需要各医疗机构信息化部门和信息系统提供厂商相关负责人员配合医疗大数据中心的开发人员基于标准数据模型(如OMOP CDM)开发的数据接口(包括数据库视图、数据字典)完成数据发现、分类和数据关联映射任务,并完成人工分类和关联映射的数据存在标准数据模型对应的标准数据库中。数据来源的多样性,数据沼泽的密集和不可预知性普遍造成数据接口开发周期长、协调过程复杂、返工次数多等问题,耗费大量的人力物力财力,阻碍了区域性医疗大数据中心的快速自动化构建,同时为后续医疗数据的深度利用创造了很多困难。
[0003]医疗大数据中心开发过程中的数据发现、分类和数据关联映射任务,可以抽象为医疗数据元的筛选、分类任务和分类后的医疗数据元关联映射任务。首先,平台开发方案设计人员基于标准数据模型定义标准数据元分类体系和对应的数据接口规范。其后,开发人员通过规则查找和人工搜索筛选并确定与数据接口规范匹配的数据元,这一过程称为数据发现,数据发现过程确定了平台开发过程中医疗机构数据湖内哪些数据元应该被采集;开发人员根据数据发现的结果开发数据接口,并通过完成数据采集工作。最后,开发人员将医疗机构数据湖内的多源异构的数据元按照标准数据元分类体系进行分类,整合并关联映射到标准数据元分类体系上。
[0004]现有技术缺点主要体现在以下两个方面:1)医疗机构信息系统数量多、提供厂商来源各异,数据采集过程复杂,依赖大量人工,阻碍了医疗大数据中心的建设和大数据应用的有效开展。一家三甲级医疗机构的信息系统数量可以达到100

300之多,形成了一个巨大的数据湖。数据湖中数据量大,关系错综复杂,决定了数据接口开发阶段的数据发现工作需要依赖医疗机构信息化部门和信息系统提供厂商相关负责人员的长期配合,数据接口之间相互衔接,造成数据发现工作的人工成本大,耗费时间长。中间环节一旦出现故障,问题的排查过程非常复杂。很大程度上阻碍了医疗大数据中心的开发和大数据应用的有效开展。
[0005]2)医疗机构信息系统更迭频繁,历史系统文档维护困难、缺失严重等常见问题在
医疗机构的数据湖内形成局部的数据沼泽,进一步增加了数据接口开发的难度。医疗数据包含病人诊疗过程中生成的诊疗数据和医疗机构运营过程中的观测数据,来源多样,关系复杂。随着医疗机构信息系统版本的更迭,历史数据沉睡在医疗机构数据湖中缺乏有效管理,形成局部的数据沼泽。医疗大数据中心的构建需要对这些历史数据进行整合,完成数据沼泽向数据湖的转化。由于医疗机构信息化部门和信息系统提供厂商相关负责人员更替频繁,历史系统文档丢失情况时有发生,面对文档丢失,数据接口开发人员只能依靠重复试错的方法对医疗机构数据湖中所有可能的数据进行人工筛选来完成数据发现,由于医疗机构信息系统的数量多,关联关系复杂,人工筛选的方法难以有效利用医疗机构数据湖的全局信息,耗时长,错误率高,大幅增加了数据发现工作的工作周期和难度。当数据湖内数据间的关联结构过于复杂超过人工能接受的程度时,只能放弃对应数据接口的开发,使得对应类别的数据无法找到可关联映射的数据,造成该分类的数据丢失。

技术实现思路

[0006]医疗大数据中心的构建过程中,医疗机构局部数据沼泽普遍存在等问题导致数据接口开发时间长,维护困难。传统的解决方案依赖人工处理,难以大规模完成海量数据的数据发现、分类和关联映射问题。医疗机构数据湖内的多源异构的数据可以抽象为由未知分类的数据元组成的待筛选医疗数据元集合。过去的几年里,图神经网络的兴起与应用成功推动了图结构数据的深度学习范式的发展。
[0007]本专利技术利用基于图神经网络的深度图匹配算法,改进基于人工处理的数据元分类方法,最大程度降低对于信息系统数据文档的依赖,在只获取医疗机构数据湖内极少元数据信息的条件下,基于医疗数据文本语义实现有效数据元的快速筛选,实现医疗机构数据湖内数据的自动化数据发现,基于深度图匹配算法实现医疗数据元的快速分类,实现医疗机构数据湖内数据元向标准数据元分类体系的自动化分类和关联映射,大幅度提升医疗大数据中心开发过程中数据接口开发的效率。本专利技术提供的数据元分类方法具有良好的可拓展性,可应用于各类数据沼泽向数据湖转化问题的处理。
[0008]本专利技术的目的是通过以下技术方案来实现的:本专利技术一方面公开了一种基于深度图匹配的医疗数据元自动化分类方法,该方法包括以下步骤:(1)定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;(2)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;(3)从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。
[0009]进一步地,所述医疗数据元图数据模型采用有向属性图建模,图由顶点和边两种图元素构成;所述顶点是由标签和对应标签的属性组构成的,标签代表顶点的类型,属性组代表标签拥有的一种或多种属性;所述顶点的本体信息包含顶点类型及每类顶点对应的属性信息,所述顶点类型包括数据库顶点、表顶点和列顶点,所述数据库顶点对应的属性信息包括数据库顶点索引和数据库类型信息,所述表顶点对应的属性信息包括表顶点索引,所述列顶点对应的属性信息包括列顶点索引、列数据类型信息和列向量表示;所述边是由边类型和边属性构成的,每一条边均为有向边;所述边的本体信息包含边类型及每类边对应的属性信息,所述边类型包括起点为数据库顶点、终点为表顶点的父子关联,起点为表顶点、终点为列顶点的父子关联,以及起点和终点均为列顶点的外键,三种边类型对应的属性信息均为边索引。
[0010]进一步地,所述多源异构的数据元向医疗数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度图匹配的医疗数据元自动化分类方法,其特征在于,包括:(1)定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;(2)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;(3)从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。2.根据权利要求1所述的方法,其特征在于,所述医疗数据元图数据模型采用有向属性图建模,图由顶点和边两种图元素构成;所述顶点是由标签和对应标签的属性组构成的,标签代表顶点的类型,属性组代表标签拥有的一种或多种属性;所述顶点的本体信息包含顶点类型及每类顶点对应的属性信息,所述顶点类型包括数据库顶点、表顶点和列顶点,所述数据库顶点对应的属性信息包括数据库顶点索引和数据库类型信息,所述表顶点对应的属性信息包括表顶点索引,所述列顶点对应的属性信息包括列顶点索引、列数据类型信息和列向量表示;所述边是由边类型和边属性构成的,每一条边均为有向边;所述边的本体信息包含边类型及每类边对应的属性信息,所述边类型包括起点为数据库顶点、终点为表顶点的父子关联,起点为表顶点、终点为列顶点的父子关联,以及起点和终点均为列顶点的外键,三种边类型对应的属性信息均为边索引。3.根据权利要求1或2所述的方法,其特征在于,所述多源异构的数据元向医疗数据元图数据模型的映射,包括:将来自多源异构的医疗数据从数据湖中采集,组成待筛选医疗数据元集合;使用元数据采集工具对数据湖中存储的元数据进行抓取;使用列向量生成器,对待筛选医疗数据元集合中各表各列中存储的数据进行遍历,利用列向量表示模型预测得到各表各列的列向量表示;通过图数据关联映射,将采集的元数据和产生的列向量表示向医疗数据元图数据模型关联映射,得到待筛选医疗数据元图数据。4.根据权利要求3所述的方法,其特征在于,所述列向量生成器以数据表中的单列作为一个数据元单位,使用列向量表示模型转化各列存储的数据,计算各列的向量表示;所述列向量表示模型的训练包括:列向量表示模型的训练数据为存储在标准数据库中的人工完成医疗数据元分类、数据结构符合标准数据模型的列数据,记为标准分类列;标准分类医疗数据元图数据中的列顶点与对应标准分类列存在一一对应关系;设标准分类医疗数据元图数据中列顶点集合为,其中表示列顶点集合对应的标准分类列中第列,第行的数据,,为第行字符总
数,为构成数据的字符;通过文本表示模型计算得到字符的初始向量表示;在标准分类医疗数据元图数据的列顶点下随机抽取行数据,第行数据的向量表示为,根据自注意力机制计算得到标准分类医疗数据元图数据中列顶点下各行数据的相关性,得到列顶点的列向量表示,计算公式为:其中为列顶点的向量表示,为的维度,softmax为softmax函数;所述列向量表示模型的预测包括:列向量表示模型的预测数据为数据湖中各数据库中各表各列所组成的待筛选医疗数据元集合,以列为遍历单元对待筛选医疗数据元集合进行遍历;使用列向量表示模型计算对列顶点每次随机抽样的列向量表示;对预测的多次随机抽样的列向量表示结果求平均值,作为所述列顶点最终的列向量表示。5.根据权利要求4所述的方法,其特征在于,所述计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度,包括:对于待筛选医疗数据元图数据中存储的列顶点,在除去的列顶点集合中随机抽取个列顶点,通过计算列顶点与抽取的列顶点的相关性,计算在医...

【专利技术属性】
技术研发人员:李劲松辛然杨宗峰李玉格孙慧瑶周天舒田雨
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1