【技术实现步骤摘要】
基于深度图匹配的医疗数据元自动化分类方法及系统
[0001]本专利技术属于区域性医疗大数据中心、数据生产平台领域,尤其涉及一种基于深度图匹配的医疗数据元自动化分类方法及系统。
技术介绍
[0002]随着医疗信息化的建设与发展,大数据与医疗服务的结合,促进了智慧医疗技术不断提升。目前,智慧医疗已经初具雏形,区域性医疗机构组成医联体或医共体并构建统一的医疗大数据中心已成后续智慧医疗数据治理体系发展的必然趋势。然而,医疗机构形态各异的信息平台、软件以及结构复杂的系统,导致不同机构平台之间无法实现数据的共享与交互,数据呈碎片化,形成数据孤岛。在区域性医疗机构间构建医疗大数据中心的过程中,时常发现机构内数据(尤其是历史久远的数据)缺乏管理,信息系统文档缺乏有效维护,字段备注丢失,文档质量低下,难以快速有效追溯数据血缘,形成局部的数据沼泽。传统的医疗大数据中心开发过程中,需要各医疗机构信息化部门和信息系统提供厂商相关负责人员配合医疗大数据中心的开发人员基于标准数据模型(如OMOP CDM)开发的数据接口(包括数据库视图、数据字典)完成数据发现、分类和数据关联映射任务,并完成人工分类和关联映射的数据存在标准数据模型对应的标准数据库中。数据来源的多样性,数据沼泽的密集和不可预知性普遍造成数据接口开发周期长、协调过程复杂、返工次数多等问题,耗费大量的人力物力财力,阻碍了区域性医疗大数据中心的快速自动化构建,同时为后续医疗数据的深度利用创造了很多困难。
[0003]医疗大数据中心开发过程中的数据发现、分类和数据关联映射任务,可以 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度图匹配的医疗数据元自动化分类方法,其特征在于,包括:(1)定义基于最小元数据信息的医疗数据元图数据模型;将医疗机构内数据湖中存储的多源异构的数据元组成待筛选医疗数据元集合,向所述医疗数据元图数据模型自动化映射,映射结果存储为待筛选医疗数据元图数据;(2)计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度;构建医疗数据元筛选模型,基于各列顶点的重要度计算各列顶点对应的列映射到标准数据模型的可能性,筛选出有效列顶点,由有效列顶点集合关联组成待分类医疗数据元图数据,有效列顶点对应的列集合组成待分类医疗数据元集合;(3)从待分类医疗数据元图数据中确定标准分类医疗数据元图数据的种子顶点集合;基于种子顶点集合进行待分类医疗数据元图数据的子图切割;利用深度图匹配模型完成对待分类医疗数据元图数据中列顶点的分类,从而得到列顶点对应的医疗数据元的分类。2.根据权利要求1所述的方法,其特征在于,所述医疗数据元图数据模型采用有向属性图建模,图由顶点和边两种图元素构成;所述顶点是由标签和对应标签的属性组构成的,标签代表顶点的类型,属性组代表标签拥有的一种或多种属性;所述顶点的本体信息包含顶点类型及每类顶点对应的属性信息,所述顶点类型包括数据库顶点、表顶点和列顶点,所述数据库顶点对应的属性信息包括数据库顶点索引和数据库类型信息,所述表顶点对应的属性信息包括表顶点索引,所述列顶点对应的属性信息包括列顶点索引、列数据类型信息和列向量表示;所述边是由边类型和边属性构成的,每一条边均为有向边;所述边的本体信息包含边类型及每类边对应的属性信息,所述边类型包括起点为数据库顶点、终点为表顶点的父子关联,起点为表顶点、终点为列顶点的父子关联,以及起点和终点均为列顶点的外键,三种边类型对应的属性信息均为边索引。3.根据权利要求1或2所述的方法,其特征在于,所述多源异构的数据元向医疗数据元图数据模型的映射,包括:将来自多源异构的医疗数据从数据湖中采集,组成待筛选医疗数据元集合;使用元数据采集工具对数据湖中存储的元数据进行抓取;使用列向量生成器,对待筛选医疗数据元集合中各表各列中存储的数据进行遍历,利用列向量表示模型预测得到各表各列的列向量表示;通过图数据关联映射,将采集的元数据和产生的列向量表示向医疗数据元图数据模型关联映射,得到待筛选医疗数据元图数据。4.根据权利要求3所述的方法,其特征在于,所述列向量生成器以数据表中的单列作为一个数据元单位,使用列向量表示模型转化各列存储的数据,计算各列的向量表示;所述列向量表示模型的训练包括:列向量表示模型的训练数据为存储在标准数据库中的人工完成医疗数据元分类、数据结构符合标准数据模型的列数据,记为标准分类列;标准分类医疗数据元图数据中的列顶点与对应标准分类列存在一一对应关系;设标准分类医疗数据元图数据中列顶点集合为,其中表示列顶点集合对应的标准分类列中第列,第行的数据,,为第行字符总
数,为构成数据的字符;通过文本表示模型计算得到字符的初始向量表示;在标准分类医疗数据元图数据的列顶点下随机抽取行数据,第行数据的向量表示为,根据自注意力机制计算得到标准分类医疗数据元图数据中列顶点下各行数据的相关性,得到列顶点的列向量表示,计算公式为:其中为列顶点的向量表示,为的维度,softmax为softmax函数;所述列向量表示模型的预测包括:列向量表示模型的预测数据为数据湖中各数据库中各表各列所组成的待筛选医疗数据元集合,以列为遍历单元对待筛选医疗数据元集合进行遍历;使用列向量表示模型计算对列顶点每次随机抽样的列向量表示;对预测的多次随机抽样的列向量表示结果求平均值,作为所述列顶点最终的列向量表示。5.根据权利要求4所述的方法,其特征在于,所述计算待筛选医疗数据元图数据中存储的各列顶点在医疗数据元图数据模型中的重要度,包括:对于待筛选医疗数据元图数据中存储的列顶点,在除去的列顶点集合中随机抽取个列顶点,通过计算列顶点与抽取的列顶点的相关性,计算在医...
【专利技术属性】
技术研发人员:李劲松,辛然,杨宗峰,李玉格,孙慧瑶,周天舒,田雨,
申请(专利权)人:之江实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。