The invention discloses a medical data integration platform and multi center method; the data center server data access to the data center server, the center server for each data to evaluate the quality, if the quality evaluation through entering the next step; if the quality is not through evaluation, data center server to data the center server feedback through the conclusion; the quality assessment, including assessment of data integrity, data repetition rate, data deviation, data size of the data center server; establish and maintain standard variables and standard dictionary, at the same time, according to the standard variable and the standard dictionary of data preprocessing; data standardization: standard variable and data standardization; through the similarity matching algorithm and artificial audit method, the data center server number According to the variable and the standard variable of the data center server, a one-to-one mapping relationship is set up, and the data center server's standardized data are used for data.
【技术实现步骤摘要】
医疗大数据多中心整合平台及方法
本专利技术涉及一种医疗大数据多中心整合平台及方法。
技术介绍
现有技术存在如下问题需要解决:第一,数据量巨大且样式繁杂;所述数据包括数十家体检中心的体检数据、多个地区基本公共卫生服务、育龄妇女等政府数据、多家三甲医院的临床数据,以及多个专科专病数据,例如:精神病数据、胶质瘤等重大疾病数据库,每一个数据源都存储大量的数据,并且每一个数据源数据格式千差万别;第二,传统数据整理的弊端,传统数据整理都是针对单一数据库,消耗大量的人力物力来整理数据,统计分析,发现有价值的科研成果。但是,随着大数据时代的到来,穿戴设备的加入,医疗卫生领域的数据量正在成指数型的增长,显然传统的数据整理方式已经不能适应目前的数据处理需求,并且成为科研工作者利用数据的一个重大障碍,特别是如何把多中心、多样化的数据在一个数据整理平台上统筹管理,统筹挖掘,互相补充,更是传统数据整理方式无法解决的问题。举例:传统处理方式无法解决同一个人在不同医院诊疗或体检,如何分辨同一个人的问题。第三,数据展示方式:生物统计所研究的数据量都是巨大的,所述的数据库,每一个都是千万级及以上的 ...
【技术保护点】
一种医疗大数据多中心整合平台,其特征是,包括:数据中心服务器,建立并维护标准变量和标准字典;数据分中心服务器,采集各数据源原始数据,将原始数据存储到对应的数据库中,每个数据库中均包括:变量索引表、人员信息表、检查结果表;对变量索引表、人员基本信息表、检查结果表中的数据进行预处理操作;每个数据库对应唯一编码;数据应用服务器,用于对数据分中心服务器预处理操作后的数据进行数据利用。
【技术特征摘要】
1.一种医疗大数据多中心整合平台,其特征是,包括:数据中心服务器,建立并维护标准变量和标准字典;数据分中心服务器,采集各数据源原始数据,将原始数据存储到对应的数据库中,每个数据库中均包括:变量索引表、人员信息表、检查结果表;对变量索引表、人员基本信息表、检查结果表中的数据进行预处理操作;每个数据库对应唯一编码;数据应用服务器,用于对数据分中心服务器预处理操作后的数据进行数据利用。2.如权利要求1所述的一种医疗大数据多中心整合平台,其特征是,所述标准变量,包括:项目代码、项目名称、所属科室、指标解读、数据类型、数据标签、参考范围;所述标准字典,包括:《疾病和有关健康问题的国际统计分类》ICD10、《中国药典》或阳性体征;所述标准变量维护,包括:标准项目名称、编码和分类;所述标准字典维护,根据《疾病和有关健康问题的国际统计分类》ICD10或《中国药典》,对原始数据进行标准化处理和文本结构化处理。3.如权利要求1所述的一种医疗大数据多中心整合平台,其特征是,所述预处理是指:对变量索引表中的每一条数据进行数据处理得到新的数据变量,利用新的数据变量建立新的数据变量索引;依据数据中心服务器的标准变量对变量索引表中的检查项目名称及检查项目名称编码标准化处理;对人员基本信息表里面的数据进行去重处理;所述去重处理,包括:工作单位去重和身份证号去重;对检查结果表里面的文本数据转换成结构化数据、依据数据中心服务器的标准字典对检查结果表里面的检查结果名称及检查结果名称编码标准化处理。4.如权利要求3所述的一种医疗大数据多中心整合平台,其特征是,所述对变量索引表中的每一条数据进行数据处理得到新的数据变量,利用新的数据变量建立新的数据变量索引,包括:手动拆分模块,用于人工将病历数据拆分成多个句子变量;正则匹配模块,用于提取规则数据,即通过正则表达式进行匹配得到的数据;智能分段模块,根据设定的分隔字符产生新变量;分隔字符自定义;文本替换模块,用于替换原始数据中错误的表达方式;截取片段模块,用于根据实际需要截取检查结果中的文字片段;单位转换模块,用于对数据的单位进行转换,目的是统一数据的度量;文本结构化模块,将非结构化文本数据处理为结构化变量数据,通过自然语言处理或机器学习的方式对文本数据拆分标准化;数据标准化模块,通过相似性检测算法以及人工审核的方式,把数据分中心服务器的数据变量与数据中心服务器的标准变量建立一一映射关系。5.如权利要求1所述的一种医疗大数据多中心整合平台,其特征是,所述变量索引表里存储KEY数据;所述人员信息表里存储BASE数据;所述检查结果表里存储VALUE数据;KEY数据表示数据变量索引;VALUE数据表示原始数据;BASE数据表示人员基本信息数据;所述KEY数据,用于索引VALUE数据,包括分组表和对照表,所述分组表用于对数据变量索引进行分组存储;组合类型分组是指检查项目的组合;所述对照表用于对数据变量索引和数据之间的一一对应关系进行存储,并且作为VALUE数据的外键索引,索引同一个检测项目的所有检测值;所述VALUE数据,是根据原始数据的不同数据类型对原始数据进行存储的表,每一条原始数据都有唯一的索引,所述唯一的索引通过医院的区域编码+机构编码+原始数据的记录编码构成;所述BASE数据,用于存储人员基本信息,每一个数据提供个体原则上只有一条记录,包括:性别、姓名、婚姻、身份证、电话和邮箱,高度唯一且数据安全要求相对较高;所述BASE数据,包括:人员基本信息表,人员工作单位表和人员与数据的对应关系表。6.如权利要求1所述的一种医疗大数据多中心整合平台...
【专利技术属性】
技术研发人员:薛付忠,季晓康,王永超,高琦,徐聪,王晓鹤,阿力木·达依木,曹瑾,许艺博,蒋正,卞伟玮,李敏,孙苑潆,韩君铭,马官慧,
申请(专利权)人:山东大学,康评健康医疗大数据科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。