【技术实现步骤摘要】
一种数据清洗方法及装置
[0001]本专利技术涉及数据处理
,并且更具体地,涉及一种数据清洗方法及装置。
技术介绍
[0002]数据网关,是指一类设备实现多个业务数据系统互连,实现各个系统之间数据的集成、共享和管理。智能医疗健康数据网关(Intelligent Clinical&Health Data GateWay,以下简称IDCHGW)是指一个设备,提供面向医疗数据的数据治理、再生产和数据服务,提供可视化、智能化、可交互、可编程的操作方式,以及提供安全的数据交换能力。
[0003]数据清洗是整个智能医疗健康数据网关建设过程中不可缺少的一个环节,其结果质量直接关系到后续所有相关研究的模型效果和最终结论。目前,市面上的数据清洗软件大都是针对自家的业务系统做简单的清洗,对于其他的不同数据来源的业务数据系统,由于数据不一致,因而无法对异构异源海量离散的数据进行有效的数据清洗。
[0004]另一方面,医院的临床数据有其特殊的特征以及要求。主要涉及临床数据中体征、检查、检验指标的单位、量纲和有效 ...
【技术保护点】
【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:从至少一个数据源获取待清洗的原始数据;根据预先配置的清洗规则以及预先发布的清洗任务,对所述原始数据进行数据清洗,剔除所述原始数据中的异常数据;对数据清洗后的原始数据进行存储,对所剔除的异常数据进行汇总并缓存。2.根据权利要求1所述的方法,其特征在于,对所述原始数据进行数据清洗之前,还包括通过以下步骤配置所述清洗规则:配置所述清洗规则中的字段清洗规则;配置所述清洗规则中的正则表达式清洗规则;配置所述清洗规则中的复杂逻辑清洗规则。3.根据权利要求2所述的方法,其特征在于,配置所述清洗规则之前,还包括:推送预先设置的候选清洗规则,并且配置所述清洗规则,包括:根据推送的候选清洗规则,配置所述清洗规则中的字段清洗规则、正则表达式清洗规则以及复杂逻辑清洗规则。4.根据权利要求1所述的方法,其特征在于,对所述原始数据进行数据清洗之前,还包括发布所述清洗任务,其中所述清洗任务包括提取不符合要求的数据、提取出的数据是否直接过滤掉以及是否由业务单位修正之后再进行数据的抽取。5.根据权利要求1所述的方法,其特征在于,对所述原始数据进行数据清洗,包括以下至少一个操作步骤:对所述原始数据进行一致性检查;对所述原始数据不符合目标类型的进行类型转换和有效值提取;对所述原始数据中的无效值和缺失值进行处理;对所述原始数据中的...
【专利技术属性】
技术研发人员:安西平,徐辉,
申请(专利权)人:生命奇点北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。