一种数据清洗方法、装置、设备及存储介质制造方法及图纸

技术编号:31577587 阅读:7 留言:0更新日期:2021-12-25 11:19
本发明专利技术涉及一种数据清洗方法、装置、设备及介质,方法包括:获取并识别数据的数据类型;判断数据是否符合预设匹配条件;在数据符合预设匹配条件的情况下,根据预设匹配条件对数据进行清洗,以获得规范化数据;根据预设存储条件存储规范化数据。其优点在于,在无须更改代码的情况下,利用预设匹配条件、预设存储条件对数据进行全自动化处理,减少了人工处理工作量,提高处理效率和处理精度,确保数据统一、便于进行后续统计、分析等操作;解决不同数据源字段不统一、不规范性;解决业务更新的规则的不确定性和多变性;通过对不同试验数据的自动清洗、匹配和治理,规范化试验数据,能极大地提高数据的匹配效率,能有效降低人工成本、提高数据质量。数据质量。数据质量。

【技术实现步骤摘要】
一种数据清洗方法、装置、设备及存储介质


[0001]本专利技术涉及数据清洗
,尤其涉及一种数据清洗方法、装置、计算机设备及计算机可读存储介质。

技术介绍

[0002]目前临床试验研究的数据平台,数据比较分散、研究者查询试验数据需要从不同的试验平台才能获取相对比较全面的数据。为了给研究者提供统一的试验数据平台、就需要对不同平台的试验数据进行采集和处理,对数据进行规范化、标准化、数据治理之后可以统一展示给使用者。如何对数据进行自动治理,就显得尤为重要。
[0003](1)多数据源表字段匹配
[0004]目前常见试验数据平台有CDE试验数据库、华西试验数据库、Clinicaltrial数据库,每种平台数据表设计都不统一,每次新增或者修改都需要研发修改对应的代码,才能完成字段匹配的工作。
[0005](2)业务规则匹配
[0006]业务数据的匹配,比如试验的数据,可以按照显示名、别名、英文名、标题等进行匹配,如果源数据有修改,代码就需要针对性的修改,才能支持新的名字。
[0007]现有不同的研究试验数据、字段不规范、不统一、有很多的歧义性、给使用者造成的很大的困惑,全靠人工去检查、匹配,工作量极大、效率很低。
[0008]目前,针对相关技术中存在的数据量大需要人工检查、每次更新都需要修改对应代码等问题,尚未提出有效的解决方案。

技术实现思路

[0009]本申请的目的是针对现有技术中的不足,提供一种数据清洗方法、装置、设备及存储介质,以至少解决相关技术中的数据量大需要人工检查、每次更新都需要修改对应代码等问题。
[0010]为实现上述目的,本申请采取的技术方案是:
[0011]第一方面,本专利技术提供一种数据清洗方法,包括:
[0012]获取并识别数据的数据类型;
[0013]判断所述数据是否符合预设匹配条件,其中,所述预设匹配条件与所述数据类型相对应;
[0014]在所述数据符合所述预设匹配条件的情况下,根据所述预设匹配条件对所述数据进行清洗,以获得规范化数据;
[0015]根据预设存储条件存储所述规范化数据,其中,所述预设存储条件与所述数据类型相对应。
[0016]在其中的一些实施例中,所述数据类型包括试验基础数据、医院数据、研究者数据、医生数据。
[0017]在其中的一些实施例中,所述预设匹配条件包括全字段匹配、部分字段匹配、全量覆盖。
[0018]在其中的一些实施例中,所述预设存储条件包括新增、删除、覆盖、部分更新、全量更新。
[0019]在其中的一些实施例中,在获取并识别数据的数据类型之前,所述方法包括:
[0020]监听数据队列;
[0021]在所述数据队列接收到数据的情况下,获取所述数据。
[0022]在其中的一些实施例中,根据所述预设匹配条件对所述数据进行清洗,以获得规范化数据包括:
[0023]获取所述数据的第一特定字段信息;
[0024]判断所述第一特定字段信息与所述预设匹配条件的第一预设字段信息是否匹配;
[0025]在所述第一特定字段信息与所述第一预设字段信息匹配的情况下,将所述第一特定字段信息替换为第一规范字段信息,以使所述数据转换为规范化数据,其中,所述第一规范字段信息为第一预设字段信息的子集。
[0026]在其中的一些实施例中,根据所述预设匹配条件对所述数据进行清洗,以获得规范化数据包括:
[0027]获取所述数据的第二特定字段信息;
[0028]识别所述第二特定字段信息的字段类型;
[0029]获取所述预设匹配条件的第二预设字段信息,其中,所述第二预设字段信息的字段类型与所述第二特定字段信息的字段类型相同;
[0030]将所述第二特定字段信息替换为第二规范字段信息,以使所述数据转换为规范化数据,其中,所述第二规范字段信息为第二预设字段信息与第二特定字段信息的组合。
[0031]在其中的一些实施例中,在判断所述数据是否符合预设匹配条件之后,所述方法还包括:
[0032]在所述数据不符合所述预设匹配条件的情况下,标记所述数据为待人工处理数据;
[0033]推送所述待人工处理数据;
[0034]获取与所述待人工处理数据相对应的规范化数据;
[0035]根据预设存储条件存储所述规范化数据,其中,所述预设存储条件与所述数据类型相对应。
[0036]在其中的一些实施例中,根据预设存储条件存储所述规范化数据包括:
[0037]获取所述预设存储条件的待存储字段类型;
[0038]获取所述规范化数据的与所述待存储字段类型相对应的待存储字段信息;
[0039]存储所述规范化数据,以使所述待存储字段信息替换对应的原存储字段信息。
[0040]在其中的一些实施例中,存储所述规范化数据,以使所述待存储字段信息替换对应的原存储字段信息包括:
[0041]获取与所述待存储字段类型相对应的原存储字段信息;
[0042]存储所述原存储字段信息;
[0043]将所述待存储字段信息替换所述原存储字段信息。
[0044]第二方面,本专利技术提供一种数据清洗装置,包括:
[0045]获取单元,用于获取数据;
[0046]识别单元,与所述获取单元连接,用于识别所述数据的数据类型;
[0047]判断单元,与所述识别单元连接,用于判断所述数据是否符合预设匹配条件,其中,所述预设匹配条件与所述数据类型相对应;
[0048]清洗单元,与所述判断单元连接,用于在所述数据符合所述预设匹配条件的情况下,根据所述预设匹配条件对所述数据进行清洗,以获得规范化数据;
[0049]存储单元,与所述清洗单元连接,用于根据预设存储条件存储所述规范化数据,其中,所述预设存储条件与所述数据类型相对应。
[0050]在其中的一些实施例中,还包括:
[0051]监听单元,用于监听数据队列;
[0052]其中,所述获取单元与所述监听单元连接,用于在所述数据队列接收到数据的情况下,获取所述数据。
[0053]在其中的一些实施例中,所述清洗单元包括:
[0054]第一获取模块,用于获取所述数据的第一特定字段信息;
[0055]判断模块,与所述第一获取模块连接,用于判断所述第一特定字段信息与所述预设匹配条件的第一预设字段信息是否匹配;
[0056]第一清洗模块,用于在所述第一特定字段信息与所述第一预设字段信息匹配的情况下,将所述第一特定字段信息替换为第一规范字段信息,以使所述数据转换为规范化数据,其中,第一规范字段信息为第一预设字段信息的子集。
[0057]在其中的一些实施例中,所述清洗单元包括:
[0058]第二获取模块,用于获取所述数据的第二特定字段信息;
[0059]识别模块,与所述第二获取模块连接,用于识别所述第二特定字段信息的字段类型;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:获取并识别数据的数据类型;判断所述数据是否符合预设匹配条件,其中,所述预设匹配条件与所述数据类型相对应;在所述数据符合所述预设匹配条件的情况下,根据所述预设匹配条件对所述数据进行清洗,以获得规范化数据;根据预设存储条件存储所述规范化数据,其中,所述预设存储条件与所述数据类型相对应。2.根据权利要求1所述的数据清洗方法,其特征在于,在获取并识别数据的数据类型之前,所述方法包括:监听数据队列;在所述数据队列接收到数据的情况下,获取所述数据。3.根据权利要求1所述的数据清洗方法,其特征在于,根据所述预设匹配条件对所述数据进行清洗,以获得规范化数据包括:获取所述数据的第一特定字段信息;判断所述第一特定字段信息与所述预设匹配条件的第一预设字段信息是否匹配;在所述第一特定字段信息与所述第一预设字段信息匹配的情况下,将所述第一特定字段信息替换为第一规范字段信息,以使所述数据转换为规范化数据,其中,所述第一规范字段信息为第一预设字段信息的子集;和/或获取所述数据的第二特定字段信息;识别所述第二特定字段信息的字段类型;获取所述预设匹配条件的第二预设字段信息,其中,所述第二预设字段信息的字段类型与所述第二特定字段信息的字段类型相同;将所述第二特定字段信息替换为第二规范字段信息,以使所述数据转换为规范化数据,其中,所述第二规范字段信息为第二预设字段信息与第二特定字段信息的组合。4.根据权利要求1所述的数据清洗方法,其特征在于,根据预设存储条件存储所述规范化数据包括:获取所述预设存储条件的待存储字段类型;获取所述规范化数据的与所述待存储字段类型相对应的待存储字段信息;存储所述规范化数据,以使所述待存储字段信息替换对应的原存储字段信息。5.根据权利要求4所述的数据清洗方法,其特征在于,存储所述规范化数据,以使所述待存储字段信息替换对应的原存储字段信息包括:获取与所述待存储字段类型相对应的原存储字段信息;存储所述原存储字段信息;将所述待存储字段信息替换所述原存储字段信息。6.一种数据清洗装置,其特征在于,包括:获取单元,用于获取数据;识别单元,与所述获取单元连接,用于识别所述数据的数据类型;判断单元,与所述识别单元连接,用于判断所述数据是否符合预设匹配条件,其中,所
述预设匹配条件与所述数据类型相对应;清洗单元,与...

【专利技术属性】
技术研发人员:代运超
申请(专利权)人:上海妙一生物科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1