基于大数据的数据清洗方法及相关装置制造方法及图纸

技术编号:20763941 阅读:27 留言:0更新日期:2019-04-03 14:19
本申请实施例公开了一种基于大数据的数据清洗方法及相关装置,该方法包括:从目标医疗机构的医疗数据库中获取预设时段内目标医疗机构的第一医疗数据集;对第一医疗数据集进行数据格式转换,得到第一医疗数据集对应的第二医疗数据集,第二医疗数据集中的医疗数据的数据格式相同;根据预先存储的分类策略对第二医疗数据集进行分类,得到第二医疗数据集对应的至少一个第三医疗数据集;对至少一个第三医疗数据集进行数据清洗,得到至少一个第三医疗数据集对应的至少一个目标医疗数据集。采用本申请实施例实现了对医疗数据集进行有效的清洗,在一定程度上提高了数据清洗的效率。

【技术实现步骤摘要】
基于大数据的数据清洗方法及相关装置
本申请涉及大数据
,具体涉及一种基于大数据的数据清洗方法及相关装置。
技术介绍
目前,由于医疗机构的就医人数在持续增加,导致医疗机构存储的医疗数据也不断增加。为了得到需要的医疗数据,需要对医疗数据进行数据清洗。通常,对大量的医疗数据进行数据清洗时,由于大量的医疗数据对应多个数据格式,因此需要多套数据清洗算法对大量的医疗数据进行数据清洗,同时增加了服务器的处理压力。
技术实现思路
本申请实施例提供一种基于大数据的数据清洗方法及相关装置,用于对医疗数据集进行有效的清洗,在一定程度上提高了数据清洗的效率。第一方面,本申请实施例提供一种基于大数据的数据清洗方法,所述方法包括:从目标医疗机构的医疗数据库中获取预设时段内所述目标医疗机构的第一医疗数据集;对所述第一医疗数据集进行数据格式转换,得到所述第一医疗数据集对应的第二医疗数据集,所述第二医疗数据集中的医疗数据的数据格式相同;根据预先存储的分类策略对所述第二医疗数据集进行分类,得到所述第二医疗数据集对应的至少一个第三医疗数据集;对所述至少一个第三医疗数据集进行数据清洗,得到所述至少一个第三医疗数据集对应的至少一个目标医疗数据集。第二方面,本申请实施例提供一种基于大数据的数据清洗装置,所述装置包括:获取单元,用于从目标医疗机构的医疗数据库中获取预设时段内所述目标医疗机构的第一医疗数据集;转换单元,用于对所述第一医疗数据集进行数据格式转换,得到所述第一医疗数据集对应的第二医疗数据集,所述第二医疗数据集中的医疗数据的数据格式相同;分类单元,用于根据预先存储的分类策略对所述第二医疗数据集进行分类,得到所述第二医疗数据集对应的至少一个第三医疗数据集;清洗单元,用于对所述至少一个第三医疗数据集进行数据清洗,得到所述至少一个第三医疗数据集对应的至少一个目标医疗数据集。第三方面,本申请实施例提供一种服务器,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面所述的方法中的步骤的指令。第四方面,本申请实施例提供了一种计算机可读存储介质,上述计算机可读存储介质用于存储电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。第五方面,本申请实施例提供了一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面所述的方法中所描述的部分或全部步骤。可以看出,在本申请实施例中,服务器首先从目标医疗机构的医疗数据库中获取预设时段内目标医疗机构的第一医疗数据集,然后对第一医疗数据集进行数据格式转换,得到第二医疗数据集,进而根据预先存储的分类策略对第二医疗数据集进行分类,得到至少一个第三医疗数据集,最后对至少一个第三医疗数据集进行数据清洗,得到至少一个目标医疗数据集。这样实现了对医疗数据集进行有效的清洗,由于第二医疗数据集中的医疗数据的数据格式相同,因此在一定程度上提高了数据清洗的效率。本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。附图说明为了更清楚地说明本申请实施例或
技术介绍
中的技术方案,下面将对本申请实施例或
技术介绍
中所需要使用的附图进行说明。图1A是本申请实施例提供的第一种基于大数据的数据清洗方法的流程示意图;图1B是本申请实施例提供的一种示意图;图1C是本申请实施例提供的另一种示意图;图2是本申请实施例提供的第二种基于大数据的数据清洗方法的流程示意图;图3是本申请实施例提供的第三种基于大数据的数据清洗方法的流程示意图;图4是本申请实施例提供的一种基于大数据的数据清洗装置的结构示意图;图5是本申请实施例提供的一种服务器的流程示意图。具体实现方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。以下分别进行详细说明。本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。服务器,也称伺服器,是提供计算服务的设备。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。在网络环境下,根据服务器提供的服务类型不同,分为文件服务器,数据库服务器,应用程序服务器,WEB服务器等。下面对本申请实施例进行详细介绍。请参阅图1A,图1A是本申请实施例提供的第一种基于大数据的数据清洗方法的流程示意图,该基于大数据的数据清洗方法包括:步骤101:服务器从目标医疗机构的医疗数据库中获取预设时段内所述目标医疗机构的第一医疗数据集。其中,预设时段的终止时刻可以是当前系统时刻,预设时段的时长可以是3天、5天、7天、10天、15天或者是其他值。其中,第一医疗数据集包括多个医疗数据,每个医疗数据对应一个标签,每个标签代表一个医疗项目,每个医疗项目对应至少一个清洗流程。在一个可能的示例中,服务器从目标医疗机构的医疗数据库中获取预设时段内所述目标医疗机构的第一医疗数据集,包括:服务器接收医疗数据清洗平台发送的指示信息,所述指示信息用于指示服务器获取预设时段内目标医疗机构的第一医疗数据集;服务器向所述目标医疗机构的服务器发送请求信息,所述请求信息用于指示所述目标医疗机构的服务器反馈其医疗数据库中存储的所述预设时段内的多个医疗数据;服务器接收所述目标医疗机构的服务器针对所述请求信息发送的所述多个医疗数据,以及将所述多个医疗数据组成的集合作为所述目标医疗机构的第一医疗数据集。其中,医疗数据清洗平台与服务器具有连接关系,服务器与目标医疗机构的服务器具有连接关系。进一步地,当医疗数据清洗平台的数据清洗功能处于开启状态时,医疗数据清洗平台在其显示界面显示时段选择框、医疗机构选择框和数据清洗按钮,时段选择框包括起始时段标识、起始时段输入框、终止时段标识和终止时段输入框,医疗机构选择框包括地区标识、地区输入框、医疗机构标识和医疗机构输入框,如图1B所示;医疗数据清洗平台检测到针对预设时段内目标医疗机构的数据清洗按钮的点击操作。举例来说,如图1C所示,当检测到针对预设时段内目标医疗机构的数据清洗按钮的点击操作时,医疗数据清洗平台向服务器发送指本文档来自技高网
...

【技术保护点】
1.一种基于大数据的数据清洗方法,其特征在于,所述方法包括:从目标医疗机构的医疗数据库中获取预设时段内所述目标医疗机构的第一医疗数据集;对所述第一医疗数据集进行数据格式转换,得到所述第一医疗数据集对应的第二医疗数据集,所述第二医疗数据集中的医疗数据的数据格式相同;根据预先存储的分类策略对所述第二医疗数据集进行分类,得到所述第二医疗数据集对应的至少一个第三医疗数据集;对所述至少一个第三医疗数据集进行数据清洗,得到所述至少一个第三医疗数据集对应的至少一个目标医疗数据集。

【技术特征摘要】
1.一种基于大数据的数据清洗方法,其特征在于,所述方法包括:从目标医疗机构的医疗数据库中获取预设时段内所述目标医疗机构的第一医疗数据集;对所述第一医疗数据集进行数据格式转换,得到所述第一医疗数据集对应的第二医疗数据集,所述第二医疗数据集中的医疗数据的数据格式相同;根据预先存储的分类策略对所述第二医疗数据集进行分类,得到所述第二医疗数据集对应的至少一个第三医疗数据集;对所述至少一个第三医疗数据集进行数据清洗,得到所述至少一个第三医疗数据集对应的至少一个目标医疗数据集。2.根据权利要求1所述的方法,其特征在于,所述从目标医疗机构的医疗数据库中获取预设时段内所述目标医疗机构的第一医疗数据集,包括:接收医疗数据清洗平台发送的指示信息,所述指示信息用于指示服务器获取预设时段内目标医疗机构的第一医疗数据集;向所述目标医疗机构的服务器发送请求信息,所述请求信息用于指示所述目标医疗机构的服务器反馈其医疗数据库中存储的所述预设时段内的多个医疗数据;接收所述目标医疗机构的服务器针对所述请求信息发送的所述多个医疗数据,以及将所述多个医疗数据组成的集合作为所述目标医疗机构的第一医疗数据集。3.根据权利要求2所述的方法,其特征在于,所述对所述第一医疗数据集进行数据格式转换,得到所述第一医疗数据集对应的第二医疗数据集,包括:识别所述第一医疗数据集包括的多个医疗数据中每个医疗数据的数据格式;将所述多个医疗数据中每个医疗数据的数据格式转换成目标数据格式,得到所述多个医疗数据对应的多个第一医疗数据;将所述多个第一医疗数据组成的集合作为第二医疗数据集。4.根据权利要求3所述方法,其特征在于,所述根据预先存储的分类策略对所述第二医疗数据集进行分类,得到所述第二医疗数据集对应的至少一个第三医疗数据集,包括:解析所述第二医疗数据集包括的多个第一医疗数据中每个第一医疗数据,得到所述多个第一医疗数据中每个第一医疗数据的标签,所述标签用于表征第一医疗数据所属医疗项目;根据标签将所述第二医疗数据集包括的多个第一医疗数据进行分类,得到所述第二医疗数据集对应的至少一个第三医疗数据集,每个第三医疗数据集中的第一医疗数据的标签相同。5.根据权利要求4所述的方法,其特征在于,所述对所述至少一个第三医疗数据集进行数据清洗,得到所述至少一个第三医疗数据集对应的至少一个目标医疗数据集,包括:解析所述至少一个第三医疗数据集中每个第三医疗数据集,得到所述至少一个第三医疗数据集中每个第...

【专利技术属性】
技术研发人员:陈柏青
申请(专利权)人:平安医疗健康管理股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1