一种数据清洗方法、装置及设备制造方法及图纸

技术编号:21059977 阅读:20 留言:0更新日期:2019-05-08 06:51
本发明专利技术实施例提供了一种数据清洗方法、装置及设备,该方法包括:确定待清洗数据对应的网页中已获得网页数据的第一目标网页;判断待清洗数据对应的网页中是否存在与第一目标网页存在依赖关系的第二目标网页;如果存在,判断是否已获得第二目标网页的网页数据;如果已获得,对第一目标网页的网页数据进行清洗;如果未获得,记录第一目标网页和第二目标网页之间的依赖关系,并在对第二目标网页的网页数据进行清洗时,根据依赖关系确定第一目标网页,并在已获得与第一目标网页存在依赖关系的所有网页的网页数据的情况下,对第一目标网页的网页数据进行清洗。应用本发明专利技术实施例提供方案清洗数据时,能够提高数据清洗的效率。

【技术实现步骤摘要】
一种数据清洗方法、装置及设备
本专利技术涉及互联网
,特别是涉及一种数据清洗方法、装置及设备。
技术介绍
数据清洗是指去除重复、错误的数据从而得到有价值的数据。实际应用中,由于待清洗数据可能是由多个网页的网页数据构成的,因此,需要获得待清洗数据对应的各个网页的网页数据,然后对所获得的各个网页的网页数据进行清洗,以此来完成待清洗数据的清洗。可见应用上述方式进行数据清洗时,是在获得待清洗数据对应的所有网页的网页数据之后,才开始进行数据清洗。然而,专利技术人在实现本专利技术的过程中发现,现有技术至少存在如下问题:由于获得待清洗数据对应的所有网页的网页数据之后,才能开始进行数据清洗,使得进行数据清洗的开始时间延后,因此,现有技术中从开始获取待清洗数据对应的各个网页的网页数据,到对所获得的各个网页的网页数据进行清洗结束耗时长,进而数据清洗效率低。
技术实现思路
本专利技术实施例的目的在于提供一种数据清洗方法、装置及设备,以提高数据清洗的效率。具体技术方案如下:本专利技术实施的一方面,提供了一种数据清洗方法,所述方法包括:确定待清洗数据对应的网页中已获得网页数据的网页,作为第一目标网页;根据所述第一目标网页的网页数据,判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页;在存在所述第二目标网页的情况下,判断是否已获得所述第二目标网页的网页数据;如果已获得,对所述第一目标网页的网页数据进行清洗;如果未获得,记录所述第一目标网页和所述第二目标网页之间的依赖关系,并在对所述第二目标网页的网页数据进行清洗时,根据所述依赖关系确定所述第一目标网页,并在已获得与所述第一目标网页存在依赖关系的所有网页的网页数据的情况下,对所述第一目标网页的网页数据进行清洗。可选的,所述方法还包括:在不存在所述第二目标网页的情况下,对所述第一目标网页的网页数据进行清洗。可选的,所述根据所述第一目标网页的网页数据,判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页的步骤,包括:判断所述第一目标网页的网页数据中是否存在网页标签;如果存在,将所述网页标签对应的网页确定为所述第二目标网页。可选的,所述记录所述第一目标网页和所述第二目标网页之间的依赖关系的步骤,包括:获取所述第一目标网页的网页标签和所述第二目标网页的网页标签;将所述第一目标网页的网页标签和所述第二目标网页的网页标签之间的对应关系确定为所述依赖关系;将所述依赖关系存储到分布式数据库中。可选的,所述网页标签为:统一资源定位符URL。本专利技术实施的又一方面,还提供了一种数据清洗装置,所述装置包括:第一确定模块,用于确定待清洗数据对应的网页中已获得网页数据的网页,作为第一目标网页;第一判断模块,用于根据所述第一目标网页的网页数据,判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页,并在判断结果为是时触发第二判断模块;第二判读模块,用于判断是否已获得所述第二目标网页的网页数据,并在判断结果为是时触发第一清洗模块,在判断结果为否时触发第二清洗模块;第一清洗模块,用于对所述第一目标网页的网页数据进行清洗;第二清洗模块,用于记录所述第一目标网页和所述第二目标网页之间的依赖关系,并在对所述第二目标网页的网页数据进行清洗时,根据所述依赖关系确定所述第一目标网页,并在已获得与所述第一目标网页存在依赖关系的所有网页的网页数据的情况下,对所述第一目标网页的网页数据进行清洗。可选的,所述装置还包括:第三清洗模块,所述第一判断模块,还用于在判断结果为否时触发所述第三清洗模块;所述第三清洗模块,用于对所述第一目标网页的网页数据进行清洗。可选的,所述第一判断模块,具体用于判断所述第一目标网页的网页数据中是否存在网页标签;如果存在,将所述网页标签对应的网页确定为所述第二目标网页。可选的,所述第二清洗模块,包括:获取子模块,用于获取所述第一目标网页的网页标签和所述第二目标网页的网页标签;确定子模块,用于将所述第一目标网页的网页标签和所述第二目标网页的网页标签之间的对应关系确定为所述依赖关系;存储子模块,用于将所述依赖关系存储到分布式数据库中。可选的,所述网页标签为:统一资源定位符URL。本专利技术实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现上述任一所述的数据清洗方法。在本专利技术实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的数据清洗方法。在本专利技术实施的又一方面,本专利技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据清洗方法。本专利技术实施例提供的一种数据清洗方法、装置及设备,可以在对待清洗数据进行清洗的过程中,对于待清洗数据对应的网页中已获得网页数据的第一目标网页,如果已经获得与第一目标网页存在依赖关系的第二目标网页的网页数据,则直接对第一目标网页的网页数据进行清洗;如果并未获得与第一目标网页存在依赖关系的第二目标网页的网页数据,则得到获得第二目标网页的网页数据之后,对第一目标网页的网页数据进行清洗。可见,应用本专利技术实施例提供的方案清洗数据时,在获取待清洗数据对应的所有网页的网页数据的过程中,同步对已获得的各个网页的网页数据进行数据清洗,因而,能够降低从开始获取待清洗数据对应的各个网页的网页数据,到对所获得的各个网页的网页数据进行清洗结束所需的时间,进而能够提高数据清洗的效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术实施例提供的一种数据清洗方法的流程示意图;图2为本专利技术实施例提供的一种待清洗数据对应的网页之间的依赖关系示意图;图3为本专利技术实施例提供的一种数据清洗装置的结构示意图;图4为本专利技术实施例提供的一种电子设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行描述。参见图1,示出了本专利技术实施例提供的一种数据清洗方法的流程示意图,该方法包括:S100,确定待清洗数据对应的网页中已获得网页数据的网页,作为第一目标网页。待清洗数据也就是需要进行数据清洗的数据,具体的,待清洗数据可以为网站对应的数据,而由于网站对应有多个网页,此时待清洗数据也就是网站对应的所有网页的网页数据;待清洗数据还可以为网站中部分网页的网页数据,比如,视频网站中通常包括:电影、电视剧、动漫等多个部分,那么待清洗数据则可以为电影部分对应的各个网页的网页数据。S110,根据第一目标网页的网页数据,判断待清洗数据对应的网页中是否存在与第一目标网页存在依赖关系的第二目标网页,并在判断结果为是时执行S120。依赖关系也可以称为两个网页之间的关联关系。一种实现方式中,依赖关系可以是单向的,也就是一个网页的网页数据依赖于另一个网页的网页数据,此时,与第一目标网页存在依赖关系的第二目标网页也就是第一目标网页依赖于第二目标网页。比如,第一目标网页为电影部分的父网页,父网页中本文档来自技高网...

【技术保护点】
1.一种数据清洗方法,其特征在于,所述方法包括:确定待清洗数据对应的网页中已获得网页数据的网页,作为第一目标网页;根据所述第一目标网页的网页数据,判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页;在存在所述第二目标网页的情况下,判断是否已获得所述第二目标网页的网页数据;如果已获得,对所述第一目标网页的网页数据进行清洗;如果未获得,记录所述第一目标网页和所述第二目标网页之间的依赖关系,并在对所述第二目标网页的网页数据进行清洗时,根据所述依赖关系确定所述第一目标网页,并在已获得与所述第一目标网页存在依赖关系的所有网页的网页数据的情况下,对所述第一目标网页的网页数据进行清洗。

【技术特征摘要】
1.一种数据清洗方法,其特征在于,所述方法包括:确定待清洗数据对应的网页中已获得网页数据的网页,作为第一目标网页;根据所述第一目标网页的网页数据,判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页;在存在所述第二目标网页的情况下,判断是否已获得所述第二目标网页的网页数据;如果已获得,对所述第一目标网页的网页数据进行清洗;如果未获得,记录所述第一目标网页和所述第二目标网页之间的依赖关系,并在对所述第二目标网页的网页数据进行清洗时,根据所述依赖关系确定所述第一目标网页,并在已获得与所述第一目标网页存在依赖关系的所有网页的网页数据的情况下,对所述第一目标网页的网页数据进行清洗。2.如权利要求1所述的方法,其特征在于,所述方法还包括:在不存在所述第二目标网页的情况下,对所述第一目标网页的网页数据进行清洗。3.如权利要求1所述的方法,其特征在于,所述根据所述第一目标网页的网页数据,判断所述待清洗数据对应的网页中是否存在与所述第一目标网页存在依赖关系的第二目标网页的步骤,包括:判断所述第一目标网页的网页数据中是否存在网页标签;如果存在,将所述网页标签对应的网页确定为所述第二目标网页。4.如权利要求1所述的方法,其特征在于,所述记录所述第一目标网页和所述第二目标网页之间的依赖关系的步骤,包括:获取所述第一目标网页的网页标签和所述第二目标网页的网页标签;将所述第一目标网页的网页标签和所述第二目标网页的网页标签之间的对应关系确定为所述依赖关系;将所述依赖关系存储到分布式数据库中。5.如权利要求3或4所述的方法,其特征在于,所述网页标签为:统一资源定位符URL。6.一种数据清洗装置,其特征在于,所述装置包括:第一确定模块,用于确定待清洗数据对应的网页中已获得网页数据的网页,作为第一目标网页;第一判断模块,用于根据所述第一目标网页...

【专利技术属性】
技术研发人员:郭聪帅伟良
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1