数据消重方法及装置制造方法及图纸

技术编号:15822739 阅读:42 留言:0更新日期:2017-07-15 04:56
本发明专利技术实施例提供了一种数据消重方法及装置,将待消重的第一数据转换为固定长度的第二数据;根据预设的划分比例,将第二数据划分为第一部分和第二部分;将第一部分和第二部分构成的键值对确定为与第二数据对应的键值对;查找与第二数据对应的键值对中的key对应的消重集合,如果查找到,则在查找到的消重集合中查找与第二数据对应的键值对中的value相同的元素,如果未查找到与第二数据对应的键值对中的value相同的元素,则将第二数据对应的键值对中的value作为元素放入查找到的消重集合中;如果查找到与第二数据对应的键值对中的value相同的元素,则将第一数据标识为重复数据。本发明专利技术提高了数据消重的效率。

【技术实现步骤摘要】
数据消重方法及装置
本专利技术涉及数据消重
,特别是涉及数据消重方法及装置。
技术介绍
在互联网各项技术中,数据消重技术应用场景很多,例如爬虫系统、搜索系统等等。现有的数据消重技术将需要对比的数据进行完整的比对,在需要对比的数据较多时,这种方案会导致消重的效率降低。因此,如何提高数据消重的效率仍是本领域亟待解决的技术难题。
技术实现思路
本专利技术实施例的目的在于提供一种数据消重方法及装置,以提高数据消重的效率。具体技术方案如下:一种数据消重方法,包括:将待消重的第一数据转换为固定长度的第二数据;根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,其中,所述第一部分在所述第二数据中位于所述第二部分左侧且与所述第二部分相邻;将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value;查找与所述第二数据对应的键值对中的key对应的消重集合,如果查找到,则在查找到的消重集合中查找与所述第二数据对应的键值对中的value相同的元素,如果未查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第二数据对应的键值对中的value作为元素放入查找到的消重集合中;如果查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第一数据标识为重复数据。可选的,所述方法还包括:如果未查找到与所述第二数据对应的键值对中的key对应的消重集合,则建立与所述第二数据对应的键值对中的key对应的消重集合,将所述第二数据对应的键值对中的value作为元素放入与所述第二数据对应的键值对中的key对应的消重集合中。可选的,在所述根据预设的划分比例,将所述第二数据划分为第一部分和第二部分后,所述方法还包括:确定所述第一数据的对应的业务标识,在所述第一部分前插入确定的所述业务标识;所述将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value,包括:将所述业务标识、所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述业务标识和所述第一部分一起用作键key,所述第二部分用作值value。可选的,所述根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,包括:根据预设的划分比例1:3,将所述第二数据的前1/4划分为第一部分,将所述第二数据的后3/4划分为第二部分。可选的,所述将待消重的第一数据转换为固定长度的第二数据,包括:使用64位循环冗余校验CRC算法或消息摘要算法第五版MD5将待消重的第一数据转换为固定长度的第二数据。一种数据消重装置,包括:数据转换单元、数据划分单元、键值对确定单元、集合查找单元、元素查找单元、元素放入单元和数据标识单元,所述数据转换单元,用于将待消重的第一数据转换为固定长度的第二数据;所述数据划分单元,用于根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,其中,所述第一部分在所述第二数据中位于所述第二部分左侧且与所述第二部分相邻;所述键值对确定单元,用于将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value;所述集合查找单元,用于查找与所述第二数据对应的键值对中的key对应的消重集合,如果查找到,则触发所述元素查找单元;所述元素查找单元,用于在查找到的消重集合中查找与所述第二数据对应的键值对中的value相同的元素,如果未查找到与所述第二数据对应的键值对中的value相同的元素,则触发所述元素放入单元;如果查找到与所述第二数据对应的键值对中的value相同的元素,则触发所述数据标识单元;所述元素放入单元,用于将所述第二数据对应的键值对中的value作为元素放入查找到的消重集合中;所述数据标识单元,用于将所述第一数据标识为重复数据。可选的,所述装置还包括:集合建立单元,用于在所述集合查找单元未查找到与所述第二数据对应的键值对中的key对应的消重集合时,建立与所述第二数据对应的键值对中的key对应的消重集合,将所述第二数据对应的键值对中的value作为元素放入与所述第二数据对应的键值对中的key对应的消重集合中。可选的,所述装置还包括:标识插入单元,用于在所述数据划分单元根据预设的划分比例,将所述第二数据划分为第一部分和第二部分后,确定所述第一数据的对应的业务标识,在所述第一部分前插入确定的所述业务标识;所述键值对确定单元,具体用于将所述业务标识、所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述业务标识和所述第一部分一起用作键key,所述第二部分用作值value。可选的,所述数据划分单元,具体用于:根据预设的划分比例1:3,将所述第二数据的前1/4划分为第一部分,将所述第二数据的后3/4划分为第二部分。可选的,所述数据转换单元,具体用于:使用64位循环冗余校验CRC算法或消息摘要算法第五版MD5将待消重的第一数据转换为固定长度的第二数据。本专利技术实施例提供的..方法及系统,可以….。当然,实施本专利技术的任一产品或方法必不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种数据消重方法的流程图;图2为本专利技术实施例提供的另一种数据消重方法的流程图;图3为本专利技术实施例提供的另一种数据消重方法的流程图;图4为本专利技术实施例提供的另一种数据消重方法的流程图;图5为本专利技术实施例提供的一种数据消重装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,本专利技术实施例提供的一种数据消重方法,可以包括:S100、将待消重的第一数据转换为固定长度的第二数据;具体的,可以使用64位循环冗余校验CRC算法或消息摘要算法第五版MD5将待消重的第一数据转换为固定长度的第二数据。其中,待消重的第一数据可以有多种形式,如网络链接、标题对应的字符串等。其中,本专利技术的数据消重方法可以在数据消重装置中执行,该数据消重装置可以与业务端设备通信连接,待消重的第一数据可以是由业务端设备发送至数据消重装置的。同时,为了区分来自不同业务端设备的第一数据,各业务端设备在发送第一数据时还可以将其业务标识发送至数据消重装置。其中,业务端设备可以是一个物理设备,也可以是一个设备集群。在业务端设备为一个设备集群时,多个业务端设备即为多个设备集群,同一设备集群内的设备发送的业务标识相同。S200、根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,其中,所述第一部分在所述第二数据中位于所述第二部分左侧且与所述第二部分相邻;其中,划分比例可以为1:3本文档来自技高网...
数据消重方法及装置

【技术保护点】
一种数据消重方法,其特征在于,包括:将待消重的第一数据转换为固定长度的第二数据;根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,其中,所述第一部分在所述第二数据中位于所述第二部分左侧且与所述第二部分相邻;将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value;查找与所述第二数据对应的键值对中的key对应的消重集合,如果查找到,则在查找到的消重集合中查找与所述第二数据对应的键值对中的value相同的元素,如果未查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第二数据对应的键值对中的value作为元素放入查找到的消重集合中;如果查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第一数据标识为重复数据。

【技术特征摘要】
1.一种数据消重方法,其特征在于,包括:将待消重的第一数据转换为固定长度的第二数据;根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,其中,所述第一部分在所述第二数据中位于所述第二部分左侧且与所述第二部分相邻;将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value;查找与所述第二数据对应的键值对中的key对应的消重集合,如果查找到,则在查找到的消重集合中查找与所述第二数据对应的键值对中的value相同的元素,如果未查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第二数据对应的键值对中的value作为元素放入查找到的消重集合中;如果查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第一数据标识为重复数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:如果未查找到与所述第二数据对应的键值对中的key对应的消重集合,则建立与所述第二数据对应的键值对中的key对应的消重集合,将所述第二数据对应的键值对中的value作为元素放入与所述第二数据对应的键值对中的key对应的消重集合中。3.根据权利要求1或2所述的方法,其特征在于,在所述根据预设的划分比例,将所述第二数据划分为第一部分和第二部分后,所述方法还包括:确定所述第一数据的对应的业务标识,在所述第一部分前插入确定的所述业务标识;所述将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value,包括:将所述业务标识、所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述业务标识和所述第一部分一起用作键key,所述第二部分用作值value。4.根据权利要求1所述的方法,其特征在于,所述根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,包括:根据预设的划分比例1:3,将所述第二数据的前1/4划分为第一部分,将所述第二数据的后3/4划分为第二部分。5.根据权利要求1所述的方法,其特征在于,所述将待消重的第一数据转换为固定长度的第二数据,包括:使用64位循环冗余校验CRC算法或消息摘要算法第五版MD5将待消重的第一数据转换为固定长度的第二数据。6.一种数据消重装置,其特征在于,包括:数据转换单元、数据划分单元、键值对确定单元、集合查找单元、元素...

【专利技术属性】
技术研发人员:李天与刘海龙
申请(专利权)人:北京搜狐新媒体信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1