【技术实现步骤摘要】
数据消重方法及装置
本专利技术涉及数据消重
,特别是涉及数据消重方法及装置。
技术介绍
在互联网各项技术中,数据消重技术应用场景很多,例如爬虫系统、搜索系统等等。现有的数据消重技术将需要对比的数据进行完整的比对,在需要对比的数据较多时,这种方案会导致消重的效率降低。因此,如何提高数据消重的效率仍是本领域亟待解决的技术难题。
技术实现思路
本专利技术实施例的目的在于提供一种数据消重方法及装置,以提高数据消重的效率。具体技术方案如下:一种数据消重方法,包括:将待消重的第一数据转换为固定长度的第二数据;根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,其中,所述第一部分在所述第二数据中位于所述第二部分左侧且与所述第二部分相邻;将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value;查找与所述第二数据对应的键值对中的key对应的消重集合,如果查找到,则在查找到的消重集合中查找与所述第二数据对应的键值对中的value相同的元素,如果未查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第二数据对应的键值对中的value作为元素放入查找到的消重集合中;如果查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第一数据标识为重复数据。可选的,所述方法还包括:如果未查找到与所述第二数据对应的键值对中的key对应的消重集合,则建立与所述第二数据对应的键值对中的key对应的消重集合,将所述第二数据对应的键值对中的value作为元素放入与所述第二数据对应的键值对中的 ...
【技术保护点】
一种数据消重方法,其特征在于,包括:将待消重的第一数据转换为固定长度的第二数据;根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,其中,所述第一部分在所述第二数据中位于所述第二部分左侧且与所述第二部分相邻;将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value;查找与所述第二数据对应的键值对中的key对应的消重集合,如果查找到,则在查找到的消重集合中查找与所述第二数据对应的键值对中的value相同的元素,如果未查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第二数据对应的键值对中的value作为元素放入查找到的消重集合中;如果查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第一数据标识为重复数据。
【技术特征摘要】
1.一种数据消重方法,其特征在于,包括:将待消重的第一数据转换为固定长度的第二数据;根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,其中,所述第一部分在所述第二数据中位于所述第二部分左侧且与所述第二部分相邻;将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value;查找与所述第二数据对应的键值对中的key对应的消重集合,如果查找到,则在查找到的消重集合中查找与所述第二数据对应的键值对中的value相同的元素,如果未查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第二数据对应的键值对中的value作为元素放入查找到的消重集合中;如果查找到与所述第二数据对应的键值对中的value相同的元素,则将所述第一数据标识为重复数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:如果未查找到与所述第二数据对应的键值对中的key对应的消重集合,则建立与所述第二数据对应的键值对中的key对应的消重集合,将所述第二数据对应的键值对中的value作为元素放入与所述第二数据对应的键值对中的key对应的消重集合中。3.根据权利要求1或2所述的方法,其特征在于,在所述根据预设的划分比例,将所述第二数据划分为第一部分和第二部分后,所述方法还包括:确定所述第一数据的对应的业务标识,在所述第一部分前插入确定的所述业务标识;所述将所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述第一部分用作键key,所述第二部分用作值value,包括:将所述业务标识、所述第一部分和第二部分构成的键值对确定为与所述第二数据对应的键值对,其中,所述业务标识和所述第一部分一起用作键key,所述第二部分用作值value。4.根据权利要求1所述的方法,其特征在于,所述根据预设的划分比例,将所述第二数据划分为第一部分和第二部分,包括:根据预设的划分比例1:3,将所述第二数据的前1/4划分为第一部分,将所述第二数据的后3/4划分为第二部分。5.根据权利要求1所述的方法,其特征在于,所述将待消重的第一数据转换为固定长度的第二数据,包括:使用64位循环冗余校验CRC算法或消息摘要算法第五版MD5将待消重的第一数据转换为固定长度的第二数据。6.一种数据消重装置,其特征在于,包括:数据转换单元、数据划分单元、键值对确定单元、集合查找单元、元素...
【专利技术属性】
技术研发人员:李天与,刘海龙,
申请(专利权)人:北京搜狐新媒体信息技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。