数据去重方法及装置制造方法及图纸

技术编号:11740277 阅读:272 留言:0更新日期:2015-07-16 00:10
本发明专利技术实施例公开了一种数据去重方法及装置,其中方法包括:向采集设备发送数据采集请求,以使所述采集设备从网络上采集数据,所述数据为网络数据包或通信信令;接收所述采集设备发送的第一数据;检测缓存中是否存有所述第一数据,若存有所述第一数据,则将所述第一数据丢弃,若未存有所述第一数据,则将所述第一数据插入缓存。本发明专利技术实施例只需要存储一份数据就可以完成去重,不仅能够达到数据去重的目的,而且节约了系统资源。

【技术实现步骤摘要】

本专利技术实施例涉及计算机
,尤其涉及一种数据去重方法及装置
技术介绍
随着计算机和通信技术的发展,网络的应用迅速普及,已日益成为成活中不可或 缺的工具。与此同时,为了网络安全和服务的需要,需要对网络数据进行采集分析。由于网 络设计和采集方案的原因,采集到的数据往往有大量重复数据,这对后续的存储和分析造 成重大影响。因此,实际应用中会在存储和分析前对数据进行去重操作。 现有技术中常用的数据去重方法为双哈希法,在双哈希法去重处理过程中,主要 包括数据处理流程和辅助处理流程,数据处理流程主要包括如下步骤: 步骤101a、创建两张相同的hash表,命名为哈希表1 (hi)和哈希表2(h2)。 步骤102a、当t时间有数据d到来时,先在hi和h2中查找是否存在d的MD5值, 如果存在,则执行步骤103,如果不存在,则执行步骤104。 步骤103a、确定d为重复数据,将其丢弃。 步骤104a、将MD5值插入hi和h2中。 辅助处理流程主要包括如下步骤: 步骤101b、初始化hi和h2。 步骤l〇2b、当时间到达超时时间的二分之一时,清空hi。 步骤l〇3b、当时间到达超时时间时,清空h2清空。重复循环上述步骤。 但是,上述双哈希算法操作以下不足: 1、相同的数据会同时保存到hi和h2中,造成资源的浪费; 2、需要额外的辅助线程对hi和h2中的数据进行清空,造成系统资源浪费。
技术实现思路
有鉴于此,本专利技术实施例提供一种数据去重方法及装置,以优化现有的数据去重 方法,只需要存储一份数据就可完成去重,节约了系统资源。 在第一方面,本专利技术实施例提供了一种数据去重方法,包括: 向采集设备发送数据采集请求,以使所述采集设备从网络上采集数据,所述数据 为网络数据包或通信信令; 接收所述采集设备发送的第一数据; 检测缓存中是否存有所述第一数据,若存有所述第一数据,则将所述第一数据丢 弃,若未存有所述第一数据,则将所述第一数据插入缓存。 在第二方面,本专利技术实施例提供了数据去重装置,包括: 发送模块,用于向采集设备发送数据采集请求,以使所述采集设备从网络上采集 数据,所述数据为网络数据包或通信信令; 接收模块,用于接收所述采集设备发送的第一数据; 检测模块,用于检测缓存中是否存有所述第一数据; 丢弃模块,用于若检测模块检测缓存中存有所述第一数据,则将所述第一数据丢 弃; 插入模块,用于若检测模块检测缓存中未存有所述第一数据,则将所述第一数据 插入缓存。 本专利技术实施例通过向采集设备发送数据采集请求,以使所述采集设备从网络上采 集数据,并接收所述采集设备发送的第一数据,检测缓存中是否存有所述第一数据,若存有 所述第一数据,则将所述第一数据丢弃,若未存有所述第一数据,则将所述第一数据插入缓 存,只需要存储一份数据就可完成去重,不仅能够达到数据去重的目的,而且节约了系统资 源。【附图说明】 图1是本专利技术第一实施例提供的一种数据去重方法的流程示意图; 图2是本专利技术第二实施例提供的一种数据去重方法的流程示意图; 图3是本专利技术第三实施例提供的一种数据去重方法的流程示意图; 图4是本专利技术第四实施例提供的一种数据去重装置的结构示意图。【具体实施方式】 为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术具体实 施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术, 而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关 的部分而非全部内容。 本专利技术实施例的方法可以由数据去重装置来执行,该装置可通过硬件和/或软件 的方式实现。 第一实施例 图1是本专利技术第一实施例提供的一种数据去重方法的流程示意图,如图1所示,包 括如下步骤: 步骤101、向采集设备发送数据采集请求,以使所述采集设备从网络上采集数据, 所述数据为网络数据包或通信信令。 其中,数据采集请求中包含采集数据的目标地址,例如IP地址,采集设备根据所 述目标地址从网络上采集数据。其中,所述采集数据可以为网络数据包、或通信信令、或数 据文件。 其中,数据采集请求中可以包含多个不同的目标地址,采集设备根据所述目标地 址依次从不同的网络上获取数据。 步骤102、接收所述采集设备发送的第一数据。 这里,为了区分本专利技术实施例中前后出现的不同的采集数据,将在本文中首次出 现的采集数据称为第一数据,将后续出现的采集数据称为第二数据。 其中,第一数据为采集数据的一部分,可以为一个数据,还可以由多个数据组成, 这里,优选为一个数据。在接收所述采集设备发送的第一数据之后,将所述第一数据放置在 缓存中。 步骤103、检测缓存中是否存有所述第一数据。 具体的,检测缓存中是否存有所述第一数据,若缓存中存有所述第一数据,则执行 步骤104,若缓存中未存有所述第一数据,则步骤105。 步骤104、将所述第一数据丢弃。 具体的,若缓存中存有所述第一数据,则说明该第一数据为重复数据,将其丢弃。 步骤105、将所述第一数据插入缓存。 具体的,若缓存中存有所述第一数据,则说明该第一数据为非重复数据,将其插入 缓存,以备与后续接收的采集数据进行比较。 示例性的,所述检测缓存中是否存有所述第一数据,包括: 检测缓存中的第一数据结构中是否存有所述第一数据,所述第一数据结构用来保 存数据和指向第二数据结构中与所述数据对应节点的指针,所述第二数据结构用来保存指 向第一数据结构中的数据的指针和数据到达缓存的时间; 所述将所述第一数据丢弃之后,还包括: 更新所述第二数据结构中所述第一数据对应的数据到达缓存的时间; 所述将所述第一数据插入缓存,包括: 将所述第一数据插入第一数据结构中,并将所述第一数据对应的数据到达缓存的 时间插入第二数据结构中。 例如,可以在缓存中设置数据结构,其中第一数据结构用来保存数据和指向第二 数据结构中的数据对应时间节点的指针,第二数据结构用来保存指向数据的指针及数据到 达缓存的时间,其中,数据到达缓存的时间按照先后顺序组织排序,以保证后续扫描再缓当前第1页1 2 本文档来自技高网...
数据去重方法及装置

【技术保护点】
一种数据去重方法,其特征在于,包括:向采集设备发送数据采集请求,以使所述采集设备从网络上采集数据,所述数据为网络数据包或通信信令;接收所述采集设备发送的第一数据;检测缓存中是否存有所述第一数据,若存有所述第一数据,则将所述第一数据丢弃,若未存有所述第一数据,则将所述第一数据插入缓存。

【技术特征摘要】

【专利技术属性】
技术研发人员:陶小龙
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1