数据过滤方法及装置制造方法及图纸

技术编号:24251646 阅读:17 留言:0更新日期:2020-05-22 23:37
本发明专利技术公开了一种数据过滤方法及装置。其中,该方法包括:确定数据的类型,其中,数据的类型包括数据保持不变的静态数据和数据会在不同条件下发生变化的动态数据;在数据为动态数据的情况下,根据动态数据生成第一临时过滤规则;根据第一临时过滤规则,对动态数据进行过滤。本发明专利技术解决了相关技术中的过滤方式,效率低下,严重依赖人工的技术问题。

Data filtering method and device

【技术实现步骤摘要】
数据过滤方法及装置
本专利技术涉及数据处理领域,具体而言,涉及一种数据过滤方法及装置。
技术介绍
网络爬虫是一种按照设定的规则,自动抓取网络内容的程序,目前已广泛地应用于互联网领域。根据使用场景的不同,网络爬虫可分为通用爬虫和聚焦爬虫。通用爬虫主要用于通用搜索引擎中,从互联网中搜集网页,采集信息,并将这些信息用于为搜索引擎建立索引并提供支持。其追求的是尽可能大的网络覆盖率,一次爬取的URL往往数以亿计,其技术难点是如何将这些URL有效地压缩存储与快速检索,过滤掉重复连接,从而避免重复爬取造成网络资源的浪费,常用的技术有基于Hash算法、MD5压缩映射以及布隆过滤器的存储技术。聚焦爬虫则是针对特定网络资源的爬虫,与通用爬虫最大的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理和筛选,尽量保证只抓取与需求相关的信息。以漏扫爬虫为例,它聚焦的网络资源主要是页面上的URL信息。如果像通用爬虫那样对URL的直接去重,不仅仅会浪费爬虫资源,也会浪费后续的检测资源。因而需要对URL进行更深层次的逻辑去重。相关技术主要是人工检查站点连接,设定匹配的过滤条件。该方法效率低下,且过滤规则的有效性严重依赖检查者的从业经验。针对上述的问题,目前业界尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种数据过滤方法及装置,以至少解决相关技术中的过滤方式,效率低下,严重依赖人工的技术问题。根据本专利技术实施例的一个方面,提供了一种数据过滤方法,包括:确定数据的类型,其中,所述数据的类型包括数据保持不变的静态数据和数据会在不同条件下发生变化的动态数据;在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则;根据所述第一临时过滤规则,对所述动态数据进行过滤。可选的,根据所述动态数据生成第一临时过滤规则包括:提取所述动态数据中的动态部分信息,其中,所述动态数据包括保持不变的静态部分和发生变化的动态部分;识别所述动态部分信息的参数特征,划分参数类型;对不同参数类型的动态数据进行不同的处理,以确定所述参数类型对应的第一临时过滤规则。可选的,所述动态数据的参数类型包括控制型参数和数据型参数,其中,所述控制型参数是能够对代码逻辑造成影响的数据,数据型参数是作为数据使用,不影响代码逻辑的操作数;对不同参数类型的动态数据进行不同的处理,以确定所述参数类型对应的第一临时过滤规则包括:根据所述控制型参数,确定所述控制型参数对应的第一临时过滤规则;对所述数据型参数进行泛化处理,确定所述数据型参数对应的第一临时过滤规则。可选的,在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则之后,还包括:将所述第一临时过滤规则存储在临时过滤规则库中;在对所述数据进行筛选的过程中,记录所述第一临时过滤规则的命中次数;在所述第一临时过滤规则的命中次数超过预设值的情况下,将所述第一临时过滤规则作为正式过滤规则。可选的,在所述数据为静态数据的情况下,判断所述静态数据是否为具有历史过滤数据中出现预设频率以上的数据结构的常规数据,在所述静态数据为常规数据的情况下,调用正式过滤规则对所述常规数据进行过滤;在所述静态数据为非常规数据的情况下,根据所述非常规数据生成第二临时过滤规则;根据所述第二临时过滤规则对所述非常规数据进行过滤。可选的,根据所述非常规数据生成第二临时过滤规则包括:提取所述静态数据的文件名;识别所述文件名中的文件名特征;根据所述文件名特征,确定所述第二临时过滤规则。可选的,在所述静态数据为常规数据的情况下,调用正式过滤规则对所述常规数据进行过滤,在所述正式过滤规则对所述常规数据进行过滤失败的情况下,根据所述常规数据提取第三临时过滤规则;根据所述第三临时过滤规则对所述常规数据进行过滤。根据本专利技术实施例的另一方面,还提供了一种数据过滤装置,包括:确定模块,用于确定数据的类型,其中,所述数据的类型包括静态数据和动态数据;生成模块,用于在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则;过滤模块,用于根据所述第一临时过滤规则,对所述动态数据进行过滤。根据本专利技术实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述数据过滤方法。根据本专利技术实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项数据过滤方法。在本专利技术实施例中,采用确定数据的类型,其中,数据的类型包括数据保持不变的静态数据和数据会在不同条件下发生变化的动态数据;在数据为动态数据的情况下,根据动态数据生成第一临时过滤规则;根据第一临时过滤规则,对动态数据进行过滤的方式,通过对不同数据类型的数据进行不同的过滤方式,对动态数据生成临时过滤规则进行过滤,达到了有效对各种数据类型的数据进行有效过滤的目的,从而实现了提高了过滤效率的技术效果,进而解决了相关技术中的过滤方式,效率低下,严重依赖人工技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种数据过滤方法的流程图;图2是根据本专利技术实施方式的动态URL临时过滤规则提取的流程图;图3是根据本专利技术实施方式的静态URL临时过滤规则提取的流程图;图4是根据本专利技术实施方式的临时过滤规则过滤的流程图;图5是根据本专利技术实施方式的正式过滤规则过滤的流程图;图6是根据本专利技术实施方式的过滤装置的示意图;图7是根据本专利技术实施例的一种数据过滤装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本专利技术实施例,提供了一种数据过滤方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同本文档来自技高网
...

【技术保护点】
1.一种数据过滤方法,其特征在于,包括:/n确定数据的类型,其中,所述数据的类型包括数据保持不变的静态数据和数据会在不同条件下发生变化的动态数据;/n在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则;/n根据所述第一临时过滤规则,对所述动态数据进行过滤。/n

【技术特征摘要】
1.一种数据过滤方法,其特征在于,包括:
确定数据的类型,其中,所述数据的类型包括数据保持不变的静态数据和数据会在不同条件下发生变化的动态数据;
在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则;
根据所述第一临时过滤规则,对所述动态数据进行过滤。


2.根据权利要求1所述的方法,其特征在于,根据所述动态数据生成第一临时过滤规则包括:
提取所述动态数据中的动态部分信息,其中,所述动态数据包括保持不变的静态部分和发生变化的动态部分;
识别所述动态部分信息的参数特征,划分参数类型;
对不同参数类型的动态数据进行不同的处理,以确定所述参数类型对应的第一临时过滤规则。


3.根据权利要求2所述的方法,其特征在于,所述动态数据的参数类型包括控制型参数和数据型参数,其中,所述控制型参数是能够对代码逻辑造成影响的数据,数据型参数是为数据使用,不影响代码逻辑的操作数;
对不同参数类型的动态数据进行不同的处理,以确定所述参数类型对应的第一临时过滤规则包括:
根据所述控制型参数,确定所述控制型参数对应的第一临时过滤规则;
对所述数据型参数进行泛化处理,确定所述数据型参数对应的第一临时过滤规则。


4.根据权利要求1所述的方法,其特征在于,在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则之后,还包括:
将所述第一临时过滤规则存储在临时过滤规则库中;
在对所述数据进行筛选的过程中,记录所述第一临时过滤规则的命中次数;
在所述第一临时过滤规则的命中次数超过预设值的情况下,将所述第一临时过滤规则作为正式过滤规则。


5.根据权利要求...

【专利技术属性】
技术研发人员:蒋自立贺志强许勇
申请(专利权)人:山石网科通信技术股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1