【技术实现步骤摘要】
数据过滤方法及装置
本专利技术涉及数据处理领域,具体而言,涉及一种数据过滤方法及装置。
技术介绍
网络爬虫是一种按照设定的规则,自动抓取网络内容的程序,目前已广泛地应用于互联网领域。根据使用场景的不同,网络爬虫可分为通用爬虫和聚焦爬虫。通用爬虫主要用于通用搜索引擎中,从互联网中搜集网页,采集信息,并将这些信息用于为搜索引擎建立索引并提供支持。其追求的是尽可能大的网络覆盖率,一次爬取的URL往往数以亿计,其技术难点是如何将这些URL有效地压缩存储与快速检索,过滤掉重复连接,从而避免重复爬取造成网络资源的浪费,常用的技术有基于Hash算法、MD5压缩映射以及布隆过滤器的存储技术。聚焦爬虫则是针对特定网络资源的爬虫,与通用爬虫最大的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理和筛选,尽量保证只抓取与需求相关的信息。以漏扫爬虫为例,它聚焦的网络资源主要是页面上的URL信息。如果像通用爬虫那样对URL的直接去重,不仅仅会浪费爬虫资源,也会浪费后续的检测资源。因而需要对URL进行更深层次的逻辑去重。 ...
【技术保护点】
1.一种数据过滤方法,其特征在于,包括:/n确定数据的类型,其中,所述数据的类型包括数据保持不变的静态数据和数据会在不同条件下发生变化的动态数据;/n在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则;/n根据所述第一临时过滤规则,对所述动态数据进行过滤。/n
【技术特征摘要】
1.一种数据过滤方法,其特征在于,包括:
确定数据的类型,其中,所述数据的类型包括数据保持不变的静态数据和数据会在不同条件下发生变化的动态数据;
在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则;
根据所述第一临时过滤规则,对所述动态数据进行过滤。
2.根据权利要求1所述的方法,其特征在于,根据所述动态数据生成第一临时过滤规则包括:
提取所述动态数据中的动态部分信息,其中,所述动态数据包括保持不变的静态部分和发生变化的动态部分;
识别所述动态部分信息的参数特征,划分参数类型;
对不同参数类型的动态数据进行不同的处理,以确定所述参数类型对应的第一临时过滤规则。
3.根据权利要求2所述的方法,其特征在于,所述动态数据的参数类型包括控制型参数和数据型参数,其中,所述控制型参数是能够对代码逻辑造成影响的数据,数据型参数是为数据使用,不影响代码逻辑的操作数;
对不同参数类型的动态数据进行不同的处理,以确定所述参数类型对应的第一临时过滤规则包括:
根据所述控制型参数,确定所述控制型参数对应的第一临时过滤规则;
对所述数据型参数进行泛化处理,确定所述数据型参数对应的第一临时过滤规则。
4.根据权利要求1所述的方法,其特征在于,在所述数据为动态数据的情况下,根据所述动态数据生成第一临时过滤规则之后,还包括:
将所述第一临时过滤规则存储在临时过滤规则库中;
在对所述数据进行筛选的过程中,记录所述第一临时过滤规则的命中次数;
在所述第一临时过滤规则的命中次数超过预设值的情况下,将所述第一临时过滤规则作为正式过滤规则。
5.根据权利要求...
【专利技术属性】
技术研发人员:蒋自立,贺志强,许勇,
申请(专利权)人:山石网科通信技术股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。