一种数据过滤方法及装置制造方法及图纸

技术编号:15329873 阅读:72 留言:0更新日期:2017-05-16 13:27
本发明专利技术实施例提供了一种数据过滤方法及装置,获得待过滤数据后,为所述待过滤数据中的每一条数据的各个字段分配标识,根据所述待过滤数据,实时生成识别特征,所述识别特征包括字段和字段的标识,然后对所述待过滤数据进行多次过滤,其中,多次过滤中至少包括一次实时黑名单过滤方式,实时黑名单过滤方式为根据实时生成的所述识别特征,过滤所述待过滤数据;多次过滤中还可以包括多种其他方式的过滤方式;本发明专利技术实施例不需要预先设定好过滤条件,能够根据待过滤数据,实时的生成识别特征,用来作为过滤条件来过滤待过滤数据,使得过滤更加高效准确,并且具有实时性。

Data filtering method and device

The embodiment of the invention provides a device and a method for filtering data, get data after filtering, for each field distribution of each data identifier for the filter data, according to the filtering data, real-time generation of feature recognition, the recognition features including field and field identification, and then repeatedly the filter to be filtered data among multiple filtering including at least a real-time blacklist filtering, real-time blacklist filtering is based on the identification features of real-time generation, filtering the filtering data; multiple filtering can also include filtering a variety of other ways; the embodiment of the invention does not need preset filter conditions can according to filter data, generating feature recognition in real time, used as a filter to filter to filter the data that filter It is efficient, accurate and real-time.

【技术实现步骤摘要】
一种数据过滤方法及装置
本专利技术涉及计算机
,特别是涉及一种数据过滤方法及装置。
技术介绍
随着计算机技术和互联网技术的快速发展,每天都有海量的各种数据产生、传递或保存。然而,在海量的数据中,经常会出现许多垃圾数据,例如各种大量的重复数据,以及各类的恶意攻击数据等等。大量的数据容易造成服务器效率低下,尤其是大量的恶意攻击数据或者大量的刷量数据,比如,视频网站中的个别视频通过非正常手段刷高播放量等,还会造成视频网站运营商的各种纠纷。所以,数据过滤显得愈发重要。现有技术中的数据过滤方法,都需要预先设定过滤条件,当待过滤的数据满足预先设定的过滤条件时,将该数据舍弃。预先设定的过滤条件,并根据固定的预先设定的过滤条件过滤待过滤数据,无法应对数据的快锁变化,从而导致了过滤效果不好,过滤不准确。
技术实现思路
本专利技术实施例的目的在于提供一种数据过滤方法及装置,根据待过滤数据的数据特征,实时生成识别特征,用来识别需要过滤掉的数据,不需要预先设定过滤条件,识别特征能够进行及时的调整,增强了过滤效果,提高了过滤的准确性。具体技术方案如下:本专利技术实施例公开了一种数据过滤方法,包括:获得待过滤数据;为所述待过滤数据中的每一条数据的各个字段分配标识,所述标识用于区分不同类型的字段,同一类型的字段为相同的标识;根据所述待过滤数据,实时生成识别特征,所述识别特征包括字段和字段的标识,所述识别特征用于识别所述待过滤数据中需要过滤掉的数据;对所述待过滤数据进行多次过滤,所述多次过滤中至少包括一次实时黑名单过滤方式,所述实时黑名单过滤方式为根据实时生成的所述识别特征,过滤所述待过滤数据。可选的,所述获得待过滤数据,包括:获得原始数据;通过适配器将所述原始数据格式化,获得所述待过滤数据;其中,所述适配器,包括:预设适配器和自定义适配器,所述自定义适配器为通过第三方接口,应用类加载器和Java反射机制,注册的自定义适配器。可选的,所述根据所述待过滤数据,实时生成识别特征,包括:检测所述待过滤数据中的每一条数据的各个字段,在一个或多个预设时间段内的出现频率;当所述一个或多个字段在任意一个预设时间段内的出现频率,大于或等于针对所述预设时间段预设的阈值时,将所述一个或多个字段和所述一个或多个字段的标识,作为所述识别特征。可选的,所述检测所述待过滤数据中的每一条数据的各个字段,在一个或多个预设时间段内的出现频率,包括:并行检测所述待过滤数据中的每一条数据的各个字段,在不同的预设时间段内的出现频率。可选的,所述在根据所述待过滤数据,实时生成识别特征之后,所述方法还包括:将所述识别特征中所有的字段,作为实时黑名单,并将所述实时黑名单保存至预设数据库中。可选的,所述实时黑名单过滤方式,包括:根据所述识别特征中所有的字段的标识,获得所述待过滤数据中,含有所述标识对应的字段的数据;将所述数据与所述预设数据库中所述黑名单中的字段进行匹配;当所述数据中,包含有所述黑名单中的字段时,舍弃所述数据。可选的,所述对所述待过滤数据进行多次过滤,包括:以第N层过滤方式对所述待过滤数据过滤进行过滤,得到第N层过滤结果,所述第N层过滤方式为实时黑名单过滤、规则表达式过滤、数据字典过滤、离线黑名单过滤及第三方黑名单过滤中的一种方式;以第N+1层过滤方式对所述第N层过滤结果进行过滤,得到第N+1层过滤结果,所述第N+1层过滤方式为实时黑名单过滤、规则表达式过滤、数据字典过滤、离线黑名单过滤及第三方黑名单过滤中的一种方式,且与所述第N层过滤方式不同;其中,所述N为大于或等于1的自然数;所述规则表达式过滤方式为当所述待过滤数据中的数据不满足预设的正则表达式或客户端脚本语言表达式时,舍弃所述数据;所述数据字典过滤方式为当所述待过滤数据中的数据,不满足数据字典中的数据范围时,舍弃所述数据;所述离线黑名单过滤方式为获得离线识别特征,将所述待过滤数据中的数据逐条匹配所述离线识别特征,当所述待过滤数据中的数据满足所述离线识别特征,舍弃所述数据;所述第三方黑名单过滤方式为获得第三方识别特征,将所述待过滤数据中的数据逐条匹配所述第三方识别特征,当所述待过滤数据中的数据满足所述第三方识别特征,舍弃所述数据。可选的,所述方法还包括:监测每一层过滤方式之前所述待过滤数据的第一数据量;监测所述每一层过滤方式之后的过滤结果的第二数据量;获得所述第一数据量和所述第二数据量的数据量差值;根据所述数据量差值,判断每一层过滤方式的过滤效率。本专利技术实施例还公开了一种数据过滤装置,包括:获取模块,用于获得待过滤数据;标识模块,用于为所述待过滤数据中的每一条数据的各个字段分配标识,所述标识用于区分不同类型的字段,同一类型的字段为相同的标识;生成模块,用于根据所述待过滤数据,实时生成识别特征,所述识别特征包括字段和字段的标识,所述识别特征用于识别所述待过滤数据中需要过滤掉的数据;过滤模块,用于对所述待过滤数据进行多次过滤,所述多次过滤中至少包括一次实时黑名单过滤方式,所述实时黑名单过滤方式为根据实时生成的所述识别特征,过滤所述待过滤数据。可选的,所述获取模块,具体用于,获取原始数据,通过适配器将所述原始数据格式化,获得所述待过滤数据;其中,所述适配器,包括:预设适配器和自定义适配器,所述自定义适配器为通过第三方接口,应用类加载器和Java反射机制,注册的自定义适配器。可选的,所述生成模块,具体用于,检测所述待过滤数据中的每一条数据的各个字段,在一个或多个预设时间段内的出现频率;当所述一个或多个字段在任意一个预设时间段内的出现频率,大于或等于针对所述预设时间段预设的阈值时,将所述一个或多个字段和所述一个或多个字段的标识,作为所述识别特征。可选的,所述生成模块,具体还用于,并行的检测所述待过滤数据中的每一条数据的各个字段,在不同的预设时间段内的出现频率。可选的,所述装置还包括:实时黑名单模块,用于将所述识别特征中所有的字段,作为实时黑名单,并将所述实时黑名单保存至预设数据库中。可选的,所述过滤模块中的实时黑名单过滤方式,包括:根据所述识别特征中所有的字段的标识,获得所述待过滤数据中,含有所述标识对应的字段的数据;将所述数据与所述预设数据库中所述黑名单中的字段进行匹配;当所述数据中,包含有所述黑名单中的字段时,舍弃所述数据。可选的,所述过滤模块,具体用于,以第N层过滤方式对所述待过滤数据过滤进行过滤,得到第N层过滤结果,所述第N层过滤方式为实时黑名单过滤、规则表达式过滤、数据字典过滤、离线黑名单过滤及第三方黑名单过滤中的一种方式;以第N+1层过滤方式对所述第N层过滤结果进行过滤,得到第N+1层过滤结果,所述第N+1层过滤方式为实时黑名单过滤、规则表达式过滤、数据字典过滤、离线黑名单过滤及第三方黑名单过滤中的一种方式,且与所述第N层过滤方式不同;其中,所述N为大于或等于1的自然数;所述规则表达式过滤方式为当所述待过滤数据中的数据不满足预设的正则表达式或客户端脚本语言表达式时,舍弃所述数据;所述数据字典过滤方式为当所述待过滤数据中的数据,不满足数据字典中的数据范围时,舍弃所述数据;所述离线黑名单过滤方式为获得离线识别特征,将所述待过滤数据中的数据逐条匹配所述离线识别特征,当所述待过滤数据中的数据满足所述离线识别特征,本文档来自技高网...
一种数据过滤方法及装置

【技术保护点】
一种数据过滤方法,其特征在于,包括:获得待过滤数据;为所述待过滤数据中的每一条数据的各个字段分配标识,所述标识用于区分不同类型的字段,同一类型的字段为相同的标识;根据所述待过滤数据,实时生成识别特征,所述识别特征包括字段和字段的标识,所述识别特征用于识别所述待过滤数据中需要过滤掉的数据;对所述待过滤数据进行多次过滤,所述多次过滤中至少包括一次实时黑名单过滤方式,所述实时黑名单过滤方式为根据实时生成的所述识别特征,过滤所述待过滤数据。

【技术特征摘要】
1.一种数据过滤方法,其特征在于,包括:获得待过滤数据;为所述待过滤数据中的每一条数据的各个字段分配标识,所述标识用于区分不同类型的字段,同一类型的字段为相同的标识;根据所述待过滤数据,实时生成识别特征,所述识别特征包括字段和字段的标识,所述识别特征用于识别所述待过滤数据中需要过滤掉的数据;对所述待过滤数据进行多次过滤,所述多次过滤中至少包括一次实时黑名单过滤方式,所述实时黑名单过滤方式为根据实时生成的所述识别特征,过滤所述待过滤数据。2.根据权利要求1所述的方法,其特征在于,所述获得待过滤数据,包括:获得原始数据;通过适配器将所述原始数据格式化,获得所述待过滤数据;其中,所述适配器,包括:预设适配器和自定义适配器,所述自定义适配器为通过第三方接口,应用类加载器和Java反射机制,注册的自定义适配器。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述待过滤数据,实时生成识别特征,包括:检测所述待过滤数据中的每一条数据的各个字段,在一个或多个预设时间段内的出现频率;当所述一个或多个字段在任意一个预设时间段内的出现频率,大于或等于针对所述预设时间段预设的阈值时,将所述一个或多个字段和所述一个或多个字段的标识,作为所述识别特征。4.根据权利要求3所述的方法,其特征在于,所述检测所述待过滤数据中的每一条数据的各个字段,在一个或多个预设时间段内的出现频率,包括:并行检测所述待过滤数据中的每一条数据的各个字段,在不同的预设时间段内的出现频率。5.根据权利要求1所述的方法,其特征在于,所述在根据所述待过滤数据,实时生成识别特征之后,所述方法还包括:将所述识别特征中所有的字段,作为实时黑名单,并将所述实时黑名单保存至预设数据库中。6.根据权利要求5所述的方法,其特征在于,所述实时黑名单过滤方式,包括:根据所述识别特征中所有的字段的标识,获得所述待过滤数据中,含有所述标识对应的字段的数据;将所述数据与所述预设数据库中所述黑名单中的字段进行匹配;当所述数据中,包含有所述黑名单中的字段时,舍弃所述数据。7.根据权利要求1所述的方法,其特征在于,所述对所述待过滤数据进行多次过滤,包括:以第N层过滤方式对所述待过滤数据过滤进行过滤,得到第N层过滤结果,所述第N层过滤方式为实时黑名单过滤、规则表达式过滤、数据字典过滤、离线黑名单过滤及第三方黑名单过滤中的一种方式;以第N+1层过滤方式对所述第N层过滤结果进行过滤,得到第N+1层过滤结果,所述第N+1层过滤方式为实时黑名单过滤、规则表达式过滤、数据字典过滤、离线黑名单过滤及第三方黑名单过滤中的一种方式,且与所述第N层过滤方式不同;其中,所述N为大于或等于1的自然数;所述规则表达式过滤方式为当所述待过滤数据中的数据不满足预设的正则表达式或客户端脚本语言表达式时,舍弃所述数据;所述数据字典过滤方式为当所述待过滤数据中的数据,不满足数据字典中的数据范围时,舍弃所述数据;所述离线黑名单过滤方式为获得离线识别特征,将所述待过滤数据中的数据逐条匹配所述离线识别特征,当所述待过滤数据中的数据满足所述离线识别特征,舍弃所述数据;所述第三方黑名单过滤方式为获得第三方识别特征,将所述待过滤数据中的数据逐条匹配所述第三方识别特征,当所述待过滤数据中的数据满足所述第三方识别特征,舍弃所述数据。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:监测每一层过滤方式之前所述待过滤数据的第一数据量;监测所述每一层过滤方式之后的过滤结果的第二数据量;获得所述第一数据量和所述第二数据量的数据量差值;根据所述数据量差值,判断每一层过滤方式的过...

【专利技术属性】
技术研发人员:张晓明陈永环张迪赵冲翔
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1