一种基于海量数据的网络行为识别方法及装置制造方法及图纸

技术编号:18350263 阅读:53 留言:0更新日期:2018-07-01 23:22
本发明专利技术公开了一种基于海量数据的网络行为识别方法及装置。本方法为:1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User‑Agent内容;2)根据User‑Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据提取规则从原始数据中提取位置信息;3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储;4)统计存储的有效数据,如果同一记录i对应的有效数据不唯一,则判断该记录i对应的有效数据中的位置信息在tableL表中存在的个数C,其中,tableL表为存储目标网络行为位置信息的数据表;若C超过设定阈值,则判断具有目标网络行为。

【技术实现步骤摘要】
一种基于海量数据的网络行为识别方法及装置
:本专利技术涉及网络安全及大数据处理领域,尤其涉及一种基于海量数据的网络行为识别方法及装置。
技术介绍
:随着互联网的高速发展,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素,伴随而来的是人类可以分析和处理的海量数据。海量数据科学将成为一门专门的学科,被越来越多的人所认知。数据在人们生活中所扮演的角色,也愈来愈重要。在中型以上的城市,如北京、上海、深圳等,网民的网络行为中产生的各类数据已经超过PB级,1PB足够存储整个美国人口的DNA,而且还能再克隆2倍。LBS(LocationBasedServices):又称基于位置的服务,它是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部DXXW方式(如GPS)及其他DXXW手段获取移动终端用户的位置信息(地理坐标,或大地坐标),在GIS(GeographicInformationSystem,地理信息系统)平台的支持下,为用户提供相应服务的一种增值业务。基于LBS的服务业务在大数据处理得到了蓬勃地发展,各种开放式API得到了广泛的使用。如Google,就为用户提供了开放式的API服务。注册用户可以根据不同的需要来使用对应的服务,如通过IP查寻经纬度、通过WIFIMAC地址查寻、通过手机基站信息查寻地址、通过经纬度查寻地址、通过地址查寻经纬度等服务。同时,各个行业的基于LBS的业务也在蓬勃开展。在进行海量数据处理,尤其是在海量数据中提取位置信息,目前进行全文检索提取相关数据信息的算法一般是采用各种分词技术。
技术实现思路
:本专利技术提供一种基于海量数据的网络行为识别方法及装置,便于民警对网民、网站行为进行监督和规范。第一方面,本专利技术实施例提供了一种基于海量数据的网络行为识别方法,包括:从全文数据库系统TRS中提取原始数据。从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取需要的应用信息。根据所述应用信息中的URL信息,按照自定义正则表达式,计算出提取规则编号。在预先设定的规则数据库中提取与计算所得编号对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息。将所述位置信息与所述公共字段以数组的形式合并为一对多有效数据,在此组成的有效数据将在区别行为编号中使用。将所述有效数据输出到业务数据库和/或bcp文件。如果在数据中查询到编号为“XXX”的记录不唯一,则读取出对应的所有提取规则字段内容,并根据其中的内容计算出对应的位置信息数组L[n],从L[0]到L[n-1],用位置信息做查询,selectcount(*)fromtableLwhereL[n]intableL。查询L[n]数组中在tableL表中存在的个数C,tableL为存储目标网络行为位置信息的数据表。当C超过了客户设定的值C0,则可判断具有目标网络行为。C0可以由客户设定,大于0的任意值。第二方面,本专利技术实施例还提供了一种基于海量数据的目标网络行为识别装置,其特征在于,包括:原始数据提取模块,用于从全文数据库系统TRS中提取原始数据;应用信息获取模块,用于从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息;位置信息提取模块,用于根据所述应用信息在预先设定的规则数据库中提取与所述应用信息对应的提取规则,并根据所述提取规则从所述原始数据中提取位置信息;有效数据合并模块,用于将所述位置信息与所述公共字段合并为有效数据;有效数据输出模块,用于将所述有效数据输出到业务数据库和/或bcp文件。网络行为识别模块,用于统计存储的有效数据,如果同一记录i对应的有效数据不唯一,则判断该记录i对应的有效数据中的位置信息在tableL表中存在的个数C,其中,tableL表为存储目标网络行为位置信息的数据表;若C超过设定阈值,则判断具有目标网络行为。与现有技术相比,本专利技术的积极效果为:本专利技术通过从全文数据库系统TRS中提取原始数据,并根据从提取的原始数据中提取的应用信息,在预先设定的规则数据库中提取与所述应用信息对应的提取规则,使用所述提取规则从所述原始数据中提取位置信息,解决了现有技术全文检索提取位置信息缓慢、效率低下的问题,实现了在海量数据中高效的、较精确提取位置信息的效果,告别了以往提取位置信息耗时长,且计算得出位置不准确的局面。本专利技术具有定位效率更高、位置更为精确的特点。数据处理方面,对提取得到的位置数据,根据规则计算出编号并选择,在对应的行为数据库中进行匹配。例如,进行计算后得到编号“XXX”,如果得到的提取规则为空,则得到的该条记录无效;则在对应的行为数据库中查询找到编号为“XXX”的唯一记录,并读取出对应的提取规则字段,字段内容为一个正则表达式“x=a?y”。根据得到的正则表达式,计算出对应的位置信息L。如果在数据中查询到编号为“XXX”的记录不唯一,则读取出对应的所有提取规则字段内容,并根据其中的内容计算出对应的位置信息数组L[n],从L[0]到L[n-1],用位置信息做查询,selectcount(*)fromtableLwhereL[n]intableL。查询L[n]数组中在tableL表中存在的个数C,tableL为存储目标网络行为位置信息的数据表。当C超过了客户设定的值C0,则可判断具有目标网络行为。C0可以由客户设定,大于0的任意值。附图说明:图1为本专利技术实施例一提供的目标网络行为发现方法的流程图;图2为本专利技术实施例二提供的一种基于海量数据的位置信息提取方法的流程图;图3为本专利技术实施例二提供的一种基于海量数据的位置信息提取方法的算法流程图;图4为本专利技术实施例二提供的根据在预先设定的规则数据库中提取的与应用信息对应的提取规则,从原始数据中提取位置信息的算法流程图;图5为本专利技术实施例三提供的数据库管理示意图;图6为本专利技术实施例四提供的一种基于海量数据的位置信息提取装置的结构示意图;图7为本专利技术实施例四提供的基于海量数据的位置信息提取装置的整体数据流示意图。具体实现方式:下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种基于海量数据的位置信息提取方法的流程图,该方法可以由基于海量数据的位置信息提取装置来执行,该装置可通过硬件和/或软件的方式实现,并一般可集成于WEB服务器中,或作为WEB服务器端的子程序,具体包括如下操作:110、从全文数据库系统TRS中提取原始数据;其中,TRS是一个面向文本数据的数据库管理系统,广泛应用于各种信息数据库、信息门户的建设,能够对异构海量数据统一管理,同时支持结构化数据和非结构化数据,支持多种数据类型(如日期、字符串、短语、文档和二进制多媒体类型)。从全文数据库系统TRS中提取原始数据,例如,从TRS提取并计算数据。120、从提取的原始数据中提取公共字段和用户代理User-Agent内容,并从所述User-Agent内容获取应用信息进行计算并判断;其中,原始数据中的公共字段包括:数据ID,设备本文档来自技高网...
一种基于海量数据的网络行为识别方法及装置

【技术保护点】
1.一种基于海量数据的网络行为识别方法,其步骤为:1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User‑Agent内容;2)根据所述User‑Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据所述提取规则从所述原始数据中提取位置信息;3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储;4)统计步骤3)存储的有效数据,如果同一记录i对应的有效数据不唯一,则判断该记录i对应的有效数据中的位置信息在tableL表中存在的个数C,其中,tableL表为存储目标网络行为位置信息的数据表;若C超过设定阈值,则判断具有目标网络行为。

【技术特征摘要】
1.一种基于海量数据的网络行为识别方法,其步骤为:1)从全文数据库系统中提取原始数据,并从提取的原始数据中提取公共字段和用户代理User-Agent内容;2)根据所述User-Agent内容中的应用信息在预先设定的规则数据库中查询对应的提取规则,然后根据所述提取规则从所述原始数据中提取位置信息;3)将每一原始数据的所述位置信息与所述公共字段作为一有效数据进行存储;4)统计步骤3)存储的有效数据,如果同一记录i对应的有效数据不唯一,则判断该记录i对应的有效数据中的位置信息在tableL表中存在的个数C,其中,tableL表为存储目标网络行为位置信息的数据表;若C超过设定阈值,则判断具有目标网络行为。2.如权利要求1所述的方法,其特征在于,根据所述User-Agent内容中的应用信息计算出提取规则编号;然后在预先设定的规则数据库中提取该提取规则编号对应的提取规则。3.如权利要求2所述的方法,其特征在于,原始数据中的每一记录对应一提取规则,记录与提取规则之间通过编号对应。4.如权利要求1或2或3所述的方法,其特征在于,当所述预先设定的规则数据库中不包含与所述应用信息对应的提取规则时,使用公知通用规则从所述原始数据中提取位置信息。5.如权利要求1或2或3所述的方法,其特征在于,将所述位置信息与所述公共字段以数组的形式合并为一对多有效数据;所述公共字段包括:数据ID、设备ID、目的端口和时间戳。6.一种基于海量数据的网络行为识别装置,其特征在于,包括原始数据提取模块,用于...

【专利技术属性】
技术研发人员:兰烨刘立兰王涛刘卓王海磊王正伟王会娟田川焦林
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1