网络流量采集方法、系统及服务器技术方案

技术编号:15624284 阅读:53 留言:0更新日期:2017-06-14 05:54
本发明专利技术涉及一种网络流量采集方法,其包括:接收数据流量,其中每条数据流量中包含一个或多个信息;将所述信息中的至少一个在判断策略库中查询;若有匹配的判断策略,则将对应的流量标识写入该条数据流量;和存储该条数据流量。本发明专利技术还涉及一种流量采集系统和流量采集服务器。

【技术实现步骤摘要】
网络流量采集方法、系统及服务器
本专利技术涉及通讯领域,特别是一种基于流量标识的网络流量采集方法。本专利技术还涉及一种流量采集系统,特别是一种流量采集服务器。
技术介绍
在互联网上每时每刻都在发生各种行为。通常的大数据的处理是将这些行为的数据采集之后再进行深入的计算、挖掘、机器学习,对数据进行扩充校验和清洗,然后存储以便日后使用。随着采集能力的提高,数据量经常是TB、PB级的。数据采集之后的运算压力非常大,对服务器、算法、网络环境的要求很高。目前的解决办法是增加服务器或是租用更多的云服务器。但这样会极大提高硬件维护成本,且可能受到云服务器提供商的制约。因此需要一种办法能够从根本上减轻运算压力,提高数据处理速度。
技术实现思路
为满足这一需求,专利技术人提供一种基于流量标识的网络流量采集方法,该方法通过在流量采集时给数据加载多层流量标识,简化后续处理时的运算,提高数据处理速度。根据本专利技术的第一方面,本专利技术提供一种网络流量采集方法,其包括:接收数据流量,其中每条数据流量中包含一个或多个信息;将所述信息中的至少一个在判断策略库中查询;若有匹配的判断策略,则将对应的流量标识写入该数据流量;存储数据流量。优选地,所述数据流量中的信息包括浏览器信息、设备信息、时间戳、ETag、Cookie、ID、IP地址、媒介标识、来源、软件信息、和时间中的一种或多种。优选地,所述判断策略库中判断策略所使用的信息包括浏览器信息、设备信息、时间戳、ETag、Cookie、ID、IP地址、媒介标识、来源、软件信息、和时间中的一种或多种。在本专利技术的一些实施例中,所述判断策略库是预设的。在本专利技术的一些实施例中,所述判断策略库是通过机器学习优化而来的。在本专利技术的一些实施例中,所述判断策略库包括预设的,和通过机器学习不断优化而来的。在本专利技术的一些实施例中,所述数据流量为日志。在本专利技术的一些实施例中,若未有匹配的判断策略,也存储该条流量数据。根据本专利技术的第二方面,本专利技术提供一种流量采集系统,其包括:流量采集模块,用于采集网络数据流量;判断模块,对每条数据流量中包含的信息进行判断,并返回对应的流量标识;流量标识写入模块,将判断模块返回的流量标识写入该条数据流量;流量存储模块,存储数据流量。在本专利技术的一些实施例中,所述判断策略定义了与包括浏览器信息、设备信息、时间戳、ETag、Cookie、ID、IP地址、媒介标识、来源、软件信息、和时间中的一种或多种信息对应的流量标识。在本专利技术的一些实施例中,所述系统还包括数据分析模块,通过统计、分析流量标识与具体行为的关系,优化判断模块中的判断策略。在本专利技术的一些实施例中,所述判断模块包括至少一个第一判断策略模块和至少一个第二判断策略模块,其中第一判断策略模块中的判断策略是预设的,第二判断策略模块中的判断策略是基于数据分析模块的结果加载而来的。在本专利技术的一些实施例中,所述判断策略是定期更新的。在本专利技术的一些实施例中,所述判断模块包括至少一个第一判断子模块和至少一个第二判断子模块,其中第一判断子模块中有查询列表,第二判断子模块中没有查询列表。根据本专利技术的第三方面,本专利技术提供一种流量采集服务器,其包括:处理器、第一机器可读存储介质、第二机器可读存储介质和将其相互连接的内部总线,其中,第一机器可读存储介质中存储了判断策略库,当采集的数据流量中包含的信息符合判断策略库中的判断策略时,该条数据信息被加载与该判断策略对应的流量标识,并存储于第二机器可读存储介质。优选地,所述第一机器可读存储介质是内部存储器。优选地,所述第二机器可读存储介质是外部存储器。在本专利技术的一些实施例中,所述判断策略库是通过机器学习优化而来的。在本专利技术的一些实施例中,所述数据流量为日志。附图说明本专利技术的下列附图在此作为本专利技术的一部分用于理解本专利技术。附图中示出了本专利技术的实施例及其描述,用来解释本专利技术的原理。在附图中,图1是根据本专利技术方法的一些实施方式的流程图。图2是根据本专利技术方法的另一些实施方式的流程图。图3是根据本专利技术系统的一些实施方式的示意图。图4是根据本专利技术系统的另一些实施方式的示意图。具体实施方式在下文的描述中,给出了大量具体的细节以便提供对本专利技术更为彻底的理解。然而,对于本领域技术人员来说显而易见的是,本专利技术可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本专利技术发生混淆,对于本领域公知的一些技术特征未进行描述。本文中的术语“移动终端”是指可以在移动中使用的计算机设备,其移动性主要体现在移动通信能力和便携化体积。包括但不限于手机、笔记本、平板电脑、POS机、车载电脑等,优选为智能手机和平板电脑。在多数情况下,其可以通过GSM、CDMA、WCDMA、EDGE、3G、4G等无线运营网通讯,也可以通过无线局域网(WiFi),蓝牙和红外进行通信,还可以通过其他可行的通讯方式进行通信。本文中的移动终端还包括有处理器、能连接互联网或物联网的可穿戴设备,例如智能手表、智能手环等。术语“ID”是指身份标识号码。也称为序列号或帐号,是某个体系中相对唯一的编码,相当于是一种“身份证”在某一具体的事物中,身份标识号一般是不变的,至于用什么来标识该事物,则由设计者自己制定的规则来确定。例如在虾米音乐上,每一首歌曲都对应一个ID号,在淘宝网上,每一个商品也都对应一个ID号。术语“ETag”是指URL的EntityTag,用于标示URL对象是否改变,区分不同语言和Session等等。ETag是可以与Web资源关联的记号。典型的Web资源可以是一个Web页,但也可能是JSON或XML文档。服务器单独负责判断记号是什么及其含义,并在HTTP响应头中将其传送到客户端。术语“流量标识”通常是字符序列,与判断策略对应,代表一定含义。例如当采集的数据流量(例如日志)中包含的IP地址为黑名单IP时,判断策略对应的流量标识可以为“Dangerous”。或者,当数据流量中包含媒介来源显示为游戏网站时,判断策略对应的流量标识可以为“Gamer”。对于一条数据流量,由于其包含许多信息,因此其通过判断策略库所对应的流量标识可以不止一个。当然也可以存在一条数据流量,其包含的信息在判断策略库中没有对应的流量标识,这并不影响其存储。术语“时间戳”(timestamp),通常是字符序列,唯一地标识某一刻的时间。在电子商务交易文件中,时间是十分重要的信息。在书面合同中,文件签署的日期和签名一样均是十分重要的防止文件被伪造和篡改的关键性内容。数字时间戳服务(DTS:digita1timestampservice)是网上电子商务安全服务项目之一,能提供电子文件的日期和时间信息的安全保护。目前经常见到的时间戳是一个经加密后形成的凭证文档,它包括三个部分:(1)需加时间戳的文件的摘要(digest);(2)DTS收到文件的日期和时间;和(3)DTS的数字签名。在本专利技术中,“时间戳”并不限于已投入应用模式的时间戳,还包括任何可以唯一地标识某一刻的时间的字符序列。术语“日志”是指在网络设备、系统及服务程序等中,在运作时产生的事件记录。每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。例如Windows网络操作系统都设计有各种各样的日志文件,如应用程序日志,安全日志、系统日志、S本文档来自技高网...
网络流量采集方法、系统及服务器

【技术保护点】
一种网络流量采集方法,其包括:接收数据流量,其中每条数据流量中包含一个或多个信息;将所述信息中的至少一个在判断策略库中查询;若有匹配的判断策略,则将对应的流量标识写入该条数据流量;和存储该条数据流量。

【技术特征摘要】
1.一种网络流量采集方法,其包括:接收数据流量,其中每条数据流量中包含一个或多个信息;将所述信息中的至少一个在判断策略库中查询;若有匹配的判断策略,则将对应的流量标识写入该条数据流量;和存储该条数据流量。2.根据权利要求1所述的方法,其中所述数据流量中的信息包括浏览器信息、设备信息、时间戳、ETag、Cookie、ID、IP地址、媒介标识、来源、软件信息、和时间中的一种或多种。3.根据权利要求1所述的方法,其中若未有匹配的判断策略,也存储该条流量数据。4.根据权利要求1所述的方法,其中所述判断策略库是预设的、或通过机器学习优化而来的、或两者的组合。5.根据权利要求1~4中任一项所述的方法,其中所述数据流量为日志。6.一种流量采集系统,其包括:流量采集模块,用于采集网络数据流量;判断模块,依据判断策略对每条数据流量中包含的信息进行判断,并返回对应的流...

【专利技术属性】
技术研发人员:邬剑
申请(专利权)人:精硕科技北京股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1