【技术实现步骤摘要】
网络流量采集方法、系统及服务器
本专利技术涉及通讯领域,特别是一种基于流量标识的网络流量采集方法。本专利技术还涉及一种流量采集系统,特别是一种流量采集服务器。
技术介绍
在互联网上每时每刻都在发生各种行为。通常的大数据的处理是将这些行为的数据采集之后再进行深入的计算、挖掘、机器学习,对数据进行扩充校验和清洗,然后存储以便日后使用。随着采集能力的提高,数据量经常是TB、PB级的。数据采集之后的运算压力非常大,对服务器、算法、网络环境的要求很高。目前的解决办法是增加服务器或是租用更多的云服务器。但这样会极大提高硬件维护成本,且可能受到云服务器提供商的制约。因此需要一种办法能够从根本上减轻运算压力,提高数据处理速度。
技术实现思路
为满足这一需求,专利技术人提供一种基于流量标识的网络流量采集方法,该方法通过在流量采集时给数据加载多层流量标识,简化后续处理时的运算,提高数据处理速度。根据本专利技术的第一方面,本专利技术提供一种网络流量采集方法,其包括:接收数据流量,其中每条数据流量中包含一个或多个信息;将所述信息中的至少一个在判断策略库中查询;若有匹配的判断策略,则将对应的流 ...
【技术保护点】
一种网络流量采集方法,其包括:接收数据流量,其中每条数据流量中包含一个或多个信息;将所述信息中的至少一个在判断策略库中查询;若有匹配的判断策略,则将对应的流量标识写入该条数据流量;和存储该条数据流量。
【技术特征摘要】
1.一种网络流量采集方法,其包括:接收数据流量,其中每条数据流量中包含一个或多个信息;将所述信息中的至少一个在判断策略库中查询;若有匹配的判断策略,则将对应的流量标识写入该条数据流量;和存储该条数据流量。2.根据权利要求1所述的方法,其中所述数据流量中的信息包括浏览器信息、设备信息、时间戳、ETag、Cookie、ID、IP地址、媒介标识、来源、软件信息、和时间中的一种或多种。3.根据权利要求1所述的方法,其中若未有匹配的判断策略,也存储该条流量数据。4.根据权利要求1所述的方法,其中所述判断策略库是预设的、或通过机器学习优化而来的、或两者的组合。5.根据权利要求1~4中任一项所述的方法,其中所述数据流量为日志。6.一种流量采集系统,其包括:流量采集模块,用于采集网络数据流量;判断模块,依据判断策略对每条数据流量中包含的信息进行判断,并返回对应的流...
【专利技术属性】
技术研发人员:邬剑,
申请(专利权)人:精硕科技北京股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。