一种互联网流量来源去向的分析方法技术

技术编号:15068884 阅读:63 留言:0更新日期:2017-04-06 16:32
本发明专利技术提出了一种互联网流量来源去向的分析方法,其通过处理DNS日志来获得互联网流量的来源与去向,包括如下步骤:日志过滤步骤,过滤无法反映用户真实访问路径的DNS日志;日志切分步骤,对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分,获得切分后的访问路径;以及数据汇总步骤,将所有所述切分后的访问路径进行汇总。通过本发明专利技术的分析方法,能够掌握互联网流量的来源和去向,从而能够更好地帮助网站进行网站流量的分析和优化;进一步地,通过完整地了解整个互联网的流量的流向情况,可以从全局的角度进行分析并了解其他网站的流量情况。

【技术实现步骤摘要】

本专利技术涉及互联网DNS域名解析领域,尤其涉及一种互联网流量来源去向的分析方法
技术介绍
所谓互联网流量的来源去向是指用户先访问了什么网站然后又去了什么网站等一系列的网站访问路径。关于如何确认网站的流量来源,业界的主流方式只有一种,就是在网站的页面上添加JavaScript监测代码。最常见的就是第三方检测工具,如googleanalytics和百度统计等。上述统计方法有很大的局限性,每个网站只能知道访客上一个访问的网站,没有办法获悉这个访客之前访问的多个网站,更加没有办法了解这个访客离开自己网站后会去哪里。DNS(DomainNameSystem,域名系统),是因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。“DNS域名解析技术”是指:当用户需要访问一个网站时,他需要在浏览器中输入这个网站的域名。敲击回车后浏览器会先发起一个DNS请求,通过DNS技术,浏览器可以获取这个域名对应的服务器IP地址,然后再对这个IP地址发起HTTP请求。DNS日志会记录每次DNS请求的应答内容,几乎能记录所有用户请求的域名信息。不过日志中会包含太多的异常和无效的信息,例如服务器也会发起DNS请求从而产生大量的域名信息,互联网爬虫甚至网络攻击都会产生大量的DNS请求。而这些请求是无法真实有效地反应用户的真实访问路径的。目前市场上没有能够很好分析互联网访客的整个访问路径的方法,而本专利技术则弥补了这一空缺,是一种通过对DNS日志的再处理来分析网站的流量分别来自哪些网站,离开后又去了哪些网站的方法。
技术实现思路
鉴于上述缺陷的存在,本专利技术提出了一种互联网流量来源去向的分析方法,通过本专利技术方法,尽可能地清洗掉日志中非人为访问的行为,能够有效地获得互联网流量的来源和去向。本专利技术的一种互联网流量来源去向的分析方法,通过处理DNS日志来获得互联网流量的来源与去向,包括如下步骤:日志过滤步骤,过滤无法反映用户真实访问路径的DNS日志;日志切分步骤,对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分,获得切分后的访问路径;以及数据汇总步骤,将所有所述切分后的访问路径进行汇总。优选地,日志过滤步骤通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。优选地,去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。优选地,根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。优选地,所述根据时间戳之差对日志进行切分是对根据源IP切分后的日志再根据DNS日志的时间戳之间的差进行切分,如果两个DNS日志的时间戳之间的差大于规定时间长度,则切开所述两个DNS日志。优选地,所述规定时间长度为3秒。优选地,根据时间戳之差对DNS日志进行切分步骤后还包括合并步骤,对切分获得的访问路径中的域名转化成域,并将连续相同的域合并,以获得所述源IP的路径。优选地,所述根据中心域进行切分是以中心域为基准对所述源IP的路径进行切分,切分后获得的访问路径为:来源域名n+…+来源域名1+中心域名+去向域名1+…+去向域名n,其中,所述中心域是根据用户/系统需求确定要重点分析的域。优选地,所述数据汇总步骤中,对根据所述中心域切分步骤后获得的所述源IP的所有访问路径进行汇总。通过本专利技术的分析方法,能够掌握互联网流量的来源和去向,从而能够更好地帮助网站进行网站流量的分析和优化;进一步地,通过完整地了解整个互联网的流量的流向情况,可以从全局的角度进行分析并了解其他网站的流量情况,做到知己知彼。附图说明图1(a)、图1(b)是本专利技术的互联网流量来源去向的分析方法的流程图;图2(a)、图2(b)是通过本专利技术的互联网流量来源去向的分析方法获得的流量来源的示意图。具体实施方式以下,将结合附图和实施例对专利技术进行详细说明。以下实施例并不是对本专利技术的限制。在不背离专利技术构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本专利技术中。如前所提到的,DNS(DomainNameSystem,域名系统),是因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。当用户访问一个网站时,先在浏览器中输入这个网站的域名,敲击回车后浏览器会先发起一个DNS请求,通过DNS技术,浏览器可以获取这个域名对应的服务器IP地址,然后再对这个IP地址发起HTTP请求。这就是DNS域名解析技术。在上述域名解析的过程中,会产生DNS日志。DNS日志会记录每次DNS请求的应答内容,几乎能记录所有用户请求的域名信息。DNS日志的格式如下所示:14.***.***.10|www.baidu.com|20141211035932|180.***.***.107;180.***.***.108|0源IP|域名|时间戳|解析IP|状态码即DNS日志包括“源IP”,“域名”,“时间戳”,“解析IP”和“状态码”五部分内容。由于DNS日志中包括了所有用户请求的域名信息,本专利技术人由此想到通过对DNS日志的再处理来分析网站的流量的来源和去向。但是DNS日志中也包括了很多异常和无效的信息,例如服务器也会发起DNS请求从而产生大量的域名信息,互联网爬虫甚至网络攻击都会产生大量的DNS请求。而这些请求是无法真实有效地反映用户的真实访问路径的。基于上述的情况,本专利技术人想到了通过尽可能地清洗掉日志中非人为访问的行为,来有效地获得互联网流量的来源和去向。图1是本专利技术的互联网流量来源去向的分析方法的流程图。如图1所示,本专利技术的互联网流量来源去向的分析方法包括如下步骤。首先,过滤无法反映用户真实访问路径的DNS日志(步骤S1)。如前所述,由于DNS请求中包括了很多无法真实有效地反映用户的真实访问路径的域名,因此需要进行清洗。例如通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。通过设置黑名单可以去除服务器产生的非人为的域名请求。通过设置白名单可以保留重点关注的某些域名。白名单优先级高于黑名单。另外,去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。其中,去除企业IP,是因为企业IP会产生多人的同时访问日志,影响对个人访问轨迹的判本文档来自技高网
...

【技术保护点】
一种互联网流量来源去向的分析方法,其特征在于,通过处理DNS日志来获得互联网流量的来源与去向,包括如下步骤:日志过滤步骤,过滤无法反映用户真实访问路径的DNS日志;日志切分步骤,对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分,获得切分后的访问路径;以及数据汇总步骤,将所有所述切分后的访问路径进行汇总。

【技术特征摘要】
1.一种互联网流量来源去向的分析方法,其特征在于,通过处理DNS日志来获得互联网
流量的来源与去向,包括如下步骤:
日志过滤步骤,过滤无法反映用户真实访问路径的DNS日志;
日志切分步骤,对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据
中心域依次进行切分,获得切分后的访问路径;以及
数据汇总步骤,将所有所述切分后的访问路径进行汇总。
2.根据权利要求1所述的分析方法,其特征在于,日志过滤步骤通过设置黑白名单保留
包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS
日志。
3.根据权利要求2所述的分析方法,其特征在于,去除DNS日志进一步包括去除企业IP
访问的日志以及去除没有解析IP的日志。
4.根据权利要求3所述的分析方法,其特征在于,根据源IP对DNS日志进行切分是获得
一段时间内相同源IP的连续的DNS日志。
5.根据权利要求4所述的分析方法,其特征在于,所述根据时间戳...

【专利技术属性】
技术研发人员:张大顺
申请(专利权)人:上海牙木通讯技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1