一种ISP间互联口URL活跃度的统计方法及装置制造方法及图纸

技术编号:14976036 阅读:55 留言:0更新日期:2017-04-03 03:58
本发明专利技术公开了一种ISP间互联口URL活跃度统计方法及装置,所述方法包括:步骤1、收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度;步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重并存储;步骤3、对所述高活跃度URL,依据其访问次数、内容特征方向和访问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名。

【技术实现步骤摘要】

本专利技术涉及互联网
更具体的,本专利技术涉及一种利用互联互通口URL日志来统计ISP间URL域名活跃度的方法。
技术介绍
近年来,随着光纤普及以及互联网带宽的迅猛发展,国内互联网各个ISP厂商之间的市场竞争愈发激烈,各个运营商的竞争已经逐步转移到服务的竞争,都在力争打造自己的生态圈争取更多的用户使用自己的入口,国内各个运营商逐步向以客户为中心的思维运营模式做转变,新的商业模式和日趋激烈的竞争对各个运营商的管理提出了新的要求和挑战。
技术实现思路
本专利技术主要目的是通过对互联互通口的URL进行分析,深入分析URL活跃情况,进一步了解用户的上网行为,以便于及时把握上网用户的情况。根据本专利技术一方面,提供了一种ISP间互联口URL活跃度统计方法,包括步骤1、收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度;步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重并存储;步骤3、对所述高活跃度URL,依据其访问次数、内容特征方向和访问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名。<br>根据本专利技术另一方面,提供了一种ISP间互联口URL活跃度统计装置,包括收集模块,用于收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度;归类模块,用于对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重并存储;分析模块,用于对所述高活跃度URL,依据其访问次数、内容特征方向和访问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;排名模块,用于利用所述活跃度指数UAI对所述URL的活跃度进行排名。附图说明图1是本专利技术中一种ISP间互联口URL活跃度的统计方法流程图;图2是本专利技术中新出现的URL的特征词分析及网页内容分类以及计算URL内容特征指数的整体流程图;图3是本专利技术中基于字典分词方法流程图;图4是传统的实现网页文本分类的无环图标准算法流程图;图5是本专利技术中实现网页文本分类的无环图优化算法流程图;图6是本专利技术中URL内容特征指数算法流程图;图7是本专利技术中URL活跃度整个算法流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。为此,本专利技术提出了一种基于ISP互联互通口采集到的URL来分析URL分类活跃情况,以便于了解用户的流量趋势和热点趋势。图1示出了本专利技术提出的一种ISP间互联口URL活跃度的统计方法流程图。本专利技术涉及2部分,一部分是URL网页的文本分词,提取特征词,针对特征词进行分类,按照特征词对比热证词库来对URL进行标识,按照标识维度及权重来确定URL的活跃度。另外一部分是URL根据其各种指标,包括URL每天出现的次数,URL网页内容特征词,用户的访问时长等,利用加权平均指定出URL活跃度指数,进一步确定URL活跃度排名。通过以上对URL活跃度的统计分析,能看到用户的访问热点区域和热点趋势。如图1所示,本专利技术提出的ISP间URL活跃度的统计方法包括:收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的URL,将所述排名靠前的URL网页存储为新的高活跃度URL网页,同时对已经存储的高活跃度URL网页也进行当天点击访问次数的统计;对新的高活跃度URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重;对所述高活跃度URL网页,依据访问次数、内容特征方向和用于对该URL网页访问的时长进行加权平均分析,得到每个URL网页的活跃度指数UAI。本专利技术提出的上述方法还可以根据业务研究URL内容的方向,调整特征词数据库中特征词的权重,来获得倾向于研究方向的URL网页活跃度排名。下面通过示意性的实施例来对本专利技术的上述方法进行详细说明。本发明第一实施例基于CERNET教育网IPv4基于北京武汉广州等5个互联口采集的URL数据进行分析。本专利技术第一实施例中的ISP间URL活跃度的统计方法包括:步骤1:URL新旧识别和出现次数汇总步骤101:收集预定时间周期内被点击访问的URL网页数据;步骤102:提取出目前已有的URL活跃度数据库中活跃度指数UAI大于90的已有高活跃度URL,利用所述已有高活跃度URL对所述提取的URL网页数据进行排查。该步骤中,针对每个已有高活跃度URL,按照URL地址字符串在当天的URL记录中做全文件按顺序搜索,当出现URL整字符串一致时,从所述URL网页数据中提取该条数据并记录下该记录的时间长度。最后累计出各个已有高活跃度URL在所述预定时间周期内被点击访问的次数以及用户访问其的总的时间长度。步骤103:从所提取的URL网页数据中提取不在所述已有URL活跃度数据库中的新URL,利用所述URL网页数据,对所述新URL在所述预定时间周期内被点击访问的次数进行统计,最后提取访问次数排名靠前的预定数量TOP100个新URL,同时提取所述预定数量TOP100个新URL的被访问次数和被访问的总体时间长度。步骤2:新URL的特征词分析及网页内容分类;该步骤是针对上述步骤103中新出现的TOP100URL,分析其网页中的特征词,为步骤3中的【UAI(C)URL内容特征指数】作为URL活跃度统计中很重要的一项统计指标做数据准备。通过对上述步骤103中排名靠前的预定数量TOP100的新URL的网页内容进行文本分词,提取网页内容中的关键字进行特征选择,根据特征向量对提取的关键词与已有的关键词分类维度表进行匹配,将所述新URL的网页内容和URL地址归并到指定的分类中。本专利技术中内容分类遵循统一的分类模式,具体可以按业本文档来自技高网...

【技术保护点】
一种ISP间互联口URL活跃度统计方法,包括步骤1、收集预定时间周期内被访问的URL网页数据,对预定时间周期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠前的预定数量的高活跃度URL及访问时间长度;步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分该URL网页的内容特征方向以及内容权重并存储;步骤3、对所述高活跃度URL,依据其访问次数、内容特征方向和访问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名。

【技术特征摘要】
1.一种ISP间互联口URL活跃度统计方法,包括
步骤1、收集预定时间周期内被访问的URL网页数据,对预定时间周
期内点击访问的URL网页的被访问次数进行统计,获得访问次数排名靠
前的预定数量的高活跃度URL及访问时间长度;
步骤2、对所述预定数量的URL中新出现的URL网页的内容进行内
容特征词的查找,与预先建立的特征词数据库中的特征词进行比对,划分
该URL网页的内容特征方向以及内容权重并存储;
步骤3、对所述高活跃度URL,依据其访问次数、内容特征方向和访
问时间长度进行加权平均分析,得到每个URL的活跃度指数UAI;
步骤4、利用所述活跃度指数UAI对所述URL的活跃度进行排名。
2.如权利要求1所述的方法,其中,所述步骤1收集一天内被访问
的URL网页数据,并对当天内点击访问的URL网页的被访问次数进行统
计,获得访问次数排名前200名的URL进行统计。
3.如权利要求1所述的方法,其中,步骤2还包括:
步骤201、对所述新出现的URL网页的内容进行文本分词;
步骤202、对所得到的文本分词进行特征向量计算,所述特征向量用
于体现分词后独立词出现的频率;
步骤203、根据所述特征向量确定独立词的频率高于预定阈值的分词,
利用其特征向量将所述新出现的URL网页划分至预先定义好的URL类别
中。
4.如权利要求1所述的方法,其中,步骤3中所述URL的活跃度指
数UAI为URL出现次数指数、URL内容特征指数和URL停留时间指数
的加权和;所述URL出现次数指数为URL当天出现次数、URL前7天
出现次数、URL前30天出现次数、7天内最高次数和7天内平均次数的
加权和;所述URL内容特征指数为该URL对应网页内容中的内容特征词
分数合计;URL停留时间指数为停留时间合计和平均停留时间的加权和。
5.如权利要求4所述的方法,其中,步骤1还包括:
步骤101:收集预定时间周期内被点击访问的URL网页数据;
步骤102:提取出目前已有的URL活跃度数据库中活跃度指数UAI
大于90的已有高活跃度URL,利用所述已有高活跃度URL对所述提取的
URL网页数据进行排查,统计其被访问次数和访问时间长度;
步骤103:从所提取的URL网页数据中提取不在所述已有URL活跃
度数据库中的新出现的URL,利用所述U...

【专利技术属性】
技术研发人员:黄友俊李星吴建平段晓磊邓斌
申请(专利权)人:赛尔网络有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1