一种用户上网信息处理方法及装置制造方法及图纸

技术编号:13469114 阅读:69 留言:0更新日期:2016-08-05 01:38
本发明专利技术实施例提供一种用户上网信息处理方法及装置,涉及通信领域,能够对用户访问的网页的正文内容进行分析,获取用户的上网行为。包括:服务器接收网关发送的数据包,数据包包括URL,URL为用户访问的网页的地址;根据URL获取URL对应的网页的HTML源码;解析URL对应的网页的HTML源码,得到URL对应的网页的关键词和正文文本;根据URL对应的网页的关键词确定URL对应的网页的主题。用于分析用户访问的网页的正文内容。

【技术实现步骤摘要】


本专利技术涉及通信领域,尤其涉及一种用户上网信息处理方法及装置

技术介绍

随着互联网技术的发展,越来越多的用户可以使用终端设备访问互联网,进行资料查询或观看视频等业务。在用户数出现迅猛的增长的同时,用户对互联网的要求也越来越高。随着业务的多元化,分析用户的群体构成及其习惯爱好等用户上网行为,向用户提供更具个性化的服务,已经成为一个重要的研究方向,也是网络的规划、设计和管理的重要依据。
现有技术中,从服务器存储的日志中采集用户上网信息,通过分析用户上网信息获取用户上网轨迹,但日志所提供的数据有限,只能提供用户标识、用户IP和用户访问的网页时的统一资源定位符(英文全称:UniformResourceLocator,英文简称:URL)等,并不能获取到用户访问的网页的具体内容,也就是web正文。
进一步的,根据采集到的URL将网页进行分类。例如,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出用户所浏览的网页的类别,在网页分类的基础上对用户的上网习惯进行分析,得出用户行为分析结果。但是,这样也仅仅对网页进行了分类,并没有对用户访问的网页的内容进行更深层次的分析和挖掘。

技术实现思路

本专利技术实施例提供一种用户上网信息处理方法及装置,能够对用户访问的网页的正文内容进行分析,获取用户的上网行为。
为达到上述目的,本专利技术实施例采用的技术方案是:
第一方面,提供一种用户上网信息处理方法,包括:
服务器接收网关发送的数据包,所述数据包包括统一资源定位符URL,所述URL为用户访问的网页的地址;
所述服务器根据所述URL获取所述URL对应的网页的超级文本标记语言HTML源码;
解析所述URL对应的网页的HTML源码,得所述服务器到所述URL对应的网页的关键词和正文文本;
所述服务器根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
上述第一方面提供的用户上网信息分析方法,首先,根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
第二方面,提供一种用户上网信息处理方法,包括:
网关获取统一资源定位符URL,所述URL为用户访问的网页的地址;
所述网关向服务器发送数据包,所述数据包包括解析标识、用户标识、用户IP地址、数据包的包长和所述URL。
上述第二方面提供的用户上网信息处理方法,网关获取URL后,向服务器发送包括该URL的数据包,使得服务器根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
第三方面,提供一种服务器,包括:
接收单元,用于接收网关发送的数据包,所述数据包包括统一资源定位符URL,所述URL为用户访问的网页的地址;
所述接收单元,还用于接收所述URL对应的网页的超级文本标记语言HTML源码;
处理单元,用于解析所述URL对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本;
所述处理单元,用于根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
上述第三方面提供的服务器,首先,根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
第四方面,提供一种网关,包括:
处理单元,用于获取统一资源定位符URL,所述URL为用户访问的网页的地址;
发送单元,用于向服务器发送数据包,所述数据包包括解析标识、用户标识、用户IP地址、数据包的包长和所述URL。
上述第四方面提供的网关,获取URL后,向服务器发送包括该URL的数据包,使得服务器根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。从而通过提取用户访问的网页的正文内容的关键词对用户访问的网页进行分析,确定用户访问的网页的主题,获取用户的上网行为。
需要说明的是,上述第三方面和第四方面所述功能模块可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。例如,通信接口,用于完成接收单元和发送单元的功能,处理器,用于完成处理单元的功能,存储器,用于存储音量阈值。处理器、通信接口和存储器通过总线连接并完成相互间的通信。具体的,可以参考第一方面提供的用户上网信息处理方法中服务器的行为的功能,以及第二方面提供的用户上网信息处理方法中网关的行为的功能。
本专利技术中,服务器和网关的名字对设备本身不构成限定,在实际实现中,这些设备可以以其他名称出现。只要各个设备的功能和本专利技术类似,属于本专利技术权利要求及其等同技术的范围之内。
本专利技术的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本专利技术实施例提供的一种用户上网信息处理方法流程图;
图2为本专利技术实施例提供的另一种用户上网信息处理方法流程图;
图3为本专利技术实施例提供的又一种用户上网信息处理方法流程图;
图4为本专利技术实施例提供的一种服务器结构示意图;
图5为本专利技术实施例提供的一种网关结构示意图;
图6为本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
本专利技术的基本原理在于:根据从网关发送来的数据包包括的URL,来获取该URL对应的网页的HTML源码,然后,解析HTML源码,根据解析的HTML源码URL对应的网页的关键词和正文文本,根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
实施例1
本专利技术实施例提供一种用户上网信息处理方法,如图1所示,包括本文档来自技高网
...

【技术保护点】
一种用户上网信息处理方法,其特征在于,包括:服务器接收网关发送的数据包,所述数据包包括统一资源定位符URL;所述服务器接收所述URL对应的网页的超级文本标记语言HTML源码;所述服务器解析所述URL对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本;所述服务器根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。

【技术特征摘要】
1.一种用户上网信息处理方法,其特征在于,包括:
服务器接收网关发送的数据包,所述数据包包括统一资源定位符URL;
所述服务器接收所述URL对应的网页的超级文本标记语言HTML源码;
所述服务器解析所述URL对应的网页的HTML源码,得到所述URL对
应的网页的关键词和正文文本;
所述服务器根据所述URL对应的网页的关键词确定所述URL对应的网
页的主题。
2.根据权利要求1所述的方法,其特征在于,所述服务器解析所述URL
对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本
包括:
所述服务器解析所述URL对应的网页的HTML源码,获取所述URL对
应的网页的HTML源码的正文文本;
所述服务器根据词频位置权重公式和TF-IDF算法,从所述URL对应的
网页的HTML源码的正文文本中获取所述URL对应的网页的HTML源码的
关键词;
所述词频位置权重公式为:
f(w)=a*fr(w)+b*fk(w)+c*ft(w)+d*fc(w)其中,a表示URL,b表示URL对应的网页的关键词节点,c表示URL
对应的网页的标题,d表示正文,且a>b>c>d,fr(w)、fk(w)、ft(w)和fc(w)分
别表示文字w在a、b、c和d中出现的频率。
3.根据权利要求2所述的方法,其特征在于,所述服务器根据所述URL
对应的网页的关键词确定所述URL对应的网页的主题包括:
所述服务器通过空间向量模型VSM,计算所述URL对应的网页的关键
词向量与主题样本中类向量间的欧式距离;
所述服务器将与所述URL对应的网页的关键词向量的欧式距离最短的
类向量的主题,确定为所述URL对应的网页的主题。
4.根据权利要求3所述的方法,其特征在于,所述数据包还包括用户标
识、用户IP地址和数据包的包长,在所述服务器根据所述URL获取所述URL
对应的网页的超级文本标记语言HTML源码之前,所述方法还包括:
所述服务器根据所述用户标识和所述用户IP地址获取所述用户标识对
应的上行数据包和下行数据包,所述上行数据包为所述网关发送至所述服务
器的数据包,所述下行数据包为所述服务器发送至所述网关的数据包;
所述服务器根据所述上行数据包和所述下行数据包,判断流量比小于或

\t等于流量阈值时,确定所述数据包的内容为文字类型,所述流量比为单位时
间内下行数据包的包长与上行数据包的包长之比。
5.根据权利要求4所述的方法,其特征在于,所述数据包还包括解析标
识,在所述服务器根据所述用户标识和所述用户IP地址获取所述用户标识对
应的上行数据包和下行数据包之前,所述方法还包括:
所述服务器根据所述解析标识判断解析所述数据包,确定所述URL对应
的网页的主题和类型。
6.一种用户上网信息处理方法,其特征在于,包括:
网关获取统一资源定位符URL;
所述网关向服务器发送数据包,所述数据包包括解析标识...

【专利技术属性】
技术研发人员:彭寿钧郑丽娜王鹏达唐恒颂
申请(专利权)人:海信集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1