【技术实现步骤摘要】
本专利技术涉及通信领域,尤其涉及一种用户上网信息处理方法及装置。
技术介绍
随着互联网技术的发展,越来越多的用户可以使用终端设备访问互联网,进行资料查询或观看视频等业务。在用户数出现迅猛的增长的同时,用户对互联网的要求也越来越高。随着业务的多元化,分析用户的群体构成及其习惯爱好等用户上网行为,向用户提供更具个性化的服务,已经成为一个重要的研究方向,也是网络的规划、设计和管理的重要依据。
现有技术中,从服务器存储的日志中采集用户上网信息,通过分析用户上网信息获取用户上网轨迹,但日志所提供的数据有限,只能提供用户标识、用户IP和用户访问的网页时的统一资源定位符(英文全称:UniformResourceLocator,英文简称:URL)等,并不能获取到用户访问的网页的具体内容,也就是web正文。
进一步的,根据采集到的URL将网页进行分类。例如,采用朴素贝叶斯分类方法,使用类别概率和特征项的联合分布概率自动推理出用户所浏览的网页的类别,在网页分类的基础上对用户的上网习惯进行分析,得出用户行为分析结果。但是,这样也仅仅对网页进行了分类,并没有对用户访问的网页的内容进行更深层次的分析和挖掘。
技术实现思路
本专利技术实施例提供一种用户上网信息处理方法及装置,能够对用户访问的网页的正文内容进行分析,获取用户的上网行为。
为达到上述目的,本专利技术实施例采用的技术方案是:
第一方面,提供一种用户上网信息处理方法,包括:
服务器接收网关发送的数据包,所述数据包包括统一资源定位符URL, ...
【技术保护点】
一种用户上网信息处理方法,其特征在于,包括:服务器接收网关发送的数据包,所述数据包包括统一资源定位符URL;所述服务器接收所述URL对应的网页的超级文本标记语言HTML源码;所述服务器解析所述URL对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本;所述服务器根据所述URL对应的网页的关键词确定所述URL对应的网页的主题。
【技术特征摘要】
1.一种用户上网信息处理方法,其特征在于,包括:
服务器接收网关发送的数据包,所述数据包包括统一资源定位符URL;
所述服务器接收所述URL对应的网页的超级文本标记语言HTML源码;
所述服务器解析所述URL对应的网页的HTML源码,得到所述URL对
应的网页的关键词和正文文本;
所述服务器根据所述URL对应的网页的关键词确定所述URL对应的网
页的主题。
2.根据权利要求1所述的方法,其特征在于,所述服务器解析所述URL
对应的网页的HTML源码,得到所述URL对应的网页的关键词和正文文本
包括:
所述服务器解析所述URL对应的网页的HTML源码,获取所述URL对
应的网页的HTML源码的正文文本;
所述服务器根据词频位置权重公式和TF-IDF算法,从所述URL对应的
网页的HTML源码的正文文本中获取所述URL对应的网页的HTML源码的
关键词;
所述词频位置权重公式为:
f(w)=a*fr(w)+b*fk(w)+c*ft(w)+d*fc(w)其中,a表示URL,b表示URL对应的网页的关键词节点,c表示URL
对应的网页的标题,d表示正文,且a>b>c>d,fr(w)、fk(w)、ft(w)和fc(w)分
别表示文字w在a、b、c和d中出现的频率。
3.根据权利要求2所述的方法,其特征在于,所述服务器根据所述URL
对应的网页的关键词确定所述URL对应的网页的主题包括:
所述服务器通过空间向量模型VSM,计算所述URL对应的网页的关键
词向量与主题样本中类向量间的欧式距离;
所述服务器将与所述URL对应的网页的关键词向量的欧式距离最短的
类向量的主题,确定为所述URL对应的网页的主题。
4.根据权利要求3所述的方法,其特征在于,所述数据包还包括用户标
识、用户IP地址和数据包的包长,在所述服务器根据所述URL获取所述URL
对应的网页的超级文本标记语言HTML源码之前,所述方法还包括:
所述服务器根据所述用户标识和所述用户IP地址获取所述用户标识对
应的上行数据包和下行数据包,所述上行数据包为所述网关发送至所述服务
器的数据包,所述下行数据包为所述服务器发送至所述网关的数据包;
所述服务器根据所述上行数据包和所述下行数据包,判断流量比小于或
\t等于流量阈值时,确定所述数据包的内容为文字类型,所述流量比为单位时
间内下行数据包的包长与上行数据包的包长之比。
5.根据权利要求4所述的方法,其特征在于,所述数据包还包括解析标
识,在所述服务器根据所述用户标识和所述用户IP地址获取所述用户标识对
应的上行数据包和下行数据包之前,所述方法还包括:
所述服务器根据所述解析标识判断解析所述数据包,确定所述URL对应
的网页的主题和类型。
6.一种用户上网信息处理方法,其特征在于,包括:
网关获取统一资源定位符URL;
所述网关向服务器发送数据包,所述数据包包括解析标识...
【专利技术属性】
技术研发人员:彭寿钧,郑丽娜,王鹏达,唐恒颂,
申请(专利权)人:海信集团有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。