一种基于用户浏览行为的网页推荐方法技术

技术编号:10733454 阅读:99 留言:0更新日期:2014-12-10 10:35
本发明专利技术涉及一种基于用户浏览行为的网页推荐方法,其特征在于:步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息;步骤2:对页面内容进行文本分析,获得页面的特征项;步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值;步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来;步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及,其特征在于:步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息;步骤2:对页面内容进行文本分析,获得页面的特征项;步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值;步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来;步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。【专利说明】
本专利技术涉及。
技术介绍
在网络技术飞速发展的今天,信息和资源也随之迅猛增长。在网络方面这种趋势显得尤为突出。面对Web上如此庞大的信息资源,Web上的“信息迷航”和“信息过载”等问题也在加剧。为了防止此类问题的愈演愈烈,有必要提供,在Web上寻找更相关的信息以满足不同用户的个性化需求。
技术实现思路
本专利技术目的在于提供,通过获取并分析用户的浏览行为数据,向用户推荐他可能感兴趣的网页,满足用户的个性化需求。 实现本专利技术目的技术方案: ,其特征在于: 步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息; 步骤2:对页面内容进行文本分析,获得页面的特征项; 步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值; 步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来; 步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。 步骤I中,利用浏览器监听页面的创建和消亡、鼠标滚轮的滑动,统计页面的停留时间;利用在浏览器中得到所有页面url,对页面源代码即页面内容进行获取。 步骤2中,首先对网页中的干扰信息进行清理,所说的干扰信息为HTML页面的框架结构信息、超链接信息或者脚本信息。 步骤2中,文本分析时,首先,对处理过的页面文档集进行分词处理,然后,对文本中所有特征项进行权值计算,并抽取权值最高的N个词语作为页面的主题内容,N值由用户设定。 步骤3中,兴趣类权值计算公式如下所示: InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij) 兴趣等级InterestDegree(Ij),表示用户兴趣类权值; 页面停留时间等级ViewtimeDegree(Ij),表示用户在每一关键词中花费的时间时间占总浏览时间的比值,Ij e T,T表示特征集合; 关键词兴趣等级KeywordDegree (Ij),表示每一关键词在主题词集合T中出现的次数占关键词的总数的比值,Ij e T,T表示特征集合。 本专利技术具有的有益效果: 本专利技术在用户进行浏览网页时,利用浏览器将每个页面的停留时间以及页面内容收集起来;在数据预处理阶段,对页面内容进行文本分析,获得页面的特征项;根据页面停留时间和特征项出现频率分析出用户对每个特征项的兴趣程度,得到用户的当前兴趣模型;最后根据页面停留时间和特征项对用户兴趣的影响分析出用户对每个特征项的兴趣程度,得到用户的当前兴趣,将相关网页推送给用户。本专利技术不仅能够自动记录用户行为,实时分析,挖掘用户当前的兴趣偏好,还可以掌握用户对所有兴趣的喜爱程度,可以利用此信息进行实时的个性化推荐服务。 本专利技术在数据预处理阶段即步骤2中,首先对网页中的干扰信息进行清理,在文本分析时,首先,对处理过的页面文档集进行分词处理,然后,对文本中所有特征项进行权值计算,并抽取权值最高的N个词语作为页面的主题内容,能够有效提高获得页面特征项的速度和准确率。本专利技术在步骤3中通过兴趣类权值计算公式,能够充分体现出用户对浏览网页的兴趣。 【具体实施方式】 步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息; 利用浏览器监听页面的创建和消亡、鼠标滚轮的滑动,统计页面的停留时间;每当一个页面(PageA)加载完成时,浏览器会将此时的系统时间记录下来,作为页面停留时间的开始时刻T(StartA)。当这个页面进入非活跃状态时,也就是用户进行了关闭页面的操作或进行了新的网页浏览,浏览器就会再次记录系统时间,作为页面停留时间的结束时刻T(endA)。那么用户在此页面的页面停留时间StayTime (pageA)就等于结束时刻与开始时刻的时间差。页面停留时间计算公式如下: StayTime(pageA) = T(endA)-T(startA) 利用在浏览器中得到所有页面url,对页面源代码,即页面内容,进行获取。 步骤2:对页面内容进行文本分析,获得页面的特征项; 首先对网页中的干扰信息进行清理,所说的干扰信息为HTML页面的框架结构信息、超链接信息或者脚本信息。 文本分析时,首先,对处理过的页面文档集进行分词处理,然后,对文本中所有特征项进行权值计算,并抽取权值最高的N个词语作为页面的主题内容,N值由用户设定,本实施例中,N取7。 步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值; 在用户兴趣挖掘阶段,考虑到页面停留时间和特征项对用户兴趣的影响,对用户每一兴趣类进行兴趣强度计算,即计算用户兴趣类权值。 兴趣等级InterestDegree (I」):表示用户兴趣类权值。 页面停留时间等级ViewtimeDegree (I」)(I」e Τ) (T表示特征集合)::表示用户在每一关键词中花费的时间时间占总浏览时间的比值。 关键词兴趣等级KeywordDegree (Ij) (Ij e T):表示每一关键词在主题词集合T中出现的次数占关键词的总数的比值。 兴趣权值计算公式如下所示: InterestDegree (Ij) = KeywordDegree (Ij) XViewtimeDegree (Ij) 通过计算页面停留时间等级和关键词兴趣等级,就可计算出用户对每个兴趣类的兴趣强度,从而得到用户兴趣表示。 用户兴趣表示为:((I1,InterestDegree (I1)), (I2, InterestDegree (I2)),...,(In, InterestDegree (In))。 其中,In表示用户的兴趣类,InterestDegree(In)表示In对应的用户兴趣类权值。 经过文本分析后,就可以利用特征项表示页面内容,构建向量空间模型。对于页面集合 P = (P1, Pa,, pn}中的任意页面 Pi (1< = i〈 = η),表示成 Pi = {(tn, wn),(ti2, wi2),...,(tin, win)} (n> = I)。其中 tik(l〈 = k〈 = n)表示页面的特征项,wik(l< = k〈 = η)表示特征项对应的权值。在向量空间模型下,使用特征项的权重集合表示页面向量,页面Pi和Pj的页面向量分别为Pi (Wil, wi2,...,win), Pj (Wj1, Wj2,...,wJn)。两个页面之间的相似度Sim(PpPj)的公式为: 【权利要求】1.,其特征在于: 步骤1:利用浏览器收集每个页面的停留时间以及本文档来自技高网...

【技术保护点】
一种基于用户浏览行为的网页推荐方法,其特征在于:步骤1:利用浏览器收集每个页面的停留时间以及页面内容信息;步骤2:对页面内容进行文本分析,获得页面的特征项;步骤3:根据页面停留时间和特征项,分析出用户对每个特征项的兴趣程度,得到用户兴趣类权值;步骤4:将权值较高的兴趣类作为关键词,利用爬虫程序,将Web上与用户兴趣有关的网页按照类别全部抓取下来;步骤5:利用余弦夹角函数计算抓取的网页与用户已浏览的网页的相似度,将相似度较高的网页推送给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:姚念民张薇
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1