一种数字化资源个性化推荐方法技术

技术编号:12297593 阅读:57 留言:0更新日期:2015-11-11 08:54
本发明专利技术公开了一种数字化资源个性化推荐方法,通过脚本获取用户浏览数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果进行个性化推荐。手工为页面标注标签,形成标签库;对于未标注页面,进行页面相似度匹配,在已标注页面中找出最相似页面,将该页面标签赋予未标注页面;统计用户历史记录计算标签访问频次,对用户进行个性化推荐。本发明专利技术采用人工标注的方式为页面标注标签,通过页面相似度匹配自动为未标注页面标注标签,生成的页面标签更能够体现页面内容,更能够体现用户的潜在兴趣;用户访问网站已存在于网络中,资源更加丰富和多样,因此,本发明专利技术具有推荐精确和多样的特点,更能体现出用户的个性化。

【技术实现步骤摘要】

本专利技术属于网络应用个性化推荐
,涉及数字化资源个性化推荐方法
技术介绍
随着互联网快速发展,资源数量爆炸性增长,在面对如此浩瀚的资源海洋时,用户 很难在短时间内找到自己真正需要的资源。因此,造成了信息迷航与信息过载的问题。信 息迷航是指用户在复杂的网络信息空间中浏览信息时迷失方向,不清楚所要找的资源在 哪里,无法返回到某个节点,在寻找的过程中忘记自己的初衷目的。而信息过载则是由于 Internet提供的复杂且广泛的资源,致使资源的使用者常常受制于认知能力和各方面知识 的约束,难以正确的获取和使用网络上给予的资源。 数字化资源与传统资源有所区别,它是文本、图片、音频、视频、动画等多种资源的 结合,并提供丰富的交互能力,能够激发用户通过自主、合作、创造的方式来寻找和处理资 源。数字化资源相比传统资源有以下优势:1)扩展性,用户学习数字化资源不受时空和传 递呈现方式的限制,通过多种设备,可以获得高质量的数字化资源;2)多样式,多种呈现形 式,丰富的内容表现力,激发用户的学习动力;3)共享性,不同用户可以共享数字化资源, 极大地提尚学习效率。 用户在网络上检索相关数字化资源时,需要花费大量的时间才能找到自己需要的 资源。这种浏览大量无关的信息无疑会使淹没在信息过载和信息迷航问题中的用户迷茫, 为了解决这些问题,个性化推荐方法应运而生。个性化推荐方法是建立在海量数据挖掘基 础上的一种智能方法,充分利用用户在网站上访问记录,对用户行为进行用户偏好分析,帮 助网站为其用户提供个性化的服务。 个性化推荐是根据用户的兴趣特点和行为记录,向用户推荐用户感兴趣的资源。 个性化推荐技术中,个性化是指使资源具有个性化的属性。主要是在非一般大众化的基础 上增加独特、拥有本身特点的需要,使资源具有个性,或者使其凸显个性。个性化一般包含 两层含义,第一、用户个性化的过程,这是需要经过培养逐步形成的;第二,资源个性化的过 程,资源的个性化以特定的方式得到体现和展示,此个性化的过程是每个用户都应拥有的 潜在需求的过程。 在目前的推荐方法中,标签逐渐成为一种表现用户特征的重要方式。标签类似于 一种关键字标记,来源于标注者对资源主观感受的概括,被用于描述资源,当一个资源被标 注多个标签后,其相对于其他资源而言,已具有个性化的特点;用户在长期学习数字化资源 的过程中,会形成属于个人的标签库,其相对其他用户而言,已拥有独特的特征,在不同用 户学习相同资源后,其又拥有共性,而个性化推荐方法就是利用这些特点向用户推荐个性 化的资源和用户。
技术实现思路
本专利技术的目的在于克服现有技术不足,使用能准确表示页面内容的标签,更能体 现用户的潜在兴趣,并自动为未访问页面标注标签,使得推荐结果更具人性化。 本专利技术的目的是通过以下技术方案来实现的:, 通过脚本获取用户浏览数字化资源历史记录,对其进行分析,结合页面标签,产生推荐结果 进行个性化推荐,具体包括以下步骤: (1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL 标注标签,具体包括以下子步骤: (I. 1)在获取网站全部页面URL后,去掉无效页面,比如脚本文件URL,样式表文件 URL以及一些错误页面; (1.2)采用手工的方式为每个URL标注至多10个最能代表页面内容的标签,保存 在数据库中,生成网页标签表; (2)数据获取,通过脚本获取用户浏览网站的访问记录,具体包括以下子步骤: (2. 1)用户设置浏览器代理,通过代理服务器访问网站; (2. 2)代理服务器根据预先设置的规则文件,在符合规则的页面中嵌入脚本,脚本 在每次用户浏览页面时,将用户ID,页面URL、页面标题、页面访问时间、上一跳地址返回给 服务器,保存在数据库中,生成访问记录表; (3)页面相似度匹配,若用户当前访问页面不在网页标签表中,从网页标签表中获 取与 当前用户访问页面最相似的页面,具体包括以下子步骤: (3. 1)网页关键字提取,获取当前访问页面内容,去掉HTML标签,获得页面中纯文 本内容;利用中文分词工具,去掉叹词、副词、形容词、介词等无意义的词,得到η个有效词 ( Wl,w2, . . .,wk,. . .,wn),统计每个有效词%在该网页中出现的次数,用每个有效词出现 的次数除以有效词数n,得到每个有效词在网页中出现的词频数TF=</Vn扫描网页标签 表中所有m个页面,分别统计包含有效词%的网页数!^,用网站网页总数m除以包含该词 的网页数,得到包含有效词wk的网页占网页总数的反比例m/w^,取丨DF=Iogim/乂),用TF与 IDF的乘积相乘得到有效词%的TF - IDF,即U按照这个过程,得 到η个有效词的TF - IDF,将这些有效词的TF - IDF按照降序排列,按顺序取前p个作为本 页面的关键字; (3.2)从网页标签表中m个网页中取出一个页面,按照步骤(3. 1)获取页面的ρ个 关键字,将两个页面的关键字合并为一个集合U1, t2,. . . tk,. . . tj,其中p < r < 2p,计算 集合中关键字4在两个页面中的词频数,进一步将每个关键字词频除以所有关键字总的 词频数,即,获得每个关键字的相对词频 (3.3)根据步骤(3.2)计算得出的相对词频,得到两个页面的词频分量 (?... f/ ),计算两个分量的余弦相似度; (3. 4)依次计算当前访问页面和网页标签表中所有页面的余弦相似度,余弦相似 度最大,即为当前访问页面最相似页面; (4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签 α,ι2,...ik,...U以及每个标签的访问频次(fI…C,…/f >,将每个标签访问除以所有 标签总的访问频次,g卩得到每个标签的相对访问频次;根据相对访问频次按照 降序排列,计算包含标签Ik的页面的访问次数,按照降序排列,生成基于标签1 ,的推荐列 表,合并S个标签生成的推荐列表,将最终推荐结果推荐给用户。 进一步地,步骤(2)生成的访问记录表,用户所访问网站是互联网已存在的,通过 用户设置代理的方式,代理服务器会将预先设置的脚本嵌入在符合规则的网页中,脚本获 取用户在该网站上的访问记录并将其返回到服务器,保存在数据库中;步骤(1)中生成的 网页标签表,统计网页标签表可以获得该领域的标签库,在之后访问未标注页面时,选取最 相似页面的标签作为该页面的标签,结合步骤(2)生成的访问记录表和网页标签表,用户 访问的页面都已标注标签。 本专利技术的有益效果是:本专利技术方法通过脚本获取用户浏览数字化资源历史记录, 对其进行分析,结合页面标签,产生推荐结果进行个性化推荐。手工为页面标注标签,形成 标签库;对于未标注页面,进行页面相似度匹配,在已标注页面中找出最相似页面,将该页 面标签赋予未标注页面;统计用户历史记录计算标签访问频次,对用户进行个性化推荐。本 专利技术采用人工标注的方式为页面标注标签,通过页面相似度匹配自动为未标注页面标注标 签,生成的页面标签更能够体现页面内容,更能够体现用户的潜在兴趣;用户访问网站已存 在于网络中,资源更加丰富和多样,因此,本专利技术具有推荐精确和多样的特点,更能体现出 用户的个性化。【附本文档来自技高网
...

【技术保护点】
一种数字化资源个性化推荐方法,其特征在于,包括以下步骤:(1)标注标签,获取指定网站的网站地图,分析地图文件获得页面URL,为每个URL标注标签,具体包括以下子步骤:(1.1)在获取网站全部页面URL后,去掉无效页面,比如脚本文件URL,样式表文件URL以及一些错误页面;(1.2)采用手工的方式为每个URL标注至多10个最能代表页面内容的标签,保存在数据库中,生成网页标签表;(2)数据获取,通过脚本获取用户浏览网站的访问记录,具体包括以下子步骤:(2.1)用户设置浏览器代理,通过代理服务器访问网站;(2.2)代理服务器根据预先设置的规则文件,在符合规则的页面中嵌入脚本,脚本在每次用户浏览页面时,将用户ID,页面URL、页面标题、页面访问时间、上一跳地址返回给服务器,保存在数据库中,生成访问记录表;(3)页面相似度匹配,若用户当前访问页面不在网页标签表中,从网页标签表中获取与当前用户访问页面最相似的页面,具体包括以下子步骤:(3.1)网页关键字提取,获取当前访问页面内容,去掉HTML标签,获得页面中纯文本内容;利用中文分词工具,去掉叹词、副词、形容词、介词等无意义的词,得到n个有效词(w1,w2,...,wk,...,wn),统计每个有效词wk在该网页中出现的次数用每个有效词出现的次数除以有效词数n,得到每个有效词在网页中出现的词频数扫描网页标签表中所有m个页面,分别统计包含有效词wk的网页数用网站网页总数m除以包含该词的网页数,得到包含有效词wk的网页占网页总数的反比例取用TF与IDF的乘积相乘得到有效词wk的TF‐IDF,即按照这个过程,得到n个有效词的TF‐IDF,将这些有效词的TF‐IDF按照降序排列,按顺序取前p个作为本页面的关键字;(3.2)从网页标签表中m个网页中取出一个页面,按照步骤(3.1)获取页面的p个关键字,将两个页面的关键字合并为一个集合(t1,t2,...tk,...tr),其中p≤r≤2p,计算集合中关键字tk在两个页面中的词频数进一步将每个关键字词频除以所有关键字总的词频数,即获得每个关键字的相对词频(3.3)根据步骤(3.2)计算得出的相对词频,得到两个页面的词频分量计算两个分量的余弦相似度;(3.4)依次计算当前访问页面和网页标签表中所有页面的余弦相似度,余弦相似度最大,即为当前访问页面最相似页面;(4)个性化推荐,结合网页标签表和访问记录表,统计该用户访问过的s个标签(l1,l2,...lk,...ls)以及每个标签的访问频次将每个标签访问除以所有标签总的访问频次,即得到每个标签的相对访问频次;根据相对访问频次按照降序排列,计算包含标签lk的页面的访问次数,按照降序排列,生成基于标签lk的推荐列表,合并s个标签生成的推荐列表,将最终推荐结果推荐给用户。...

【技术特征摘要】

【专利技术属性】
技术研发人员:谢波姜波刘洋
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1