当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于树形日志模式分析的博客好友推荐方法技术

技术编号:6025729 阅读:218 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于树形日志模式分析的博客好友推荐方法。采用离线挖掘方法,通过对服务器日志的解析,提取出访问者对博客页面的访问记录,通过分组,排序,去回环等技术进一步构造出以待推荐的博客为根的访问日志树,对构造出的访问日志树做频繁挖掘,找出符合预设要求的频繁子树,把频繁子树中的节点作为候选博客好友,按设定的公式进行推荐度计算,取分值最高的若干个进行推荐。算法不同于传统的基于频繁项挖掘或频繁序列挖掘的算法,针对博客圈特有的平行链接关系和间接访问特性,采用了频繁树形结构挖掘的方法,充分发掘,提取了博客间潜在的访问联系,并推荐给访问用户,提高了用户体验,是一种高效,实用的博客推荐方法。

【技术实现步骤摘要】

本专利技术涉及对博客服务器日志的数据分析技术和频繁访问模式的挖掘技术, 特别是涉及。
技术介绍
随着互联网技术的不断发展,博客已经不仅仅是一个单纯的发布个人文章、信息 的平台,在增加了各种类如留言、关注、好友等互动功能后,用户之间会逐渐形成一个博客 圈。博客圈中包含好友、潜在好友(尚未加入好友名单的博客或者是好友的好友)和志趣相 投的其他博客等等。在博客这样的典型《吐2. 0应用中,建立志趣相投的用户社会关系是决 定系统成败的关键,因此面向博客的好友推荐已经成为博客系统的主体功能。博客好友推 荐应用通过用户对博客的访问行为,发现博客用户间潜在的关联性,并试着建议博客根据 关联性将与有可能其具有共同兴趣的人群转化为好友关系。博客圈是一种复杂的树形或者图形结构,目前已经存在一些面向博客的好友推荐 系统。他们一般基于博客间已经建立的好友关系和服务器记录的访问量来做推荐,这些推 荐方法基于频繁项挖掘或是频繁序列挖掘,存在以下不足和缺点1)没有考虑博客间特有 的平行链接关系和间接访问特性;2)没有考虑用户访问页面的先后顺序所隐藏的博客页面 间的逻辑关系;3)没有充分考虑网站组织架构的层次关系和深度关系。
技术实现思路
针对博客服务器日志所隐含的丰富的用户行为信息和页面组织信息,本专利技术的目 的在于提供,是针对博客日志的,基于树 形结构挖掘的博客推荐方法。本专利技术解决其技术问题采用的技术方案是 该方法采用的步骤如下1)解析原始日志,提取有效信息,在数据库中创建会话表,用来记录用户的访问路径;2)针对待推荐的博客,在数据库中找出访问过待推荐的博客的用户,根据用户的访问 日志,去回环,构建以待推荐的博客为根的访问日志树;3)对构造出的访问日志树做频繁递归无序树挖掘,找出符合预设要求的频繁子树;4)把频繁子树中的节点作为候选博客好友,按设定的公式进行推荐度计算,取分值最 高的若干个进行推荐。2、根据权利要求1所述的,其特 征在于所述步骤1)中解析原始日志,提取有效信息,就是用日志解析器提取服务器中的 日志,得到一个时间片内的访问记录,去掉用户请求中的冗余信息,转化成访问三元组 < 访 问者,访问时间,访问博客 > 存入会话表中,时间片大小的选择依据博客访问量和运行挖掘 算法的计算机的性能,访问者为注册用户的,以用户名为“访问者”的标识,访问者为匿名用户的,以用户IP为“访问者”的标识。3、根据权利要求1所述的,其特 征在于所述步骤幻中针对待推荐的博客,在数据库中找出访问过待推荐的博客的用户, 根据用户的访问日志,去回环,构建以待推荐的博客为根的访问日志树,就是根据网站的组 织结构信息,针对待推荐的博客,在会话表中查找出访问过该博客的用户和用户第一次访 问该博客的时间,针对每个查找得到的访问者,提取出查找得到的访问者在访问待推荐的 博客后访问的其它博客的记录;树形结构生成器以每个访问者为单位构造访问日志树,访 问者访问的每个博客对应一个节点,每个节点包含访问三元组信息,父子节点关系的形成 依据连续访问请求的时间上的先后顺序;对于产生的回环,删除访问时间上最迟的边,产生 的访问日志树具有三个特点第一,访问日志树具有相同的根节点,即为待推荐的博客;第 二,所有的访问日志树不存在标签相同的兄弟节点;第三,访问日志树是无序的,即每个节 点的子节点是无序的。4、根据权利要求1所述的,其 特征在于所述步骤幻中对构造出的访问日志树做频繁递归无序树挖掘,找出符合预设 要求的频繁子树,就是把所有的访问日志树分别记为tl,t2…tn,选择合适的最小支持度 minsupi (0, 1),用频繁子树挖掘器进行挖掘,具体步骤如下第一步、遍历tl,t2…tn,把“访问三元组”中“访问博客”相同的节点归为相同节点,统 计每种节点在访问日志树中出现的次数frel,对于frel>minsup*n的节点,记为频繁子树 EQl ;第二步、对EQl做扩展,把两个EQl中的节点做连接操作,构成父子关系,形成包含2 个节点的树,作为候选子树,统计出候选子树在所有访问日志树中的出现次数fre2,对于 fre2>minsup*n的候选子树,记为频繁子树EQ2 ;第三步、从EQ2开始,对于每棵树的最右路径,做枚举扩展,每次扩展一个节点,找出所 有可能的候选子树,统计出出现次数frei>minsUp*n的树,记为新的频繁子树EQi,做类似 的递归操作,不断增加挖掘的频繁子树的节点数目,直到没有符合的候选子树为止。5、根据权利要求1所述的,其特 征在于所述步骤4)中把挖掘得到的频繁子树中的节点作为候选博客好友,按设定的公式 进行推荐度计算,取分值最高的若干个进行推荐,就是对节点数大于3的频繁子树,按照出 现频度fre从大到小排序,依次拿出每棵频繁子树,做如下操作根据宽度优先遍历,从树 的第2层开始,计算每个节点的推荐度R,公式如下权利要求1.,其特征在于该方法采用的步骤如下1)解析原始日志,提取有效信息,在数据库中创建会话表,用来记录用户的访问路径;2)针对待推荐的博客,在数据库中找出访问过待推荐的博客的用户,根据用户的访问 日志,去回环,构建以待推荐的博客为根的访问日志树;3)对构造出的访问日志树做频繁递归无序树挖掘,找出符合预设要求的频繁子树;4)把频繁子树中的节点作为候选博客好友,按设定的公式进行推荐度计算,取分值最 高的若干个进行推荐。2.根据权利要求1所述的,其特征在 于所述步骤1)中解析原始日志,提取有效信息,就是用日志解析器提取服务器中的日志, 得到一个时间片内的访问记录,去掉用户请求中的冗余信息,转化成访问三元组〈访问者, 访问时间,访问博客〉存入会话表中,时间片大小的选择依据博客访问量和运行挖掘算法 的计算机的性能,访问者为注册用户的,以用户名为“访问者”的标识,访问者为匿名用户 的,以用户IP为“访问者”的标识。3.根据权利要求1所述的,其特征在 于所述步骤2)中针对待推荐的博客,在数据库中找出访问过待推荐的博客的用户,根据 用户的访问日志,去回环,构建以待推荐的博客为根的访问日志树,就是根据网站的组织结 构信息,针对待推荐的博客,在会话表中查找出访问过该博客的用户和用户第一次访问该 博客的时间,针对每个查找得到的访问者,提取出查找得到的访问者在访问待推荐的博客 后访问的其它博客的记录;树形结构生成器以每个访问者为单位构造访问日志树,访问者 访问的每个博客对应一个节点,每个节点包含访问三元组信息,父子节点关系的形成依据 连续访问请求的时间上的先后顺序;对于产生的回环,删除访问时间上最迟的边,产生的访 问日志树具有三个特点第一,访问日志树具有相同的根节点,即为待推荐的博客;第二, 所有的访问日志树不存在标签相同的兄弟节点;第三,访问日志树是无序的,即每个节点的 子节点是无序的。4.根据权利要求1所述的,其特 征在于所述步骤3)中对构造出的访问日志树做频繁递归无序树挖掘,找出符合预设要 求的频繁子树,就是把所有的访问日志树分别记为tl,t2-tn,选择合适的最小支持度 minsupi (0, 1),用频繁子树挖掘器进行挖掘,具体步骤如下第一步、遍历tl,t2…tn,把“访问三元组”中“访问博客”相同的节点归为相同节点,统 计本文档来自技高网...

【技术保护点】
1.一种基于树形日志模式分析的博客好友推荐方法,其特征在于该方法采用的步骤如下:1) 解析原始日志,提取有效信息,在数据库中创建会话表,用来记录用户的访问路径;2) 针对待推荐的博客,在数据库中找出访问过待推荐的博客的用户,根据用户的访问日志,去回环,构建以待推荐的博客为根的访问日志树;3) 对构造出的访问日志树做频繁递归无序树挖掘,找出符合预设要求的频繁子树;4) 把频繁子树中的节点作为候选博客好友,按设定的公式进行推荐度计算,取分值最高的若干个进行推荐。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈刚胡天磊寿黎但陈珂周健贝毅君
申请(专利权)人:浙江大学
类型:发明
国别省市:86

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1