一种基于Web挖掘的视频推荐方法和系统技术方案

技术编号:12301668 阅读:95 留言:0更新日期:2015-11-11 11:46
本发明专利技术公开了一种基于Web挖掘的视频推荐方法和系统,该方法首先将数据挖掘算法应用于Web挖掘用户观看视频的点击行为数据中,利用分类回归树建立用户兴趣模型,采用传统的协同过滤算法给用户推荐个性化的视频,克服了传统推荐系统由于用户评论信息少而带来的数据稀疏性问题,缓解了新用户或新项目无评分的推荐冷启动问题,提高了用户观看视频的满意度,最后将同一兴趣喜好的用户生成推荐,在视频推荐系统中实现好友推荐。

【技术实现步骤摘要】

本专利技术一种基于Web挖掘的视频推荐方法和系统,属于数据挖掘

技术介绍
如今已经进入了一个数据爆炸的时代,Web2.0的蓬勃发展使得内容的创建和分享变得越来越容易,互联网用户每天都有大量的图片、博客、视频发布到网上,人们逐渐从信息匮乏的时代走入了信息过载的时代。在这个时代,无论是信息消费者还是信息生产者都遇到了极大的挑战:对于信息消费者,信息的爆炸性增长使得人们找到他们需要的信息将变得越来越难;而对于信息生产者,为了让自己生产的信息脱颖而出,受到广大用户的关注,也是一件棘手的事情,推荐系统就是为了解决这一矛盾的重要工具。然而现有的推荐系统仍然面临许多困难和挑战:主要包括:1、数据稀疏性是推荐系统面临的主要问题。协同过滤推荐算法基于用户-项目评分矩阵,通过相似度计算找出与目标用户度较高的用户进行推荐,评分数据的稀疏将导致推荐结果不准确;2、在大数据环境下,当推荐系统的用户数量达到千万级别时,推荐算法将面临严重的可扩展问题。许多在线网站需要对用户产生及时的推荐结果,而现有的推荐算法都不具有可扩展性;3、推荐系统中特征提取问题。一方面互联网的大量信息以多媒体形式存在,由于多媒体信息自动特征提取技术的限制,多媒体信息推荐研究缓慢,另一方面对文本信息进行推荐时,面临过拟合的现象。Web挖掘是将数据挖掘应用于Web以便从其文档和服务中自动发现抽取信息。它是一个跨学科的领域,涉及到人工智能、知识发现、数据挖掘、机器学习、统计学等学科的知识。同时,Web挖掘也存在语义分析难、深层数据库信息抽取复杂以及网站内容时效性弱等问题。而本专利技术能够很好地解决上面的问题。
技术实现思路
为了克服传统推荐系统中由于用户评论信息少而带来的数据稀疏性问题,缓解新用户或新项目无评分的推荐冷启动问题,本专利技术提出了一种基于Web挖掘给用户推荐视频的方法和系统,该方法能够主动给用户推荐个性化的视频,提高了用户观看视频的满意度,并且推荐结果非常准确。本专利技术解决其技术问题所采用的技术方案是:一种基于Web挖掘的视频推荐方法,该方法包括如下步骤:步骤1:通过Web挖掘对用户浏览日志进行分析,获取用户观看视频的行为和属性数据。该数据包括用户的注册信息、用户搜索视频的记录、用户观看视频记录以及用户对视频的评分;所述Web挖掘数据预处理包括四个步骤,即:数据净化、用户识别、会话识别和路径补充。步骤2:对采集后的用户数据进行预处理后存储在数据库中,从该数据库中获取每个视频的属性信息,并根据该属性信息提取用户的兴趣标记,利用分类回归树建立个性化兴趣模型;根据步骤2所述CART生成决策树时用基尼(Gini)指数选择最优特征,Gini指数计算公式为:Gini(p)=1-ΣK=1Kpk2]]>式2式中pk是样本点属于第k类的概率。步骤3:采用协同过滤推荐算法对用户生成推荐视频;步骤4:对每个用户的兴趣喜好进行标记,把具有相同标记的用户划归为一个类,在同一个类中的用户之间实现相互推荐。本专利技术的上述方法应用于Web挖掘的视频推荐系统。本专利技术还提供了一种基于Web挖掘的视频推荐系统,该系统包括:行为记录模块、模型分析模块、推荐算法模块。行为记录模块的功能是:采集用户信息的行为记录模块是通过分析用户搜索、观看视频记录获取用户喜好;模型分析模块的功能是:建立用户兴趣的模型分析模块,采用分类回归树获取用户兴趣模型;推荐算法模块的功能是:利用协同过滤推荐算法,实时地从视频库中筛选出用户感兴趣视频进行推荐,同时把相同兴趣的用户推荐给目标用户。协同过滤算法计算用户A与用户B之间的相似度,其所采用的计算公式为:其中A为用户A,B为用户B,sim(A,B)为用户之间的兴趣相似度,N(A)表示用户A曾经有过正反馈的视频个数,N(B)表示用户B曾经有过正反馈的视频个数。本专利技术的系统采用相似度计算公式,用于惩罚用户A、B共同兴趣列表中,热门视频对他们相似度的影响,推荐结果更准确,更高效。有益效果:1、本专利技术是基于Web挖掘的个性化推荐系统通过使用Web挖掘技术实现隐式的数据采集方式,在不需要用户的参与就能获得用户与项目之间潜在的喜好关系或者评分信息,不仅仅提高了用户体验,还能有效减少恶意评论对系统准确性的干扰。2、本专利技术是基于Web挖掘发现的用户偏好信息,具有客观性,比仅仅依靠用户评分数据相比更准确、更具说服力,还能在一定程度上降低由于用户评分信息较少而带来的数据稀疏性问题,缓解推荐系统中由于新用户或者新项目无评分而导致的推荐冷启动问题。3、本专利技术能主动给用户推荐个性化的视频,避免用户被动地搜索视频,提高用户观看视频的满意度。4、本专利技术在视频推荐系统中进行好友推荐,让共同兴趣的用户能成为好友。附图说明图1为本专利技术基于用户的协同过滤推荐原理示意图。图2为本专利技术基于项目的协同过滤推荐原理示意图。图3为本专利技术的方法流程图。图4为本专利技术的系统结构示意图。具体实施方式下面结合说明书附图对本专利技术创造作进一步的详细说明。本专利技术技术术语包括:知识发现:是指意为从数据库中发现知识,它代表从低层次数据中提取高层次知识的全过程,包括数据信息的收集,数据原型的确定,相关函数的分析,知识的抽取和数据模式分析。个性化视频推荐系统:是指通过建立用户与视频信息之间的二元关系,获取用户的选择、搜索以及观看评分记录,利用数据挖掘发现用户的喜好并主动向用户推荐用户感兴趣的视频。冷启动问题:是指新用户或新项目无评分导致系统无法推荐。冷启动主要分为三类:用户冷启动:是指当新用户加入系统后,系统中没有用户的行为数据,无法根据他的历史行为为其推荐感兴趣的项目,从而无法实现个性化推荐。项目冷启动:是指主要解决如何将新的项目推荐给可能对它感兴趣的用户。系统冷启动:是指主要解决如何在一个新开发的网站上设计个性化推荐系统,从而在网站刚发布时就让用户体验个性化服务。本专利技术的推荐系统包括3个部分,即:搜集用户信息的行为记录模块、分析用户喜好的模型分析模块以及推荐算法模块,其中推荐算法是最核心的部分。根据不同的推荐算法,推荐系统可以分为协同过滤系统、基于内容推荐系统、基于关联规则推荐系统以及混合推荐,各种推荐方法优缺点比较如下表,包括:主要推荐方法对比在本专利技术的实现方法中首先要获取用户数据。Web用户访问数据可以从三个方面收集:服务器端(即:Server)、客户端(即:Client)、代理端(即:Proxy本文档来自技高网
...

【技术保护点】
一种基于Web挖掘的视频推荐方法,其特征在于,所述方法包括如下步骤:步骤1:通过Web挖掘对用户浏览日志进行分析,获取用户观看视频的行为和属性数据,该数据包括用户的注册信息、用户搜索视频的记录、用户观看视频记录以及用户对视频的评分;所述Web挖掘数据预处理包括四个步骤,即:数据净化、用户识别、会话识别和路径补充;步骤2:对采集后的用户数据进行预处理后存储在数据库中,从该数据库中获取每个视频的属性信息,并根据该属性信息提取用户的兴趣标记,利用分类回归树建立个性化兴趣模型;根据步骤2所述CART生成决策树时用基尼,即Gini指数选择最优特征,Gini指数计算公式为:Gini(p)=1-ΣK=1Kpk2]]>       式2式中pk是样本点属于第k类的概率;步骤3:采用协同过滤推荐算法对用户生成推荐视频;步骤4:对每个用户的兴趣喜好进行标记,把具有相同标记的用户划归为一个类,在同一个类中的用户之间实现相互推荐。

【技术特征摘要】
1.一种基于Web挖掘的视频推荐方法,其特征在于,所述方法包括如下步骤:
步骤1:通过Web挖掘对用户浏览日志进行分析,获取用户观看视频的行为和属性数据,
该数据包括用户的注册信息、用户搜索视频的记录、用户观看视频记录以及用户对视频的评
分;所述Web挖掘数据预处理包括四个步骤,即:数据净化、用户识别、会话识别和路径补
充;
步骤2:对采集后的用户数据进行预处理后存储在数据库中,从该数据库中获取每个视频
的属性信息,并根据该属性信息提取用户的兴趣标记,利用分类回归树建立个性化兴趣模型;
根据步骤2所述CART生成决策树时用基尼,即Gini指数选择最优特征,Gini指数计算
公式为:
Gini(p)=1-ΣK=1Kpk2]]>式2
式中pk是样本点属于第k类的概率;
步骤3:采用协同过滤推荐算法对用户生成推荐视频;
步骤4:对每个用户的兴趣喜好进行标记,把具有相同标记的用户划归为一个类,在同一
个类中的用户之间实现相互推荐。
2.根据权利要求1所述的一种基于Web挖掘的视频推荐方法,其特征在于,所述方法应
用于Web挖掘的视频推荐系统。
3.一种基于Web挖掘的视频推荐系统,其特征在于,所述系...

【专利技术属性】
技术研发人员:周亮徐璐孟浩
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1