有线电视点播节目推荐方法及系统技术方案

技术编号:19152531 阅读:25 留言:0更新日期:2018-10-13 10:48
本发明专利技术提供一种有线电视点播节目推荐方法及系统,包括:采集用户收视行为数据和节目元数据;将收视行为数据一部分用于训练,一部分用于测试;转化训练收视行为数据为用户对节目评分,构成用户‑节目的评分矩阵;标准化节目元数据;根据评分矩阵和元数据采用多种分析方法获得多个节目候选集;对多个待推荐的节目候选集进行加权组合,根据测试集判断各种加权组合准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。上述推荐方法及系统实现对用户的个性化推荐,提高推荐精度与效率。

Cable TV on demand program recommendation method and system

The invention provides a cable TV on demand program recommendation method and system, including: collecting user's viewing behavior data and program metadata; training and testing part of the viewing behavior data; transforming the training viewing behavior data for user's rating of the program, forming a user's rating matrix; Qualified program metadata; multiple program candidate sets are obtained by multiple analysis methods according to score matrix and metadata; multiple candidate sets are weighted and combined to determine the accuracy or/or recall rate of each weighted combination according to the test set; and the weighted combination with high accuracy or/or recall rate is used as the recommendation result. Generate recommendation list. The above recommendation method and system achieve personalized recommendation for users, and improve the accuracy and efficiency of recommendation.

【技术实现步骤摘要】
有线电视点播节目推荐方法及系统
本专利技术涉及有线电视
,更为具体地,涉及一种有线电视点播节目推荐方法及系统。
技术介绍
推荐系统常被用户解决信息过载问题,为用户提供个性化的服务。现有的推荐方法主要包括协同过滤方法和基于内容推荐方法两大类,其中以协同过滤应用最为广泛。具体地,协同过滤方法大致分为基于内存的方法和基于模型的方法两种,前者以基于用户/项目相似度的近邻推荐为代表,后者以基于矩阵分解的推荐为代表。大数据时代,用户行为数据呈现海量增长趋势,推荐系统的稀疏性问题日益凸显。稀疏性问题是指,系统中的用户和项目数量非常大,用户之间的行为重叠非常少。并且,数据稀疏度定义为用户对项目的已有行为数量占所有可能存在的行为数量的百分比。现有的解决稀疏性问题的办法包括:扩散方法,从一阶关联提升为二阶关联、高阶关联;添加缺省评分方法;迭代寻优方法;转移相似性方法等。此外,单一的推荐方法往往不能取得理想的效果。
技术实现思路
鉴于上述问题,本专利技术的目的是提供一种实现对用户的个性化推荐,提高推荐精度与效率的有线电视点播节目推荐方法及系统。根据本专利技术的一个方面,提供一种有线电视点播节目推荐系统,包括:采集部,包括第一采集单元和第二采集单元,所述第一采集单元采集有线电视用户的收视行为数据,第二采集单元,爬取网上节目的元数据;分类部,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;数据预处理部,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户-节目的评分矩阵;将第二采集单元采集的元数据进行标准化;节目候选集获得部,包括第一分析模块、第二分析模块、第三分析模块和第四分析模块,其中,第一分析模块采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;第二分析模块采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;第三分析模块根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;第四分析模块,根据电影元数据,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;推荐列表生成部,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据分类部分出的测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。所述的有线电视点播节目推荐系统,其中,所述数据预处理部包括:第一数据清洗模块,对训练集的训练收视行为数据进行清洗;第二数据清洗模块,对第二采集单元采集的元数据数据进行清洗;转化模块,对清洗后的训练收视行为数据和元数据进行转化,包括筛选单元,对用户和节目进行筛选,去除不活跃的用户和冷门节目;收视行为转化单元,用户的训练收视行为数据转化为用户对节目的评分;评分变换单元,根据四舍五入法将评分转换为取值为0或1的整数;评分矩阵构建单元,将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵;元数据处理单元,对节目的元数据的变量进行预处理,所述预处理包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类。所述的有线电视点播节目推荐系统,其中,所述第一数据清洗模块包括:第一判断单元,判断同一用户的训练收视行为数据起始时间是否相同,将同一用户起始时间相同的训练收视行为数据发送给第一筛选单元;第一筛选单元,选择结束时间大的所述训练收视行为数据,删除其余训练收视行为数据;第二判断单元,判断同一用户的训练收视行为数据结束时间是否相同,将同一用户结束时间相同的训练收视行为数据发送给第二筛选单元;第二筛选单元,选择起始时间小的所述训练收视行为数据,删除其余训练收视行为数据;排序单元,对训练用户收视行为数据按用户、起始时间降序排列;第三判断单元,判断排序单元排列的同一用户的前后两条训练收视行为数据在收视记录时间上是否有重叠,将重叠的训练收视行为数据发送给第三筛选单元;第三筛选单元,删除重叠的训练收视行为数据中序列靠后的训练收视行为数据。所述的有线电视点播节目推荐系统,其中,所述第二数据清洗模块包括:编辑距离获得单元,计算原始点播节目名称与爬取的节目名称之间的编辑距离;第四判断单元,判断所述编辑距离是否大于设定阈值,当所述编辑距离大于设定阈值时,发送信号给第四筛选单元;第四筛选单元,删除编辑距离大于设定阈值的爬取的节目的元数据。所述的有线电视点播节目推荐系统,其中,所述节目候选集获得部还包括:相似度获得模块,计算用户相似度和节目相似度,包括:相似度模型构建单元,根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,其中,pearsonij为节目i和节目j的皮尔逊相关系数;U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,表示所有用户对节目i的平均评分;利用余弦相似度根据下式(2)构建第二相似度模型,其中,cosineij为节目i和节目j的余弦相似度;利用Jaccard相似度根据下式(3)构建第三相似度模型,其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;邻居集合确定单元,运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;邻居评分确定单元,根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分其中,是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;节目候选集确定单元,根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。所述的有线电视点播节目推荐系统,其中,所述推荐列表生成部包括加权组合单元、准确度计算单元或/和召回率计算单元以及推荐列表生成单元,其中:加权组合单元,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;准确度计算单元,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;召回率计算单元,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,t本文档来自技高网...

【技术保护点】
1.一种有线电视点播节目推荐系统,其特征在于,包括:采集部,包括第一采集单元和第二采集单元,所述第一采集单元采集有线电视用户的收视行为数据,第二采集单元,爬取网上节目的元数据;分类部,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;数据预处理部,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户‑节目的评分矩阵;将第二采集单元采集的元数据进行标准化;节目候选集获得部,包括第一分析模块、第二分析模块、第三分析模块和第四分析模块,其中,第一分析模块采用矩阵分解方法分解用户‑节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;第二分析模块采用矩阵分解方法分解用户‑节目的评分矩阵,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;第三分析模块根据用户‑节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;第四分析模块,根据电影元数据,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;推荐列表生成部,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据分类部分出的测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。...

【技术特征摘要】
1.一种有线电视点播节目推荐系统,其特征在于,包括:采集部,包括第一采集单元和第二采集单元,所述第一采集单元采集有线电视用户的收视行为数据,第二采集单元,爬取网上节目的元数据;分类部,将第一采集单元采集的所述收视行为数据一部分作为训练收视行为数据,组成训练集,另一部分作为测试收视行为数据,组成测试集;数据预处理部,将所述训练集的用户的训练收视行为数据转化为用户对节目的评分,所述评分为用户对节目的收视时长与节目的播出时长的比值,每个用户对每个节目的评分构成用户-节目的评分矩阵;将第二采集单元采集的元数据进行标准化;节目候选集获得部,包括第一分析模块、第二分析模块、第三分析模块和第四分析模块,其中,第一分析模块采用矩阵分解方法分解用户-节目的评分矩阵,根据低秩矩阵中的元素取值生成待推荐的第一节目候选集C1;第二分析模块采用矩阵分解方法分解用户-节目的评分矩阵,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第二节目候选集C2;第三分析模块根据用户-节目的评分矩阵计算用户相似度以及节目相似度,运用邻域推荐模型生成待推荐的第三节目候选集C3;第四分析模块,根据电影元数据,计算用户相似度以及电影节目相似度,运用邻域推荐模型生成待推荐的第四节目候选集C4;推荐列表生成部,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合,根据分类部分出的测试集判断各种加权组合的准确度或/和召回率,将准确度或/和召回率高的加权组合作为推荐结果,生成推荐列表。2.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述数据预处理部包括:第一数据清洗模块,对训练集的训练收视行为数据进行清洗;第二数据清洗模块,对第二采集单元采集的元数据数据进行清洗;转化模块,对清洗后的训练收视行为数据和元数据进行转化,包括筛选单元,对用户和节目进行筛选,去除不活跃的用户和冷门节目;收视行为转化单元,用户的训练收视行为数据转化为用户对节目的评分;评分变换单元,根据四舍五入法将评分转换为取值为0或1的整数;评分矩阵构建单元,将每个用户对每个节目经过评分变换单元的评分组成用户-节目评分矩阵;元数据处理单元,对节目的元数据的变量进行预处理,所述预处理包括:判断变量的属性,对数值属性的变量进行归一化处理,对字符属性的变量进行分类。3.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述节目候选集获得部还包括:相似度获得模块,计算用户相似度和节目相似度,包括:相似度模型构建单元,根据相似度算法构建相似度模型,所述相似度算法包括皮尔逊相关系数、余弦相似度、平方距离倒数相似度和Jaccard相似度,其中,利用皮尔逊相关系数根据下式(1)构建第一相似度模型,其中,pearsonij为节目i和节目j的皮尔逊相关系数;U(i)表示对节目i评分的用户集合,rui表示用户u对节目i的评分,表示所有用户对节目i的平均评分;利用余弦相似度根据下式(2)构建第二相似度模型,其中,cosineij为节目i和节目j的余弦相似度;利用Jaccard相似度根据下式(3)构建第三相似度模型,其中,jaccardpq为用户p和用户q的Jaccard相似度,|U(p)∩U(q)|为用户p和用户q共同评分节目的数量,|U(p)∪U(q)|为用户p评分节目数量和用户q评分节目数量之和;邻居集合确定单元,运用邻域推荐模型,根据各节目之间的相似度和各用户之间的相似度确定每个节目的邻居集合;邻居评分确定单元,根据下式(4)确定不同用户对各节目的邻居集合中的节目的预测评分其中,是用户u对节目i的预测得分,R(u)是用户u产生行为的节目集合,Sk(i)是与节目i最为相似的k个节目,sim(i,j)表示节目i和节目j之间的相似度;节目候选集确定单元,根据用户对各节目的邻居集合的预测得分,按照预测得分高低的顺序选取设定数量的节目作为用户的节目候选集。4.根据权利要求1所述的有线电视点播节目推荐系统,其特征在于,所述推荐列表生成部包括加权组合单元、准确度计算单元或/和召回率计算单元以及推荐列表生成单元,其中:加权组合单元,对节目候选集获得部的多个待推荐的节目候选集按多种策略进行加权组合或利用机器学习理念对不同节目候选集获得部的不同相似度计算方法进行加权组合;准确度计算单元,根据测试集的测试收视行为数据根据下式(5)计算各种加权组合的准确度,其中,Precision为一种加权组合的准确度,n表示测试集上的用户个数,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,L表示推荐列表的长度;召回率计算单元,根据测试集的测试收视行为数据根据下式(6)计算各种加权组合的召回率,其中,Recall为一种加权组合的召回率,hit(p)表示用户p的推荐节目列表与其在测试集上实际点播的节目列表的交集中元素的个数,test(p)表示用户p在测试集上实际点播的节目个数;推荐列表生成单元,将准确度或/和召回率高的...

【专利技术属性】
技术研发人员:王妍柴剑平李波冯熙殷复莲江茜檀雷雷韩晶晶
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1