一种电视平台上基于语义链接的异构资源推荐方法和装置制造方法及图纸

技术编号:11139717 阅读:116 留言:0更新日期:2015-03-12 20:02
本发明专利技术公开了一种电视平台上基于语义链接的资源推荐方法和装置,该方法包括:提取后台媒体资源库所有媒体资源的文本信息;根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表。

【技术实现步骤摘要】

本专利技术涉及多媒体
,特别是一种电视平台上基于语义链接的异构资源推荐方法和装置
技术介绍
用户在电视平台上观看电视节目的时候,通常会对当前节目的某些信息感兴趣,想要进一步观看跟当前节目相关的其它媒体资源。针对用户的这一心理,目前出现了一些媒体资源间的推荐方法,一般为根据用户观看的当前资源,获取当前资源的关键词来表征用户特征,使用获得的关键词作为表征用户特征的向量,将与当前资源相似度高的资源推荐给用户。然而目前存在的这些媒体资源间的推荐方法存在很多弊端,例如:多为同类资源间的推荐,异构资源间的推荐应用较少;为数不多的异构资源推荐多为单向推荐,即某种资源到另一种资源,如与电视节目关联的视频源推荐方法、与电视节目关联的产品推荐方法等,多种资源间相互推荐的方法较少;资源推荐方法中起到重要作用的词,部分可识别,部分不能识别需要手工构造,操作起来较为繁琐;局限于词形信息,缺少语义信息;依赖于人工标注,缺少对用户反馈的利用,其推荐结果对用户来说并不十分理想。
技术实现思路
有鉴于此,本专利技术提出了一种电视平台上基于语义链接的异构资源推荐方法和装置,能够根据用户当前观看的资源,无需用户额外操作从而自动、智能推荐异构资源。本专利技术提出的技术方案是:一种电视平台上基于语义链接的异构资源推荐方法,包括:提取后台媒体资源库所有媒体资源的文本信息;根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。一种电视平台上基于语义链接的异构资源推荐装置,包括:文本信息提取模块,用于提取后台媒体资源库所有媒体资源的文本信息;特征词提取模块,根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;媒体资源推荐列表生成模块,如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。综上,本专利技术提出的电视平台上基于语义链接的异构资源推荐方法和装置,依托于海量数据资源,将各类异构资源映射到同一语义空间中,自动构建异构资源间语义关系,生成文本到视频、视频到文本等异构资源之间的语义链接关系,从而产生异构资源推荐列表,该方法有效避免了传统推荐中仅仅局限于词形信息的现象,满足用户对相关性和多样性的要求。附图说明图1为本专利技术方法实施例一的流程图;图2为本专利技术方法实施例二的流程图;图3为本专利技术实施例中的装置结构图。具体实施方式为使本专利技术的目的、技术方案和优点表达的更加清楚明白,下面结合附图及具体实施例对本专利技术再作进一步详细的说明。用户在电视平台上观看当前媒体资源时,本专利技术提出的电视平台上基于语义链接的异构资源推荐方法,可以根据后台媒体资源库中的各类异构资源与用户观看的当前媒体资源的聚类相似度,为用户提供与当前媒体资源相关度较高的L个后台媒体资源,便于用户观看与当前媒体资源相关的后台媒体资源。方法实施例一图1为本专利技术实施例的流程图,如图1所示,包括以下步骤:步骤101:提取后台媒体资源库所有媒体资源的文本信息。本步骤中,首先对后台媒体资源库的所有媒体资源进行文本信息的提取。将后台媒体资源库中每个媒体资源用Di表示,其中i为正整数,且1≤i≤N,N为后台媒体资源库包含的媒体资源的个数。后台媒体资源库的所有媒体资源可以分为两大类:新闻文本和视频资源。对于新闻文本,直接提取文本信息;对于视频资源,文本信息位于视频标题和字幕内容,视频标题相对容易获取,字幕内容的识别方法有两种:一种是播放流中自带字幕,可以从播放流中提取字幕;另一种是通过对图像进行处理,通过定位字幕在图像中的位置完成字幕提取,并整合成相应的视频描述文本。经过对后台媒体资源库中所有媒体资源的文本信息提取,将每个媒体资源用文本的形式表示出来。步骤102:提取后台媒体资源库每个媒体资源的候选特征词。步骤101中获得了后台媒体资源库中每个媒体资源的文本信息,本步骤对步骤101中获取的文本信息进行进一步处理,得到每个媒体资源的候选特征词,媒体资源的候选特征词从一定程度上能够有代表性的表示该媒体资源的内容。首先利用词法分析工具根据词性的不同,将每个媒体资源的文本信息切分为若干个分词,得到每个媒体资源的分词序列。由于词法分析工具仅是根据词性的判断对文本信息进行切分,并没有考虑切分后的分词对表征该媒体资源的重要程度、以及各分词在该媒体资源的文本信息中上下文之间的语义关系,因此这一切分过程可能会得到一些没有实际意义的分词,例如“在”、“把”等,还可能将原本是一个整体的词串切分成两个甚至多个分词,例如将“搜狐视频”切分为“搜”、“狐”、“视频”三个分词,而原本“搜狐视频”应该作为一个整体词串来表征媒体资源的。针对词法分析工具的这一弊端,不能直接将上述得到的分词作为每个媒体资源的候选特征词,需要将上述得到的分词和热词词典进行匹配,用热词词典对上述得到的分词进行修正,将热词词典中包含关系的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征词。例如,某媒体资源的分词序列包括“搜”、“狐”、“视频”三个分词,热词词典中包含“搜”、“狐”、“视频”以及“搜狐视频”四个热词,则将该媒体资源中的“搜”、“狐”、“视频”三个分词按照热词词典中的最长词串“搜狐视频”进行合并,得到该媒体资源的一个候选特征词“搜狐视频”。具体实施时可以采用字典树的方法将每个媒体资源的分词序列与热词词典进行匹配。用热词词典对上述得到的分词进行修正后,能够使修正后的分词更加符合人们的阅读习惯。这里的热词词典是一个热词的集合,热词词典里的热词能够有代表性的表征后台媒体资源库的语义信息,其构建方法为:(1)根据后台媒体资源库中所有媒体资源的文本信息的语言类型,选用特定本文档来自技高网...
一种电视平台上基于语义链接的异构资源推荐方法和装置

【技术保护点】
一种电视平台上基于语义链接的资源推荐方法,其特征在于,该方法包括:提取后台媒体资源库所有媒体资源的文本信息;根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T;如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成媒体资源推荐列表,所述L为大于0的整数。

【技术特征摘要】
1.一种电视平台上基于语义链接的资源推荐方法,其特征在于,该方法包
括:
提取后台媒体资源库所有媒体资源的文本信息;
根据每个媒体资源的文本信息提取该媒体资源的候选特征词,计算所述候
选特征词的权值,根据所述权值对所述候选特征词进行过滤得到特征词,生成
后台媒体资源库的特征词权值矩阵T;
如果用户观看的当前媒体资源是所述后台媒体资源库中的媒体资源,则采
用聚类的方法利用所述特征词权值矩阵T计算所述后台媒体资源库中每个媒体
资源与当前媒体资源的聚类相似度,选取聚类相似度最高的L个媒体资源生成
媒体资源推荐列表,所述L为大于0的整数。
2.根据权利要求1所述的方法,其特征在于,所述根据每个媒体资源的文
本信息提取该媒体资源的候选特征词,计算所述候选特征词的权值,对所述候
选特征词进行过滤得到特征词,生成后台媒体资源库的特征词权值矩阵T,进
一步包括:
针对所述后台媒体资源库的每个媒体资源,利用词法分析工具根据词性的
不同,将所述每个媒体资源的文本信息切分为分词序列;
将每个媒体资源的分词序列和热词词典进行匹配,将热词词典中包含关系
的多个分词按照最长词串进行合并,合并后的分词作为该媒体资源的候选特征
词;
计算所述候选特征词的权值,所述权值为所述候选特征词的词频-逆文档频
率值,将权值不小于权值阈值的候选特征词通过停用表进行过滤,过滤通过的
候选特征词为该媒体资源的特征词;
利用后台媒体资源库所有媒体资源的特征词构建后台媒体资源库的特征
词,用向量C=[c1,…,cj,,…,cM]表示,其中,M为后台媒体资源库的特征词数量,
后台媒体资源库的特征词包含了后台媒体资源库中每个媒体资源的特征词,且

\t任意两个后台媒体资源库的特征词不相同;
设定M×N的特征词权值矩阵T,该矩阵的行数M表示后台媒体资源库的
特征词cj的数量,列数N表示后台媒体资源库的媒体资源Di的数量,特征词权
值矩阵T的元素tji表示特征词cj在媒体资源Di中的权值,当特征词cj是媒体资
源Di的特征词时,tji为特征词cj在媒体资源Di中的TF-IDF值;当特征词cj不是
媒体资源Di的特征词时,tji=0。
3.根据权利要求2所述的方法,其特征在于,该方法进一步包括:
将特征词权值矩阵T进行奇异值分解,奇异值分解后得到包含语义关系的
三个矩阵S、V、UT,且T=SVUT,其中,UT为特征词权值矩阵T经过奇异值
分解降维后的特征词权值矩阵。
4.根据权利要求1所述的方法,其特征在于,如果用户观看的当前媒体资
源不是所述后台媒体资源库中的媒体资源,所述采用聚类的方法计算所述后台
媒体资源库中每个媒体资源与当前媒体资源的聚类相似度之前,该方法进一步
包括:
获取用户观看的当前媒体资源的文本信息,根据所述当前媒体的文本信息
提取所述当前媒体资源的特征词,计算每一特征词的权值,构建当前媒体资源
的权值向量Y,Y为M×1矩阵,矩阵元素yj(1≤j≤M)为特征词cj在当前媒体资
源中的权值,当特征词cj是当前媒体资源的特征词时,yj为特征词cj在当前媒
体资源中的TF-IDF值;当特征词cj不是当前媒体资源的特征词时,yj=0。
5.根据权利要求3或4所述的方法,其特征在于,该方法进一步包括:
将矩阵Y进行如下变换:Y1=YTSV-1,其中YT为Y的转置矩阵,V-1为V的
逆矩阵。
6.根据权利要求1所述的方法,其特征在于,所述采用聚类的方法利用所
述特征词权值矩阵T计算所述后台媒体资源库中每个媒体资源与当前媒体资源
的聚类相似度,进一步包括:
将当前媒体资源的特征词定义为特定特征词,将后台媒体资源库中在所有

\t特定特征词上权值均不为0的媒体资源构成后台媒体资源集合采用K-means算法对后台媒体资源集合进行聚类,其中K-means算
法中的K取特定特征词的个数,将后台媒体资源集合划分为K个类
遍历中每个后台媒体资源与当前媒体资源的聚类相似度,
中后台媒体资源Dj与当前媒体资源D'之间的聚类相似度通过如下公
式进行计算:
其中,后台媒体资源Dj与当前媒体资源D'之间的相似度Sim(Dj,D')用余弦相
似度进行计算:
Sim(Dj,D′)=Σk=1(ujk×yk)Σk=1ujk2Σk=1yk2;]]>其中,ujk为Dj在UT中对应的第j行第k列元素,yk为D'在Y1中对应的第k
列元素。
7.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
针对用户点击媒体资源推荐列表中的媒体资源的点击顺序和点击量,对后
台媒体资源库的特征词权值矩阵T进行权值调整,具体包括:
根据计算单个用户对媒体资源Rl的评
分,其中Rl为媒体资源推荐列表中被用户当前点击观看的媒体资源,rank(Rl)为
用户对媒体资源Rl的点击顺序,且1≤rank(Rl)≤L,Score_max为限定单个用户对
媒体资源评分的最大值的常数;
根据计算媒体资源Rl当前的总评分,其中P为当前点击媒体资源
Rl的用户数量;
如果媒体资源Rl当前的总评分不大于评分阈值根据公式
f(tj)=tj×(1+Score(Rl)/(α+1))对媒体资源Rl的每个特征词权值进行调整;
如果媒体资源Rl当前的总评分大于评分阈值将媒体资源Rl的所有特征词加入高频特征词集合中,根据公式f(tj)=tj×(1+Score(Rl)/(β+1))
对媒体资源Rl的每个特征词权值进行调整;
其中,tj为媒体资源Rl的第j个特征词的权值,即特征词权值矩阵T中媒
体资源Rl对应的元素,f(tj)为媒体资源Rl的第j个特征词调整后的权值;α为
权值调整参数,且中的特征词存在互异性,即不包含重复的特征词;β为权值调整参数,且X为中包含的特征词数量。
8.一种电视平台上基于语义链接的资源...

【专利技术属性】
技术研发人员:郑玄陈洁
申请(专利权)人:三星电子中国研发中心三星电子株式会社
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1