【技术实现步骤摘要】
本专利技术涉及一种视频相似度的计算方法,属于计算机数据挖掘
技术介绍
随着互联网技术的迅猛发展,在大数据时代,人们可以获得和接触的视频资源越来越多,但找到自己喜欢的视频所花费的时间也越来越多。在视频门户网站中,都会有相关视频推荐的服务,此服务可将更多的视频资源展现给用户,视频推荐技术已经广泛应用到在线视频系统中,其中相关视频推荐已经变成用户发现视频的主要途径之一。具体而言,当用户进入到一部视频的详情页或者一部视频观看结束后,系统会展示一些与该视频相关的视频列表。提高了用户的视频点击率,并在一定的程度上提高用户的付费转化率。相关视频计算是提高个性化服务不可或缺的一部分。一般地,相关视频推荐会依据与目标视频匹配上的标签对备选视频进行排序,有些基于匹配上的标签数目,有些则基于带权重的标签匹配算法。现有的相似视频的计算方法多以视频为基础进行计算,并未从用户的维度进行加权计算。经过分析海信电视用户日志数据,相关视频的转化率不足10%,经过分析得知,线上系统所用的相似视频的计算方法较为单一,视频的主题并未以用户的评论进行加权,导致了相似视频的转化率较低。
技术实现思路
针对现有技术的不足,本专利技术提供了一种视频相似度的计算方法;本专利技术通过对用户的历史数据(观看、评论等的行为数据)分析构建用户特征画像,为了达到高效的目的,用户特征画像的建立是通过离线处理装置事先算好的,因此,可周期性获取用户特征,最后将用户 ...
【技术保护点】
一种视频相似度的计算方法,其特征在于,具体步骤包括:(1)提取视频A初步文本特征①对所述视频A的简介进行中文分词;②计算步骤①获取的每个分词的频率,计算公式如式(Ⅰ)所示:βa,d=count(a,d)count(d)]]> (Ⅰ)式(Ⅰ)中,βa,d是指分词a在视频A的简介d中的频率,count(a,d)是指分词a在视频A的简介d中出现的次数,count(d)是指视频A的简介d中所有分词的数量;③计算分词a在整个数据库中所有视频的简介C中出现的逆文档频率βa,C,计算公式如式(Ⅱ)所示:βa,C=log(ncount(a,C))]]> (Ⅱ);式(Ⅱ)中,n是指整个数据库中所有视频的简介C的总数,count(a,C)是指整个数据库中所有视频的简介C中出现分词a的视频的简介的数量;④计算分词a在所述视频A的简介中的权重βα,计算公式如式(Ⅲ)所示:βα=βα,d*βα,C (Ⅲ)⑤计算视频A的初步文本特征:βA={a:βa,b:βb,.........};其中,{a,b,.........}是指所述视频A的所有分词,{βa,βb,.........}是指所述视 ...
【技术特征摘要】
1.一种视频相似度的计算方法,其特征在于,具体步骤包括:
(1)提取视频A初步文本特征
①对所述视频A的简介进行中文分词;
②计算步骤①获取的每个分词的频率,计算公式如式(Ⅰ)所示:
βa,d=count(a,d)count(d)]]>(Ⅰ)
式(Ⅰ)中,βa,d是指分词a在视频A的简介d中的频率,count(a,d)是指分词a在视频A的简
介d中出现的次数,count(d)是指视频A的简介d中所有分词的数量;
③计算分词a在整个数据库中所...
【专利技术属性】
技术研发人员:邢建平,田欣玉,宋宪明,刘绪,
申请(专利权)人:山东大学,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。