当前位置: 首页 > 专利查询>山东大学专利>正文

一种视频相似度的计算方法技术

技术编号:15054537 阅读:95 留言:0更新日期:2017-04-06 00:34
本发明专利技术涉及一种视频相似度的计算方法,具体包括:(1)提取视频A初步文本特征;(2)采用LDA主题模型提取视频A的隐性特征;(3)计算视频A的文本特征vA,通过步骤(1)-(3)计算视频的B文本特征vB,并计算视频A、视频B之间的相似度。本发明专利技术通过对用户的历史数据分析构建用户特征画像,为了达到高效的目的,用户特征画像的建立是通过离线处理装置事先算好的,因此,可周期性获取用户特征,最后将用户特征画像融入到相关视频推荐中,从而达到了个性化推荐的目的。本发明专利技术根据用户的评论对传统的相似视频计算方法进行修正,在提高相关视频转化率及提升用户体验的同时,也给视频供应商带来了巨大的经济效益。

【技术实现步骤摘要】

本专利技术涉及一种视频相似度的计算方法,属于计算机数据挖掘

技术介绍
随着互联网技术的迅猛发展,在大数据时代,人们可以获得和接触的视频资源越来越多,但找到自己喜欢的视频所花费的时间也越来越多。在视频门户网站中,都会有相关视频推荐的服务,此服务可将更多的视频资源展现给用户,视频推荐技术已经广泛应用到在线视频系统中,其中相关视频推荐已经变成用户发现视频的主要途径之一。具体而言,当用户进入到一部视频的详情页或者一部视频观看结束后,系统会展示一些与该视频相关的视频列表。提高了用户的视频点击率,并在一定的程度上提高用户的付费转化率。相关视频计算是提高个性化服务不可或缺的一部分。一般地,相关视频推荐会依据与目标视频匹配上的标签对备选视频进行排序,有些基于匹配上的标签数目,有些则基于带权重的标签匹配算法。现有的相似视频的计算方法多以视频为基础进行计算,并未从用户的维度进行加权计算。经过分析海信电视用户日志数据,相关视频的转化率不足10%,经过分析得知,线上系统所用的相似视频的计算方法较为单一,视频的主题并未以用户的评论进行加权,导致了相似视频的转化率较低。
技术实现思路
针对现有技术的不足,本专利技术提供了一种视频相似度的计算方法;本专利技术通过对用户的历史数据(观看、评论等的行为数据)分析构建用户特征画像,为了达到高效的目的,用户特征画像的建立是通过离线处理装置事先算好的,因此,可周期性获取用户特征,最后将用户特征画像融入到相关视频推荐中,从而达到了个性化推荐的目的。本专利技术根据用户的评论对传统的相似视频计算方法进行修正,在提高相关视频转化率及提升用户体验的同时,也给视频供应商带来了巨大的经济效益。术语解释文本特征,是指用于表示文本的基本单位;本专利技术的技术方案为:一种视频相似度的计算方法,具体步骤包括:(1)提取视频A初步文本特征①对所述视频A的简介进行中文分词;②计算步骤①获取的每个分词的频率,计算公式如式(Ⅰ)所示:βa,d=count(a,d)count(d)---(I)]]>式(Ⅰ)中,βa,d是指分词a在视频A的简介d中的频率,count(a,d)是指分词a在视频A的简介d中出现的次数,count(d)是指视频A的简介d中所有分词的数量;③计算分词a在整个数据库中所有视频的简介C中出现的逆文档频率βa,C,计算公式如式(Ⅱ)所示:βa,C=log(ncount(a,C))---(II);]]>式(Ⅱ)中,n是指整个数据库中所有视频的简介C的总数,count(a,C)是指整个数据库中所有视频的简介C中出现分词a的视频的简介的数量;步骤③为了惩罚在整个数据库中所有视频的简介C中出现频率较高的词汇,频率越高说明这个词汇在某个视频的简介中的作用越差,比如“的”这个词,在整个数据库中所有视频的简介C中出现的次数很多,对视频的简介的贡献越小。④计算分词a在所述视频A的简介中的权重βα,计算公式如式(Ⅲ)所示:βα=βα,d*βα,C(Ⅲ)⑤计算视频A的初步文本特征:βA={a:βa,b:βb,.........本文档来自技高网...

【技术保护点】
一种视频相似度的计算方法,其特征在于,具体步骤包括:(1)提取视频A初步文本特征①对所述视频A的简介进行中文分词;②计算步骤①获取的每个分词的频率,计算公式如式(Ⅰ)所示:βa,d=count(a,d)count(d)]]>  (Ⅰ)式(Ⅰ)中,βa,d是指分词a在视频A的简介d中的频率,count(a,d)是指分词a在视频A的简介d中出现的次数,count(d)是指视频A的简介d中所有分词的数量;③计算分词a在整个数据库中所有视频的简介C中出现的逆文档频率βa,C,计算公式如式(Ⅱ)所示:βa,C=log(ncount(a,C))]]>  (Ⅱ);式(Ⅱ)中,n是指整个数据库中所有视频的简介C的总数,count(a,C)是指整个数据库中所有视频的简介C中出现分词a的视频的简介的数量;④计算分词a在所述视频A的简介中的权重βα,计算公式如式(Ⅲ)所示:βα=βα,d*βα,C  (Ⅲ)⑤计算视频A的初步文本特征:βA={a:βa,b:βb,.........};其中,{a,b,.........}是指所述视频A的所有分词,{βa,βb,.........}是指所述视频A的所有分词对应的权重;(2)采用LDA主题模型提取视频A的隐性特征⑥对所述视频A的简介进行中文分词;⑦将步骤⑥获取的所有分词放置在语料库;⑧将步骤⑦获取的所述语料库输入所述LDA主题模型,指定主题数目,输出:视频A在每个指定主题上的相关度Vtv及所有分词在每个指定主题上的相关度Vat;⑨计算分词a在视频A的简介中的权重αa,计算公式如式(Ⅳ)所示:αa=Vat*Vtv  (Ⅳ)⑩计算视频A的隐性特征为αA={a:αa,b:αb,.........},其中,{a,b,.........}是指所述视频A的所有分词,{αa,αb,.........}是指所述视频A的所有分词对应的权重;(3)计算视频A的文本特征vA,计算公式如式(Ⅴ)所示:vA=λαA*(1‑λ)βA  (Ⅴ)式(Ⅴ)中,λ为相似视频转化率最大时的取值;(4)通过步骤(1)‑(3)计算视频的B文本特征vB,并计算视频A、视频B之间的相似度,计算公式如式(Ⅵ)所示:sim(vA,vB)=cos(vA→,vB→)=vA→·vB→|vA→|*|vB→|]]>  (Ⅵ)。...

【技术特征摘要】
1.一种视频相似度的计算方法,其特征在于,具体步骤包括:
(1)提取视频A初步文本特征
①对所述视频A的简介进行中文分词;
②计算步骤①获取的每个分词的频率,计算公式如式(Ⅰ)所示:
βa,d=count(a,d)count(d)]]>(Ⅰ)
式(Ⅰ)中,βa,d是指分词a在视频A的简介d中的频率,count(a,d)是指分词a在视频A的简
介d中出现的次数,count(d)是指视频A的简介d中所有分词的数量;
③计算分词a在整个数据库中所...

【专利技术属性】
技术研发人员:邢建平田欣玉宋宪明刘绪
申请(专利权)人:山东大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1