处理视频资源的方法及装置制造方法及图纸

技术编号:16270006 阅读:47 留言:0更新日期:2017-09-22 21:40
本公开揭示了一种处理视频资源的方法及装置。所述方法包括:视频资源两两之间确定所在网页页面之间的页面相似度;提取所在网页页面中视频资源的名称标签,获得视频资源名称;根据视频资源名称确定视频资源两两之间的名称相似度;融合名称相似度和页面相似度,获得视频资源两两之间的相似度;根据相似度识别两两视频资源是否匹配。由上述方法可知,通过视频资源两两之间确定所在网页页面之间的页面相似度,并根据视频资源名称确定视频资源两两之间的名称相似度后,融合名称相似度和页面相似度,获得视频资源两两之间的相似度,根据相似度识别两两视频资源是否匹配,解决了同一部视频有多个名字,导致视频资源之间无法匹配的问题。

【技术实现步骤摘要】
处理视频资源的方法及装置
本公开涉及互联网技术应用领域,特别涉及一种处理视频资源的方法及装置。
技术介绍
在视频资源的处理过程中,大家基本在处理相同视频时都采用的视频资源名称相同,或者视频资源名称去掉国语,粤语等,使视频资源名称硬匹配相同,才认为视频资源为同一部视频。在上述视频资源的处理方法可知,该视频资源的处理方法存在同一部视频有多个名字,如星际迷航2和星际迷航2:暗黑无界,导致视频资源之间无法匹配的问题。
技术实现思路
为了解决相关技术中存在的同一部视频有多个名字,导致视频资源之间无法匹配的问题,本公开提供了一种处理视频资源的方法及装置。一种处理视频资源的方法,所述方法包括:视频资源两两之间确定所在网页页面之间的页面相似度;提取所在网页页面中视频资源的名称标签,获得视频资源名称;根据所述视频资源名称确定所述视频资源两两之间的名称相似度;融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;根据所述相似度识别所述两两视频资源是否匹配。一种处理视频资源的装置,所述装置包括:页面相似度确定模块,用于视频资源两两之间确定所在网页页面之间的页面相似度;视频资源名称获取模块,用于提取所在网页页面中视频资源的名称标签,获得视频资源名称;名称相似度获取模块,用于根据所述视频资源名称确定所述视频资源两两之间的名称相似度;融合模块,用于融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;识别模块,用于根据所述相似度识别所述两两视频资源是否匹配。本公开的实施例提供的技术方案可以包括以下有益效果:视频资源两两之间确定所在网页页面之间的页面相似度;提取所在网页页面中视频资源的名称标签,获得视频资源名称;根据视频资源名称确定视频资源两两之间的名称相似度;融合名称相似度和页面相似度,获得视频资源两两之间的相似度;根据相似度识别两两视频资源是否匹配。由上述方法可知,通过视频资源两两之间确定所在网页页面之间的页面相似度,并根据视频资源名称确定视频资源两两之间的名称相似度后,融合名称相似度和页面相似度,获得视频资源两两之间的相似度,根据相似度识别两两视频资源是否匹配,解决了同一部视频有多个名字,导致视频资源之间无法匹配的问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并于说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种处理视频资源的方法的流程图;图2是图1对应实施例的视频资源两两之间确定所在网页页面之间的页面相似度在一个实施例的流程图;图3是图1对应实施例的融合名称相似度和页面相似度,获得视频资源两两之间的相似度在一个实施例的流程图;图4是图1对应实施例的根据相似度识别两两视频资源是否匹配在一个实施例的流程图;图5是根据一示例性实施例示出的一种处理视频资源的装置框图;图6是图5对应实施例的页面相似度确定模块在一个实施例的框图;图7是图5对应实施例的融合模块在一个实施例的框图。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种处理视频资源的方法的流程图。如图1所示,该处理视频资源的方法可以包括以下步骤。在步骤110中,视频资源两两之间确定所在网页页面之间的页面相似度。其中,视频资源所在网页页面为包含着视频资源信息的网页页面。在一个示例性实施例中,该视频资源信息可以包括视频资源的:名称,国家地区,导演,演员,语言和摘要等信息。确定所在网页页面之间的页面相似度通过计算出视频资源所在网页页面的哈希字符串,并根据视频资源所在网页页面的哈希字符串,确定视频资源所在网页页面之间的页面相似度。在步骤130中,提取所在网页页面中视频资源的名称标签,获得视频资源名称。其中,视频资源所在的网页页面中包含着视频资源信息,视频资源信息中包含该视频资源的名称。从视频资源所在网页页面中,提取存储的视频资源信息,从视频资源信息中,提取视频资源的名称标签,从而根据视频资源的名称标签,获得视频资源名称。在步骤150中,根据视频资源名称确定视频资源两两之间的名称相似度。在一个示例性实施例中,可采用编辑距离的方式,计算视频资源两两之间的名称相似度。首先定义这样一个函数——edit(i,j),它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。其中i和j代表两个视频资源的视频资源名称转化成字符串形式的字符串长度。ifi=0且j=0,edit(i,j)=0ifi=0且j>0,edit(i,j)=jifi>0且j=0,edit(i,j)=iifi≥1且j≥1,edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},当第一个字符串的第i个字符不等于第二个字符串的第j个字符时,f(i,j)=1,否则,f(i,j)=0。根据上述步骤得出数据矩阵,并根据该数据矩阵计算出两个视频间的编辑距离。根据编辑距离计算出两个视频资源的名称相似度,公式如下。其中,sim2(A,B)为两个视频的名称相似度,editA,B为两个视频间的编辑距离。根据该公式确定视频资源两两之间的名称相似度。对于本专利技术,此方法仅供参考,实际实现方法并不局限于此。在步骤170中,融合名称相似度和页面相似度,获得视频资源两两之间的相似度。其中,融合名称相似度和页面相似度即通过计算获取的名称相似度和页面相似度,得到视频资源两两之间的相似度。该相似度用于表明视频资源之间是否相匹配。在步骤190中,根据相似度识别两两视频资源是否匹配。其中,通过比较预先配置的相似度阈值和获取的相似度,从而识别两两视频资源是否匹配,若两两视频匹配,则该两两视频资源为相同的视频,若两两视频资源不匹配,则该两两视频资源为不相同的视频。此实施例解决了同一部视频有多个名字,导致视频资源之间无法匹配的问题。图2是根据一示例性实施例示出的对步骤110的细节进行描述。如图2所示,该步骤110可包括以下步骤。在步骤111中,分别计算视频资源所在网页页面的哈希字符串。在一个示例性实施例中,将视频资源所在页面中包含的视频资源信息中的视频资源的名称,国家地区,导演,演员,语言和摘要等信息进行合并分词,通过Hash算法把每个词变成Hash值,并将该Hash值按照在视频资源所在网页页面的出现频率,形成加权字符串。将各个Hash值形成的加权字符串进行累加,得到一个序列串。将得到的序列串变成只含有0和1的字符串,即为得到的视频资源所在网页页面的哈希字符串。对于本专利技术,此方法仅供参考,实际实现方法并不局限于此。在步骤113中,根据哈希字符串,视频资源两两之间确定所在网页页面之间的页面相似度。其中,得到视频资源所在网页页面的哈希字符串simHash(A)和simHash(B),并根据哈希字符串simHash(A)和sim本文档来自技高网...
处理视频资源的方法及装置

【技术保护点】
一种处理视频资源的方法,其特征在于,所述方法包括:视频资源两两之间确定所在网页页面之间的页面相似度;提取所在网页页面中视频资源的名称标签,获得视频资源名称;根据所述视频资源名称确定所述视频资源两两之间的名称相似度;融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;根据所述相似度识别所述两两视频资源是否匹配。

【技术特征摘要】
1.一种处理视频资源的方法,其特征在于,所述方法包括:视频资源两两之间确定所在网页页面之间的页面相似度;提取所在网页页面中视频资源的名称标签,获得视频资源名称;根据所述视频资源名称确定所述视频资源两两之间的名称相似度;融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度;根据所述相似度识别所述两两视频资源是否匹配。2.根据权利要求1所述的方法,其特征在于,所述视频资源两两之间确定所在网页页面之间的页面相似度步骤包括:分别计算所述视频资源所在网页页面的哈希字符串;根据所述哈希字符串,视频资源两两之间确定所在网页页面之间的页面相似度。3.根据权利要求1所述的方法,其特征在于,所述融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度步骤包括:获取预先配置的相似度权重;根据所述相似度权重,融合所述名称相似度和所述页面相似度,获得所述视频资源两两之间的相似度。4.根据权利要求1所述的方法,其特征在于,所述根据所述相似度识别所述两两视频资源是否匹配步骤包括:判断所述相似度是否大于预先配置的相似度阈值,若为是,则识别所述两两视频资源匹配,若为否,则识别所述两两视频资源不匹配。5.根据权利要求1所述的方法,其特征在于,所述根据所述相似度识别所述两两视频资源是否匹配之后,所述方法还包括:在根据所述相似度识别所述两两视频资源匹配之后,两两合并所述视频资源。6....

【专利技术属性】
技术研发人员:隋雪芹徐钊于芝涛
申请(专利权)人:聚好看科技股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1