确定目标视频的标签的方法、装置、计算设备及存储介质制造方法及图纸

技术编号:26924085 阅读:11 留言:0更新日期:2021-01-01 22:48
本申请公开了一种确定目标视频的标签的方法、装置、计算设备以及计算机可读存储介质。该方法包括:确定所述目标视频的特征向量;基于所述目标视频的特征向量与至少一个已有视频的特征向量,从所述至少一个已有视频中确定所述目标视频的相似视频,其中所述相似视频与所述目标视频的相似度大于预设相似度阈值,并且每个所述至少一个已有视频具有至少一个标签;基于所述相似视频的标签,确定所述目标视频的标签。本申请的方法可提高为目标视频确定的标签的准确度,提高了确定标签的过程的效率,并且减少了成本。

【技术实现步骤摘要】
确定目标视频的标签的方法、装置、计算设备及存储介质
本申请涉及数据处理的
,尤其涉及一种确定目标视频的标签的方法、装置、计算设备以及计算机可读存储介质。
技术介绍
在互联网和移动通信技术快速发展的时代,尤其是近些年来短视频的迅速发展,网络中视频量以指数级的速度增长,因此使用户能够准确快速地搜索到期望的视频或者向用户准确地推荐合适(例如,符合其兴趣)的视频逐渐成了关注点。这通常依赖于视频的标签。目前,为视频确定标签的方法主要是人工观看视频并确认。这个过程需要大量的人力,时间和金钱成本都非常高。而且,对于一些特定领域的视频,往往需要该领域内的专业人士才能确定匹配度高的标签。另外,并不排除一些视频制作者为了获取更高的关注度而恶意添加与视频内容不符的标签。除了人工添加标签的方法,还可以通过机器学习等方式从视频的标题或视频涉及的文本内容中识别一些标签来供人工标记参考。但是,视频相关的文本内容通常只有一个标题,字数一般小于20,难以概括整个视频的所有关键信息。对于不以文字为主要元素或文字元素难以提取的视频来说,从中识别标签的准确度是比较低的,或者可能需要人工再次确认和选择标签,这无疑降低了识别标签的效率并且增加了识别标签的成本。
技术实现思路
根据本申请的第一方面,提供了一种确定目标视频的标签的方法。所述方法包括:确定所述目标视频的特征向量;基于所述目标视频的特征向量与至少一个已有视频的特征向量,从所述至少一个已有视频中确定所述目标视频的相似视频,其中所述相似视频与所述目标视频的相似度大于预设相似度阈值,并且每个所述至少一个已有视频具有至少一个标签;基于所述相似视频的标签,确定所述目标视频的标签。在一些实施例中,所述方法还包括:确定所述至少一个已有视频的特征向量,其中确定所述目标视频的特征向量的方式与确定所述至少一个已有视频的特征向量的方式相同。在一些实施例中,确定所述目标视频的特征向量包括:确定所述目标视频的至少一种模态数据的全局特征向量;基于所述至少一种模态数据的全局特征向量确定所述目标视频的特征向量。在一些实施例中,所述至少一种模态数据包括所述目标视频的图像数据、音频数据和文本数据中的至少一种,并且确定所述目标视频的至少一种模态数据的全局特征向量包括:确定所述图像数据的全局特征向量、确定所述音频数据的全局特征向量、确定所述文本数据的全局特征向量这三个步骤中的至少一个。并且,基于所述至少一种模态数据的全局特征向量确定所述目标视频的特征向量包括:基于所述图像数据的全局特征向量、所述音频数据的全局特征向量和所述文本数据的全局特征向量中的至少一种确定所述目标视频的特征向量。在一些实施例中,所述图像数据包括所述目标视频的图像流,并且确定所述图像数据的全局特征向量包括:从所述图像流的各图像帧中识别出场景特征并基于所述场景特征得到所述图像流的场景全局特征向量;从所述图像流的各图像帧中识别出对象特征并基于所述对象特征得到所述图像流的对象全局特征向量;从所述图像流的各图像帧中识别出人脸特征并基于所述人脸特征得到所述图像流的人脸全局特征向量;基于所述场景全局特征向量、所述对象全局特征向量和所述人脸全局特征向量,得到所述图像数据的全局特征向量。在一些实施例中,从所述图像流的各图像帧中识别出场景特征并基于所述场景特征得到所述图像流的场景全局特征向量包括:基于所述场景特征将所述图像流分割为多个镜头片段;基于每个所述多个镜头片段的各图像帧的场景特征,得到所述多个镜头片段各自的场景镜头特征向量;基于每个所述镜头片段在所述图像流中的时长占比对所述场景镜头特征向量加权;基于已加权的所述场景镜头特征向量得到所述场景全局特征向量。在一些实施例中,从所述图像流的各图像帧中识别出对象特征并基于所述对象特征得到所述图像流的对象全局特征向量包括:基于每个所述多个镜头片段的各图像帧的对象特征,得到所述多个镜头片段各自的对象镜头特征向量;基于每个所述镜头片段在所述图像流中的时长占比对所述对象镜头特征向量加权;基于已加权的所述对象镜头特征向量得到所述对象全局特征向量。在一些实施例中,从所述图像流的各图像帧中识别出人脸特征并基于所述人脸特征得到所述图像流的人脸全局特征向量包括:基于每个所述多个镜头片段的各图像帧的人脸特征,得到所述多个镜头片段各自的人脸镜头特征向量;基于每个所述镜头片段在所述图像流中的时长占比对所述人脸镜头特征向量加权;基于已加权的所述人脸镜头特征向量得到所述人脸全局特征向量。在一些实施例中,基于所述场景特征将所述图像流分割为多个镜头片段包括:基于所述图像流中每相邻两个图像帧之间的差异,将所述图像流分割为所述多个镜头片段。在一些实施例中,基于所述相似视频的标签,确定所述目标视频的标签包括:对所述相似视频的标签的出现次数排名;将排名处于前n位的标签确定为所述目标视频的标签,其中n为正整数。在一些实施例中,基于所述相似视频的标签,确定所述目标视频的标签包括:将出现次数大于预设次数的所述相似视频的标签确定为所述目标视频的标签。根据本申请的第二方面,提供了一种确定目标视频的标签的装置,其特征在于,包括:目标视频特征向量确定模块,其配置成确定所述目标视频的特征向量;相似视频确定模块,其配置成基于所述目标视频的特征向量与至少一个已有视频的特征向量,从所述至少一个已有视频中确定与所述目标视频的相似度大于预设相似度阈值的已有视频作为相似视频,其中每个所述至少一个已有视频具有至少一个标签;目标视频标签确定模块,其配置成基于所述相似视频的标签,确定所述目标视频的标签。根据本申请的第三方面,提供了一种计算设备,包括;存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如上所述的确定目标视频的标签的方法。根据本申请的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如上面所述的确定目标视频的标签的方法。在本申请要求保护的确定目标视频的标签的方法和装置,计算设备及计算机可读存储介质中,本申请利用了已经具有标签的已有视频来为目标视频确定标签。通过应用已有视频的准确性较高的标签,所确定的目标视频的标签的准确性得到了提高。此外,通过已有视频的标签的应用,提高了现有资源的利用率。并且,通过利用目标视频和已有视频的特征向量作为寻找相似视频的手段,可以更准确地在已有视频中找到目标视频的相似视频,进一步提高了所确定的标签的准确性。附图说明现在将更详细并且参考附图来描述本申请的实施例,其中:图1示意性地示出了根据本申请实施例的技术方案可以实施在其中的网络架构的结构;图2示意性地示出了根据本申请实施例的确定目标视频的标签的方法的示例性场景示意图;图3示意性地示出了根据本申请实施例的确定目标视频的标签的方法的流程图;图4示意性地示出了根据本申请实施例的确定视频的特征向量的示例性原理图;图5示意性地示出了根据本申请实施例的确定图像流的全局特征向本文档来自技高网...

【技术保护点】
1.一种确定目标视频的标签的方法,其特征在于,所述方法包括:/n确定所述目标视频的特征向量;/n基于所述目标视频的特征向量与至少一个已有视频的特征向量,从所述至少一个已有视频中确定所述目标视频的相似视频,其中所述相似视频与所述目标视频的相似度大于预设相似度阈值,并且每个所述至少一个已有视频具有至少一个标签;/n基于所述相似视频的标签,确定所述目标视频的标签。/n

【技术特征摘要】
1.一种确定目标视频的标签的方法,其特征在于,所述方法包括:
确定所述目标视频的特征向量;
基于所述目标视频的特征向量与至少一个已有视频的特征向量,从所述至少一个已有视频中确定所述目标视频的相似视频,其中所述相似视频与所述目标视频的相似度大于预设相似度阈值,并且每个所述至少一个已有视频具有至少一个标签;
基于所述相似视频的标签,确定所述目标视频的标签。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述至少一个已有视频的特征向量,其中确定所述目标视频的特征向量的方式与确定所述至少一个已有视频的特征向量的方式相同。


3.根据权利要求1所述的方法,其特征在于,确定所述目标视频的特征向量包括:
确定所述目标视频的至少一种模态数据的全局特征向量;
基于所述至少一种模态数据的全局特征向量确定所述目标视频的特征向量。


4.根据权利要求3所述的方法,其特征在于,所述至少一种模态数据包括所述目标视频的图像数据、音频数据和文本数据中的至少一种,并且确定所述目标视频的至少一种模态数据的全局特征向量包括:
确定所述图像数据的全局特征向量、确定所述音频数据的全局特征向量和确定所述文本数据的全局特征向量中的至少一个;
其中,基于所述至少一种模态数据的全局特征向量确定所述目标视频的特征向量包括:
基于所述图像数据的全局特征向量、所述音频数据的全局特征向量和所述文本数据的全局特征向量中的至少一种确定所述目标视频的特征向量。


5.根据权利要求4所述的方法,其特征在于,所述图像数据包括所述目标视频的图像流,并且确定所述图像数据的全局特征向量包括:
从所述图像流的各图像帧中识别出场景特征并基于所述场景特征得到所述图像流的场景全局特征向量;
从所述图像流的各图像帧中识别出对象特征并基于所述对象特征得到所述图像流的对象全局特征向量;
从所述图像流的各图像帧中识别出人脸特征并基于所述人脸特征得到所述图像流的人脸全局特征向量;
基于所述场景全局特征向量、所述对象全局特征向量和所述人脸全局特征向量,得到所述图像数据的全局特征向量。


6.根据权利要求5所述的方法,其特征在于,从所述图像流的各图像帧中识别出场景特征并基于所述场景特征得到所述图像流的场景全局特征向量包括:
基于所述场景特征将所述图像流分割为多个镜头片段;
基于每个所述多个镜头片段的各图像帧的场景特征,得到所述多个镜头片段各自的场景镜头特征向量;
基于每个所述镜头片段在所述图像流中的时长占比对所述场景镜头特征向量加权;
基于已加权的所述场景镜头特征向量得...

【专利技术属性】
技术研发人员:刘刚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1