重复视频检测方法和装置制造方法及图纸

技术编号:20681031 阅读:42 留言:0更新日期:2019-03-27 18:55
本申请实施例公开了重复视频检测方法和装置。该方法的一具体实施方式包括:获取目标视频,对该目标视频进行视频描述,生成该目标视频的视频描述语句;对所生成的视频描述语句进行自然语言处理,得到该目标视频的目标视频特征;检测该目标视频特征与视频特征集合中的视频特征的相似度;若该目标视频特征与该视频特征集合中的、任意视频的视频特征的相似度大于或等于预设相似度阈值,则将该目标视频确定为与该视频特征集合关联的视频的重复视频。本申请实施例提供的方案能够利用视频描述,准确地确定重复视频,避免视频的重复存储,进而可以更加合理地利用存储空间,避免存储空间的无效占用。

【技术实现步骤摘要】
重复视频检测方法和装置
本申请实施例涉及计算机
,具体涉及互联网
,尤其涉及重复视频检测方法和装置。
技术介绍
随着互联网技术的发展,视频数据呈爆炸式增长。每天在互联网上增加的各种长视频、短视频不计其数,给视频的存储带来挑战。在视频存储的过程中,可能会存在重复视频的存储,造成存储空间的浪费。
技术实现思路
本申请实施例提出了重复视频检测方法和装置。第一方面,本申请实施例提供了一种重复视频检测方法,包括:获取目标视频,对目标视频进行视频描述处理,生成目标视频的视频描述语句;对所生成的视频描述语句进行自然语言处理,得到目标视频的目标视频特征;检测目标视频特征与视频特征集合中的视频特征的相似度;若目标视频特征与视频特征集合中的、任意视频的视频特征的相似度大于或等于预设相似度阈值,则将目标视频确定为与视频特征集合关联的视频的重复视频。第二方面,本申请实施例提供了一种重复视频检测装置,包括:获取单元,被配置成获取目标视频,对目标视频进行视频描述处理,生成目标视频的视频描述语句;处理单元,被配置成对所生成的视频描述语句进行自然语言处理,得到目标视频的目标视频特征;相似度确定单元,被配置成检测目标视频特征与视频特征集合中的视频特征的相似度;重复视频确定单元,被配置成若目标视频特征与视频特征集合中的、任意视频的视频特征的相似度大于或等于预设相似度阈值,则将目标视频确定为与视频特征集合关联的视频的重复视频。第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如重复视频检测方法中任一实施例的方法。第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如重复视频检测方法中任一实施例的方法。本申请实施例提供的重复视频检测方案,首先,获取目标视频,对目标视频进行视频描述处理,生成目标视频的视频描述语句。之后,对所生成的视频描述语句进行自然语言处理,得到目标视频的目标视频特征。然后,检测目标视频特征与视频特征集合中的视频特征的相似度;最后,若目标视频特征与视频特征集合中的、任意视频的视频特征的相似度大于或等于预设相似度阈值,则将目标视频确定为与视频特征集合关联的视频的重复视频。本申请实施例提供的方案能够利用视频描述,准确地确定重复视频,避免视频的重复存储,进而可以更加合理地利用存储空间,避免存储空间的无效占用。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的重复视频检测方法的一个实施例的流程图;图3是根据本申请的重复视频检测方法的一个应用场景的示意图;图4是根据本申请的重复视频检测方法的又一个实施例的流程图;图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的重复视频检测方法或重复视频检测装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如重复视频检测应用、视频类应用、直播应用、即时通信工具、邮箱客户端、社交平台软件等。这里的终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的目标视频等数据进行分析等处理,并将处理结果(例如重复视频)反馈给终端设备。需要说明的是,本申请实施例所提供的重复视频检测方法可以由服务器105或者终端设备101、102、103执行,相应地,重复视频检测装置可以设置于服务器105或者终端设备101、102、103中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。继续参考图2,示出了根据本申请的重复视频检测方法的一个实施例的流程200。该重复视频检测方法,包括以下步骤:步骤201,获取目标视频,对目标视频进行视频描述处理,生成目标视频的视频描述语句。在本实施例中,重复视频检测方法的执行主体(例如图1所示的服务器或终端设备)可以获取目标视频,并对该目标视频进行视频描述处理,以生成该目标视频的视频描述语句。视频描述处理为利用视频描述(videocaption)技术,对视频的内容进行描述。视频描述语句为描述视频内容的语句。步骤202,对所生成的视频描述语句进行自然语言处理,得到目标视频的目标视频特征。在本实施例中,上述执行主体可以对所生成的视频描述语句进行自然语言处理(naturallanguageprocessing,NLP),并将处理得到的特征作为目标视频的目标视频特征。视频特征可以体现视频的特点,以向量的形式存在。目标视频特征为上述目标视频的特征。具体地,自然语言处理可以采用多种方式,比如概率图模型、贝叶斯网络或马尔科夫模型等等。步骤203,检测目标视频特征与视频特征集合中的视频特征的相似度。在本实施例中,上述执行主体在得到了目标视频特征之后,可以检测目标视频特征与视频特征集合中的视频特征的相似度。在实践中,可以采用多种方式确定相似度。比如,视频特征的相似度可以基于视频特征之间的海明距离表示。此外,视频特征可以表示为多维空间中的坐标点,那么可以基于视频特征之间的欧氏距离表示相似度。具体地,距离越小,则相似度越大。步骤204,若目标视频特征与视频特征集合中的、任意视频的视频特征的相似度大于或等于预设相似度阈值,则将目标视频确定为与视频特征集合关联的视频的重复视频。在本实施例中,上述执行主体可以确定目标视频特征与视频特征集合中的、任意视频的视频特征的相似度。如果确定目标视频特征与任意的一个或多个视频的视频特征的相似度大于或等于预设相似度阈值,则可以将目标视频确定为与视频特征集合相关联的视频的重复视频。在这里,视频特征集合本文档来自技高网...

【技术保护点】
1.一种重复视频检测方法,包括:获取目标视频,对所述目标视频进行视频描述处理,生成所述目标视频的视频描述语句;对所生成的视频描述语句进行自然语言处理,得到所述目标视频的目标视频特征;检测所述目标视频特征与视频特征集合中的视频特征的相似度;若所述目标视频特征与所述视频特征集合中的、任意视频的视频特征的相似度大于或等于预设相似度阈值,则将所述目标视频确定为与所述视频特征集合关联的视频的重复视频。

【技术特征摘要】
1.一种重复视频检测方法,包括:获取目标视频,对所述目标视频进行视频描述处理,生成所述目标视频的视频描述语句;对所生成的视频描述语句进行自然语言处理,得到所述目标视频的目标视频特征;检测所述目标视频特征与视频特征集合中的视频特征的相似度;若所述目标视频特征与所述视频特征集合中的、任意视频的视频特征的相似度大于或等于预设相似度阈值,则将所述目标视频确定为与所述视频特征集合关联的视频的重复视频。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述目标视频特征与所述视频特征集合中的、各个视频的视频特征的相似度小于预设相似度阈值,则将所述目标视频添加到预设视频库中;以及将所述目标视频的目标视频特征添加到所述视频特征集合中。3.根据权利要求1或2所述的方法,其特征在于,所述对所生成的视频描述语句进行自然语言处理,得到所述目标视频的目标视频特征,包括:将所生成的视频描述语句输入词嵌入模型,得到所生成的视频描述语句的特征,将所述特征作为所述目标视频的目标视频特征。4.根据权利要求3所述的方法,其特征在于,所述词嵌入模型通过以下方式训练得到:获取预设的视频描述语句,以及所述预设的视频描述语句的特征;基于所述预设的视频描述语句与所对应的特征,训练初始词嵌入模型,得到所述词嵌入模型。5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述获取目标视频之后,所述方法还包括:将所述目标视频分割为至少两个视频片段,其中,不同的视频片段对应所述目标视频的不同事件;以及所述对所述目标视频进行视频描述处理,生成所述目标视频的视频描述语句,包括:对于所述目标视频的每个视频片段,将该视频片段输入视频描述生成模型,得到该视频...

【专利技术属性】
技术研发人员:齐镗泉
申请(专利权)人:连尚新昌网络科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1