视频分类方法、设备和介质技术

技术编号:28321897 阅读:11 留言:0更新日期:2021-05-04 13:02
本公开提供了一种视频分类方法、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、大数据处理技术领域。实现方案为:对目标视频进行抽帧,以得到多个目标视频帧;将所述多个目标视频帧输入目标分类模型,获取所述目标分类模型输出的所述多个目标视频中每一个目标视频帧的第一类别预测分数,所述第一类别预测分数能够表征所述目标视频帧属于第一视频类别的概率;确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数;以及针对所述多个目标视频帧,响应于确定相应的第一类别预测分数不小于所述第一预设分数阈值的一个或多个目标视频帧的数量不小于所述第一预设视频帧数,确定所述目标视频的类别为所述第一视频类别。

【技术实现步骤摘要】
视频分类方法、设备和介质
本公开涉及人工智能
,尤其涉及计算机视觉、大数据处理
,具体涉及一种视频分类方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。随着互联网技术飞速发展,短视频的应用场景不断被丰富,海量的短视频被上传至互联网平台,丰富了人们的生活。互联网平台可以对上传的短视频进行分类,以提升推荐效果,进而提升用户体验。在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
本公开提供了一种视频分类方法、装置、电子设备、计算机可读存储介质和计算机程序产品。根据本公开的一方面,提供了一种视频分类方法,包括:对目标视频进行抽帧,以得到多个目标视频帧;将所述多个目标视频帧输入目标分类模型,获取所述目标分类模型输出的所述多个目标视频中每一个目标视频帧的第一类别预测分数,所述第一类别预测分数能够表征所述目标视频帧属于第一视频类别的概率;确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数;以及针对所述多个目标视频帧,响应于确定相应的第一类别预测分数不小于所述第一预设分数阈值的一个或多个目标视频帧的数量不小于所述第一预设视频帧数,确定所述目标视频的类别为所述第一视频类别。根据本公开的另一方面,提供了一种视频分类装置,包括:抽帧单元,被配置为对目标视频进行抽帧,以得到多个目标视频帧;目标分类模型,被配置为对输入的所述多个目标视频帧进行处理,以输出所述多个目标视频中每一个目标视频帧的第一类别预测分数,所述第一类别预测分数能够表征所述目标视频帧属于第一视频类别的概率;第一确定单元,被配置为确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数;以及第二确定单元,被配置为针对所述多个目标视频帧,响应于确定相应的第一类别预测分数不小于所述第一预设分数阈值的一个或多个目标视频帧的数量不小于所述第一预设视频帧数,确定所述目标视频的类别为所述第一视频类别。根据本公开的另一方面,提供了一种电子设备,包括:存储器、处理器以及存储在存储器上的计算机程序,其中,处理器被配置为执行计算机程序以实现上述的方法的步骤。根据本公开的另一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现上述的方法的步骤。根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序被处理器执行时实现上述的方法的步骤。根据本公开的一个或多个实施例,可以通过确定视频类别级的预设分数阈值和预设视频帧数,从而能够基于目标分类模型对于视频的多个视频帧属于预设视频类别的类别预测分数,准确、快速地确定视频是否为预设视频类别。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;图2示出了根据本公开的实施例的视频分类方法的流程图;图3和图4示出了根据本公开的实施例的确定预设分数阈值和预设视频帧数的方法流程图;图5示出了根据本公开的实施例的视频分类方法的流程图;图6示出了根据本公开的实施例的目标分类模型的训练方法流程图;图7示出了根据本公开的实施例的视频分类装置的结构框图;图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。具体实施方式以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。下面将结合附图详细描述本公开的实施例。图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。在本公开的实施例中,服务器120可以运行能够执行本公开的视频分类方法的一个或多个服务或软件应用。在某些实施例中,服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的系统配置是可能的,其可以与系统100不同。因此,图1是用于实施本文所描述的各种方法的系统的一个示例,并且不旨在进行限制。用户可以使用客户端设备101、102、103、104、105和/或106来按照视频分类结果显示本文档来自技高网...

【技术保护点】
1.一种视频分类方法,包括:/n对目标视频进行抽帧,以得到多个目标视频帧;/n将所述多个目标视频帧输入目标分类模型,获取所述目标分类模型输出的所述多个目标视频中每一个目标视频帧的第一类别预测分数,所述第一类别预测分数能够表征所述目标视频帧属于第一视频类别的概率;/n确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数;以及/n针对所述多个目标视频帧,响应于确定相应的第一类别预测分数不小于所述第一预设分数阈值的一个或多个目标视频帧的数量不小于所述第一预设视频帧数,确定所述目标视频的类别为所述第一视频类别。/n

【技术特征摘要】
1.一种视频分类方法,包括:
对目标视频进行抽帧,以得到多个目标视频帧;
将所述多个目标视频帧输入目标分类模型,获取所述目标分类模型输出的所述多个目标视频中每一个目标视频帧的第一类别预测分数,所述第一类别预测分数能够表征所述目标视频帧属于第一视频类别的概率;
确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数;以及
针对所述多个目标视频帧,响应于确定相应的第一类别预测分数不小于所述第一预设分数阈值的一个或多个目标视频帧的数量不小于所述第一预设视频帧数,确定所述目标视频的类别为所述第一视频类别。


2.根据权利要求1所述的方法,其中,所述确定第一视频类别相关的第一预设分数阈值和第一预设视频帧数包括:
获取所述第一视频类别的多个正样本视频和多个负样本视频,每一正样本视频包括至少一个正样本帧,每一负样本视频的所有帧均为负样本帧;
对所述多个正样本视频中每一正样本视频进行抽帧,以得到多个正样本视频帧,并且对所述多个负样本视频中每一负样本视频进行抽帧,以得到多个负样本视频帧;
将所述多个正样本视频各自所包括的多个正样本视频帧输入所述目标分类模型,获取所述目标分类模型输出的每一正样本视频帧的第一类别预测分数;
将所述多个负样本视频各自所包括的多个负样本视频帧输入所述目标分类模型,获取所述目标分类模型输出的每一负样本视频帧的第一类别预测分数;以及
基于预设召回率和预设误检率,以及所述多个正样本视频中每一正样本视频帧的第一类别预测分数和所述多个负样本视频中每一负样本视频帧的第一类别预测分数,确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数。


3.根据权利要求2所述的方法,其中,基于预设召回率和预设误检率,以及每一正样本视频帧的第一类别预测分数和每一负样本视频帧的第一类别预测分数,确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数包括:
设定多个初始分数阈值和多个初始视频帧数;
基于所述多个初始分数阈值中任一初始分数阈值和所述多个初始视频帧数中任一初始视频帧数的组合,以及每一正样本视频帧的第一类别预测分数,确定所述多个正样本视频中属于所述第一视频类别的至少一个正样本视频的召回数量;以及
基于所述召回数量和所述多个正样本视频的总数量,确定所述多个初始分数阈值中任一初始分数阈值和所述多个初始视频帧数中任一初始视频帧数的组合所相应的召回率。


4.根据权利要求3所述的方法,其中,基于预设召回率和预设误检率,以及每一正样本视频帧的第一类别预测分数和每一负样本视频帧的第一类别预测分数,确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数还包括:
基于所述多个初始分数阈值中任一初始分数阈值和所述多个初始视频帧数中任一初始视频帧数的组合,以及每一负样本视频帧的第一类别预测分数,确定所述多个负样本视频中属于所述第一视频类别的至少一个负样本视频的误检数量;以及
基于所述误检数量和所述多个负样本视频的总数量,确定所述多个初始分数阈值中任一初始分数阈值和所述多个初始视频帧数中任一初始视频帧数的组合所相应的误检率。


5.根据权利要求4所述的方法,其中,基于预设召回率和预设误检率,以及每一正样本视频帧的第一类别预测分数和每一负样本视频帧的第一类别预测分数,确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数还包括:
从所述多个初始分数阈值中任一初始分数阈值和所述多个初始视频帧数中任一初始视频帧数的组合中,确定相应的所述召回率大于所述预设召回率并且相应的所述误检率小于所述预设误检率的至少一个组合;以及
基于所述至少一个组合中每一个组合相应的初始分数阈值和初始视频帧数,确定所述第一视频类别相关的第一预设分数阈值和第一预设视频帧数。


6.根据权利要求3所述的方法,其中,所述多个初始分数阈值为等差数列。


7.根据权利要求3所述的方法,其中,所述一个或多个初始分数阈值的取值区间为[0.2,0.8]。


8.根据权利要求3所述的方法,其中,所述多个初始视频帧数包括1、2、3。


9.根据权利要求1-8中任一项所述的方法,其中,所述目标分类模型的输出还包括所述多个目标视频中每一个目标视频帧的第二类别预测分数,所述第一类别预测分数能够表征所述目标视频帧属于第二视频类别的概率,所述第二视频类别不同于所述第一视频类别,
其中,所述方法还包括:
确定第二视频类别相关的第二预设分数阈值和第二预设视频帧数;
针对所述多个目标视频帧,响应于确定相应的第二类别预测分数不小于所述第二预设分数阈值的一个或多个目标视频帧的数量不小于所述第二预设视频帧数,确定所述目标视频的类别为所述第二视频类别。


10.根据权利要求9所述的方法,其中,所述方法还包括:
响应于确定所述目标视频的类别不为所述第一视频类别和第二视频类别,确定所述目标视频为第三视频类别。


11.根据权利要求1...

【专利技术属性】
技术研发人员:崔东林王加明王明凯于天宝贠挺陈国庆
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1