视频识别方法、装置、设备、系统及存储介质制造方法及图纸

技术编号:35265282 阅读:27 留言:0更新日期:2022-10-19 10:26
本公开提供了一种视频识别方法、装置、设备、系统及存储介质。涉及人工智能技术领域,尤其涉及自然语言处理、知识图谱、深度学习、计算机视觉等技术领域,可应用于视频理解、视频分类、智能推荐等场景。具体实现方案为:获取目标视频的视频特征序列,目标视频包括多个动作片段;基于视频特征序列,确定多个动作片段的开始位置和结束位置;基于多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;基于多个候选动作片段的边界表示向量和中心表示向量,对多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;基于多个修正后的候选动作片段,确定目标视频的识别结果。本公开能提升对视频的识别准确性。别准确性。别准确性。

【技术实现步骤摘要】
视频识别方法、装置、设备、系统及存储介质


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、知识图谱、深度学习、计算机视觉等
,可应用于视频理解、视频分类、智能推荐等场景。

技术介绍

[0002]随着软硬件技术的快速发展,视频成为信息传递的主要方式之一。为了将视频快速的向用户分发推荐,需要对视频内容形成一个深层次的理解。而动作事件是理解视频信息的一个关键要素。相关技术中,将视频作为一个整体看待,利用神经网络对整个视频进行分类,输出视频所属的动作事件类型。但实际上,一个视频往往包含多个动作事件,将视频作为一个整体看待,识别准确性差。

技术实现思路

[0003]本公开提供了一种视频识别方法、装置、设备、系统及存储介质。
[0004]根据本公开的第一方面,提供了一种视频识别方法,包括:
[0005]获取目标视频的视频特征序列,该目标视频包括多个动作片段;
[0006]基于视频特征序列,确定多个动作片段的开始位置和结束位置;
[0007]基于多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;
[0008]基于多个候选动作片段的边界表示向量和中心表示向量,对多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;
[0009]基于多个修正后的候选动作片段,确定目标视频的识别结果。
[0010]根据本公开的第二方面,提供了一种视频识别装置,包括:
[0011]获取单元,用于获取目标视频的视频特征序列,该目标视频包括多个动作片段;
[0012]第一确定单元,用于基于视频特征序列,确定多个动作片段的开始位置和结束位置;
[0013]第二确定单元,用于基于多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;
[0014]修正单元,用于基于多个候选动作片段的边界表示向量和中心表示向量,对多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;
[0015]识别单元,用于基于多个修正后的候选动作片段,确定目标视频的识别结果。
[0016]根据本公开的第三方面,提供了一种视频识别系统,包括:
[0017]输入模块,用于获取目标视频的视频特征序列,该目标视频包括多个动作片段;
[0018]粗粒度预测模块,用于基于视频特征序列,确定多个动作片段的开始位置和结束位置;
[0019]细粒度预测模块,用于基于多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;基于多个候选动作片段的边界表示向量和中心
表示向量,对多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;基于多个修正后的候选动作片段,确定目标视频的识别结果;
[0020]后处理模块,用于对目标视频的识别结果进行筛选,得到目标视频的最终识别结果。
[0021]根据本公开的第四方面,提供了一种电子设备,包括:
[0022]至少一个处理器;以及
[0023]与该至少一个处理器通信连接的存储器;其中,
[0024]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行上述第一方面所提供的方法。
[0025]根据本公开的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行上述第一方面所提供的方法。
[0026]根据本公开的第六方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述第一方面所提供的方法。
[0027]根据本公开的技术方案,能提升对视频的识别准确性。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0030]图1是根据本公开实施例的视频识别方法的流程示意图;
[0031]图2是根据本公开实施例的视频识别模型的训练方法的流程示意图;
[0032]图3是根据本公开实施例的视频识别系统的架构示意图;
[0033]图4是根据本公开实施例的视频识别装置的结构示意图;
[0034]图5是根据本公开实施例的视频识别模型的训练装置的结构示意图;
[0035]图6是根据本公开实施例的视频识别的场景示意图;
[0036]图7是用来实现本公开实施例的视频识别方法的电子设备的框图。
具体实施方式
[0037]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0038]本公开的说明书实施例和权利要求书及上述附图中的术语"第一"、"第二"和"第三"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语"包括"和"具有"以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0039]相关技术中,动作事件识别主要分为两大类解决方案,第一类方案采用端到端的方法,同时输出模型的动作片段和该动作片段的动作类型;第二类方案采用一种流水线
(pipeline)式的方法,先输出动作片段,然后对动作片段分类,输出其所属的动作类型。第一种方案虽说运行速度较快,但由于同时预测动作片段范围和动作类型,导致预测结果的准确性较低。第二种方案由于两个网络是分开训练的,因此动作片段与动作类型的相关性弱,预测结果的准确性也较低。
[0040]本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,通过对视频先后进行粗粒度预测和细粒度预测,能预测出更精准的动作边界和动作事件类型,从而提升对视频的识别准确性。
[0041]本公开实施例提供了一种视频识别方法,图1是根据本公开实施例的视频识别方法的流程示意图,该视频识别方法可以应用于视频识别装置。该视频识别装置位于电子设备,该电子设备可以是视频识别系统的一部分,也可以独立于视频识别系统但能与视频识别系统通信连接。该电子设备包括但不限于固定设备和/或移动设备。例如,固定设备包括但不限于服务器,服务器可以是云服务器或普通服务器。例如,移动设备包括但不限于:手机、平板电脑、车载终端中的一项或是多项终端。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,该视频识别方法包括:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频识别方法,包括:获取目标视频的视频特征序列,所述目标视频包括多个动作片段;基于所述视频特征序列,确定所述多个动作片段的开始位置和结束位置;基于所述多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;基于所述多个候选动作片段的所述边界表示向量和所述中心表示向量,对所述多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;基于所述多个修正后的候选动作片段,确定所述目标视频的识别结果。2.根据权利要求1所述的方法,其中,所述获取目标视频的视频特征序列,包括:从所述目标视频中提取出每个视频单元的特征向量序列;为每个视频单元生成嵌入向量序列;基于每个视频单元的所述特征向量序列和所述嵌入向量序列,得到所述目标视频的视频特征序列。3.根据权利要求1所述的方法,还包括:确定所述多个动作片段的第一动作标签的置信度,所述第一动作标签用于标识动作片段的属性;根据所述多个动作片段的第一动作标签的置信度对所述多个动作片段进行排序,将排名前预设数值的动作片段确定为候选动作片段。4.根据权利要求1所述的方法,还包括:根据所述多个候选动作片段的所述中心表示向量,确定所述多个修正后的候选动作片段对应的中心表示向量;根据所述多个修正后的候选动作片段对应的中心表示向量,确定所述多个修正后的候选动作片段对应的交并比IOU值。5.根据权利要求4所述的方法,还包括:获取所述多个修正后的候选动作片段对应的第二动作标签的评分值,所述第二动作标签用于标识动作片段的类型;根据所述多个修正后的候选动作片段对应的IOU值,以及第二动作标签的评分值,确定所述多个修正后的候选动作片段对应的置信度。6.根据权利要求5所述的方法,其中,所述基于所述多个修正后的候选动作片段,确定所述目标视频的识别结果,包括:根据所述多个修正后的候选动作片段对应的置信度,从所述多个修正后的候选动作片段中确定出至少一个目标动作片段;将所述至少一个目标动作片段的第二动作标签,作为所述目标视频的分类结果,所述识别结果包括所述分类结果。7.根据权利要求1所述的方法,其中,所述基于所述视频特征序列,确定所述多个动作片段的开始位置和结束位置,包括:将所述视频特征序列输入第一视频识别模型,从所述第一视频识别模型输出的信息中确定所述多个动作片段的开始位置和结束位置,所述第一视频识别模型用于输出每个动作片段的开始位置、结束位置以及第一动作标签的置信度。
8.根据权利要求1所述的方法,其中,所述基于所述多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量,包括:将所述多个动作片段的开始位置和结束位置输入第二视频识别模型,通过所述第二视频识别模型确定多个候选动作片段的边界表示向量和中心表示向量。9.根据权利要求8所述的方法,其中,所述基于所述多个候选动作片段的所述边界表示向量和所述中心表示向量,对所述多个候选动作片段进行位置修正,得到多个修正后的候选动作片段,包括:通过所述第二视频识别模型,利用所述多个候选动作片段的边界表示向量,对所述多个候选动作片段的开始位置和结束位置进行位置修正。10.根据权利要求9所述的方法,其中,所述基于所述多个修正后的候选动作片段,确定所述目标视频的识别结果,包括:通过所述第二视频识别模型,利用所述多个候选动作片段的中心表示向量预测所述多个修正后的候选动作片段对应的IOU值、第二动作标签及第二动作标签的评分值。11.一种视频识别装置,包括:获取单元,用于获取目标视频的视频特征序列,所述目标视频包括多个动作片段;第一确定单元,用于基于所述视频特征序列,确定所述多个动作片段的开始位置和结束位置;第二确定单元,用于基于所述多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;修正单元,用于基于所述多个候选动作片段的所述边界表示向量和所述中心表示向量,对所述多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;识别单元,用于基于所述多个修正后的候选动作片段,确定所述目标视频的识别结果。12.根据权利要求11所述的装置,其中,所述获取单元,包括:提取子单元,用于从所述目标视频中提取出每个视频单元的特征向量序列;生成子单元,用于为每个视频单元生成嵌入向量序列;获取子单元,用于基于每个视频单元的所述特征向量序列和所述嵌入向量序列,得到所述目标视频的视频特征序列。13.根据权利要求11所述的装置,还包括:第三确定单元,用于确定所述多个动作片段的第一动作标签的置信度,所述第一动作标签用于标识动作片段的属性;根据所述多个动作片段的第一动作标签的置信度对所述多个动作片段进行排序,将排名前预设数值的动作片段确定为候选动作片段。14.根据权利要求11所述的装置,还包括:第四确定单元,用于根据所述多个候选动作片段的所述中心表示向量,确定所述多个修正后的候选动作片段对应的中...

【专利技术属性】
技术研发人员:陈帅汪琦冯知凡柴春光
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1