【技术实现步骤摘要】
视频识别方法、装置、设备、系统及存储介质
[0001]本公开涉及人工智能
,尤其涉及自然语言处理、知识图谱、深度学习、计算机视觉等
,可应用于视频理解、视频分类、智能推荐等场景。
技术介绍
[0002]随着软硬件技术的快速发展,视频成为信息传递的主要方式之一。为了将视频快速的向用户分发推荐,需要对视频内容形成一个深层次的理解。而动作事件是理解视频信息的一个关键要素。相关技术中,将视频作为一个整体看待,利用神经网络对整个视频进行分类,输出视频所属的动作事件类型。但实际上,一个视频往往包含多个动作事件,将视频作为一个整体看待,识别准确性差。
技术实现思路
[0003]本公开提供了一种视频识别方法、装置、设备、系统及存储介质。
[0004]根据本公开的第一方面,提供了一种视频识别方法,包括:
[0005]获取目标视频的视频特征序列,该目标视频包括多个动作片段;
[0006]基于视频特征序列,确定多个动作片段的开始位置和结束位置;
[0007]基于多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;
[0008]基于多个候选动作片段的边界表示向量和中心表示向量,对多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;
[0009]基于多个修正后的候选动作片段,确定目标视频的识别结果。
[0010]根据本公开的第二方面,提供了一种视频识别装置,包括:
[0011]获取单元,用于获取目标视频的视频特征 ...
【技术保护点】
【技术特征摘要】
1.一种视频识别方法,包括:获取目标视频的视频特征序列,所述目标视频包括多个动作片段;基于所述视频特征序列,确定所述多个动作片段的开始位置和结束位置;基于所述多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;基于所述多个候选动作片段的所述边界表示向量和所述中心表示向量,对所述多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;基于所述多个修正后的候选动作片段,确定所述目标视频的识别结果。2.根据权利要求1所述的方法,其中,所述获取目标视频的视频特征序列,包括:从所述目标视频中提取出每个视频单元的特征向量序列;为每个视频单元生成嵌入向量序列;基于每个视频单元的所述特征向量序列和所述嵌入向量序列,得到所述目标视频的视频特征序列。3.根据权利要求1所述的方法,还包括:确定所述多个动作片段的第一动作标签的置信度,所述第一动作标签用于标识动作片段的属性;根据所述多个动作片段的第一动作标签的置信度对所述多个动作片段进行排序,将排名前预设数值的动作片段确定为候选动作片段。4.根据权利要求1所述的方法,还包括:根据所述多个候选动作片段的所述中心表示向量,确定所述多个修正后的候选动作片段对应的中心表示向量;根据所述多个修正后的候选动作片段对应的中心表示向量,确定所述多个修正后的候选动作片段对应的交并比IOU值。5.根据权利要求4所述的方法,还包括:获取所述多个修正后的候选动作片段对应的第二动作标签的评分值,所述第二动作标签用于标识动作片段的类型;根据所述多个修正后的候选动作片段对应的IOU值,以及第二动作标签的评分值,确定所述多个修正后的候选动作片段对应的置信度。6.根据权利要求5所述的方法,其中,所述基于所述多个修正后的候选动作片段,确定所述目标视频的识别结果,包括:根据所述多个修正后的候选动作片段对应的置信度,从所述多个修正后的候选动作片段中确定出至少一个目标动作片段;将所述至少一个目标动作片段的第二动作标签,作为所述目标视频的分类结果,所述识别结果包括所述分类结果。7.根据权利要求1所述的方法,其中,所述基于所述视频特征序列,确定所述多个动作片段的开始位置和结束位置,包括:将所述视频特征序列输入第一视频识别模型,从所述第一视频识别模型输出的信息中确定所述多个动作片段的开始位置和结束位置,所述第一视频识别模型用于输出每个动作片段的开始位置、结束位置以及第一动作标签的置信度。
8.根据权利要求1所述的方法,其中,所述基于所述多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量,包括:将所述多个动作片段的开始位置和结束位置输入第二视频识别模型,通过所述第二视频识别模型确定多个候选动作片段的边界表示向量和中心表示向量。9.根据权利要求8所述的方法,其中,所述基于所述多个候选动作片段的所述边界表示向量和所述中心表示向量,对所述多个候选动作片段进行位置修正,得到多个修正后的候选动作片段,包括:通过所述第二视频识别模型,利用所述多个候选动作片段的边界表示向量,对所述多个候选动作片段的开始位置和结束位置进行位置修正。10.根据权利要求9所述的方法,其中,所述基于所述多个修正后的候选动作片段,确定所述目标视频的识别结果,包括:通过所述第二视频识别模型,利用所述多个候选动作片段的中心表示向量预测所述多个修正后的候选动作片段对应的IOU值、第二动作标签及第二动作标签的评分值。11.一种视频识别装置,包括:获取单元,用于获取目标视频的视频特征序列,所述目标视频包括多个动作片段;第一确定单元,用于基于所述视频特征序列,确定所述多个动作片段的开始位置和结束位置;第二确定单元,用于基于所述多个动作片段的开始位置和结束位置,确定多个候选动作片段的边界表示向量和中心表示向量;修正单元,用于基于所述多个候选动作片段的所述边界表示向量和所述中心表示向量,对所述多个候选动作片段进行位置修正,得到多个修正后的候选动作片段;识别单元,用于基于所述多个修正后的候选动作片段,确定所述目标视频的识别结果。12.根据权利要求11所述的装置,其中,所述获取单元,包括:提取子单元,用于从所述目标视频中提取出每个视频单元的特征向量序列;生成子单元,用于为每个视频单元生成嵌入向量序列;获取子单元,用于基于每个视频单元的所述特征向量序列和所述嵌入向量序列,得到所述目标视频的视频特征序列。13.根据权利要求11所述的装置,还包括:第三确定单元,用于确定所述多个动作片段的第一动作标签的置信度,所述第一动作标签用于标识动作片段的属性;根据所述多个动作片段的第一动作标签的置信度对所述多个动作片段进行排序,将排名前预设数值的动作片段确定为候选动作片段。14.根据权利要求11所述的装置,还包括:第四确定单元,用于根据所述多个候选动作片段的所述中心表示向量,确定所述多个修正后的候选动作片段对应的中...
【专利技术属性】
技术研发人员:陈帅,汪琦,冯知凡,柴春光,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。