视频识别方法、设备和存储介质技术

技术编号：38808423 阅读：25 留言：0更新日期：2023-09-15 19:47

本发明专利技术实施例提供一种视频识别方法、设备和存储介质，该方法包括：识别设备获取待识别视频的高层特征以及该视频中各视频帧的视频帧特征。其中，高层特征用于反映待识别视频的整体语义，多个视频帧各自的视频帧特征反映待识别视频不同帧在时序上的上下文关系。然后，确定待识别视频对应的语义提示信息和时序提示信息，并最终根据两种提示信息以及高层特征实现待识别视频的识别。其中，语义提示信息和时序提示信息可以作为提示用来引导识别设备利用高层特征进行视频识别的方向。上述过程中，利用语义和上下文信息两种提示信息能够为识别设备提供更加准确、丰富的引导方向，从而使识别设备能够更加准确地进行视频识别。使识别设备能够更加准确地进行视频识别。使识别设备能够更加准确地进行视频识别。

全部详细技术资料下载

【技术实现步骤摘要】
视频识别方法、设备和存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种视频识别方法、设备和存储介质。

技术介绍

[0002]利用人工智能技术已经能够实现视频识别也即是识别视频中对象的姿态。视频识别可以应用在众多场景中，比如在虚拟现实(Vi rtual Real ity，简称VR)、增强现实(Augmented Real ity，简称AR)、混合现实(Mixed Real ity，简称MR)等在内的扩展现实(Extended Real ity，简称XR)场景，此场景中通过识别视频中的用户动作以实现与用户之间的体感交互。又比如安防场景，通过对摄像头采集到的安防视频进行识别以确定视频中是否存在可疑人员等等。
[0003]因此，在视频识别的实际使用过程中，如何提高视频识别的准确性就成为一个亟待解决的问题。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供一种视频识别方法、设备和存储介质，用以保证视频识别的准确率。
[0005]第一方面，本专利技术实施例提供一种视频识别方法，包括：
[000本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种视频识别方法，其特征在于，包括：获取待识别视频的高层特征以及所述待识别视频中视频帧的视频帧特征；根据所述视频帧特征，确定所述待识别视频对应的时序提示信息；根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征，确定所述待识别视频的识别结果。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述待识别视频的低层特征，所述低层特征包含空间特征、时间特征和整体特征中的至少一种；确定所述低层特征中目标低层特征对应的语义提示信息，所述目标低层特征为所述低层特征中的任一种特征；根据所述低层特征中至少一种特征各自对应的语义提示信息，确定所述待识别视频对应的语义提示信息。3.根据权利要求2所述的方法，其特征在于，所述确定所述低层特征中目标低层特征对应的语义提示信息，包括：根据所述目标低层特征与第一提示信息池中信息索引之间的相似度，确定目标索引，所述第一提示信息池与所述目标特征所属的种类对应；根据所述目标索引，在所述第一提示信息池中确定所述目标低层特征对应的语义提示信息。4.根据权利要求1所述的方法，其特征在于，所述根据所述视频帧特征，确定所述待识别视频的时序提示信息，包括：将所述视频帧特征与第二提示信息池中的各信息索引之间的相似度确定为所述第二提示信息池中各信息索引的权重；根据所述权重以及所述第二提示信息池中的各提示信息确定所述时序提示信息。5.根据权利要求2所述的方法，其特征在于，所述方法还包括：获取所述待识别视频对应的多个备选识别结果各自的文本特征；确定所述文本特征对应的文本提示信息；所述根据所述待识别视频对应的语义提示信息、所述时序提示信息以及所述高层特征，确定所述待识别视频的识别结果，包括：将所述待识别视频对应的语义提示信息、所述时序提示信息、所述高层特征、所述文本特征以及所述文本提示信息输入识别模型，以由所述识别模型输出所述待识别视频的识别结果。6.根据权利要求5所述的方法，其特征在于，第一提示信息池中同一信息索引指向一组提示信息，所述一组提示信息包括语义提示信息和文本提示信息；所述确定所述文本特征对应的文本提示信息，包括；根据所述目标低层特征与第一提示信息池中信息索引之间的相似度，确定目标索引，所述第一提示信息池与所述目标特征所属的种类对应；在所述第一提示信息池中，将所述低层特征中至少一种低层特征各自对应的目标索引指向的文本提示信息确定为所述文本特征对应的文本提示信息。7.根据权利要求5所述的方法，其特征在于，所述将所述待识别视频对应的语义提示信
息、所述时序提示信息、所述高层特征、所述文本特征以及所述文本提示信息输入识别模型，包括：将所述语义提示信息、所述时序提示信息与所述高层特征进行融合，以得到视频融合特征，所述时序提示信息根据所述视频帧特征与第二提示信息池中的各信息索引之间的相似度得到；将所述文本提示信息和所述文本特征进行融合，以得到文本融合特征；将所述视频融合特征和文本融合特征输入所述识别模型。8.根据权利要求7所述的方法，其特征在于，所述识别模型包括第一编码器和第二编码器；所述识别模型输出所述待识别视频的识别结果，包括：所述第一编...

【专利技术属性】
技术研发人员：裴逸璇，张士伟，张迎亚，吕逸良，赵德丽，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人