视频动作内容理解方法、装置、设备及介质制造方法及图纸

技术编号：41233998 阅读：17 留言：0更新日期：2024-05-09 23:49

本发明专利技术公开了视频动作内容理解方法、装置、设备及介质，方法包括：获取预处理后视频数据；获取与视频动作内容相关的提问信息，基于ActionCLIP模型对预处理后视频数据和提问信息进行图像特征和文本特征提取，并基于相似度匹配策略对图像和文本特征进行相似度匹配计算，得到最大概率文本输出结果；基于SlowFast网络对预处理后视频数据进行空间特征和时间特征提取，并基于空间时间特征对视频动作内容进行分类识别，得到文本输出结果；将最大概率文本输出结果和文本输出结果，与预设文本特征进行匹配，得到文本匹配结果；基于文本匹配结果，得到视频动作理解结果。提高了对视频动作的理解准确性、处理效率和模型泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频理解，尤其涉及视频动作内容理解方法、装置、设备及介质。

技术介绍

1、在视频理解领域中，对视频动作内容的理解是指从视频数据中识别和理解人类或物体的动作。

2、在现有技术中，用于实现视频动态内容理解的算法包括双流网络、3d卷积网络、循环神经网络和长短期记忆网络。其中，双流网络采用两个独立的卷积神经网络，一个用于处理空间流单帧图像，捕捉静态特征，另一个用于处理时间流，捕捉动态特征，其需要极高性能的gpu作为基本配套，实际使用十分困难。3d卷积网络则通过3d卷积核直接在视频帧上提取时空特征，需要的gpu很大，计算量极其庞大。循环神经网络和长短期记忆网络通过视频序列，捕捉视频各帧在时间上的长期依赖关系，从而分析视频动作内容，其需要足够的内存和处理能力来处理视频序列数据。

3、综上可知，通过现有技术对视频动作内容进行理解时，不仅环境部署的成本较高，且由于网络复杂、处理延迟过大，使得视频实时处理难度很大。此外，现有模型在理解视频动作内容时，对高质量数据有着较大的依赖性，若输入的视频数据质量不高，则会影响模型...

【技术保护点】

1.一种视频动作内容理解方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于视频处理策略对所述视频数据进行预处理，得到预处理后的视频数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于ActionCLIP模型对所述预处理后的视频数据及所述与视频动作内容相关的提问信息进行特征提取，得到图像特征和文本特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于SlowFast网络对所述预处理后的视频数据进行特征提取，得到空间特征和时间特征，包括：

5.根据权利要求1所述的方法，其特征在于，在所述将...

【技术特征摘要】

1.一种视频动作内容理解方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于视频处理策略对所述视频数据进行预处理，得到预处理后的视频数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于actionclip模型对所述预处理后的视频数据及所述与视频动作内容相关的提问信息进行特征提取，得到图像特征和文本特征，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于slowfast网络对所述预处理后的视频数据进行特征提取，得到空间特征和时间特征，包括：

5.根据权利要求1所述的方法，其特征在于，在所述将所述最大概率文本输出结果和所述文本输出结果，与预设文本特征进行匹配，得到文本匹配结果的步骤之前，所述方法包括：<...

【专利技术属性】
技术研发人员：卢新凯，顾家新，沈雄，
申请(专利权)人：杭州华策影视科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人