视频语义识别方法及设备技术

技术编号：32432176 阅读：62 留言：0更新日期：2022-02-24 18:49

本申请涉及终端人工智能领域，尤其涉及视频语义理解、视频编辑、视频拼接、视频压缩领域，具体涉及一种视频语义识别方法设备。该方法包括：获取视频的多个视频帧；提取多个视频帧的空域特征；根据多个视频帧中的N个连续视频帧的空域特征，确定N个连续视频帧中第N个视频帧的动态语义；根据多个视频帧中第一视频帧的空域特征，确定第一视频帧的静态语义；使用具有第一动态语义且连续的视频帧合成第一时序片段；使用具有第一静态语义且连续的视频帧合成第二时序片段；输出第一时序片段的动态语义和第一位置信息，以及第二时序片段的静态语义和第二位置信息。义和第二位置信息。义和第二位置信息。

全部详细技术资料下载

【技术实现步骤摘要】
视频语义识别方法及设备
[0001]本申请要求于2020年08月17日提交中国专利局、申请号为202010825602.6、申请名称为
″
一种视频中图像标签处理方法及设备
″
，于2020年08月31日提交中国专利局、申请号为202010894732.5、申请名称为
″
视频语义提取方法、视频编辑方法及设备
″
，于 2020年11月30日提交中国专利局、申请号为202011375148.5、申请名称为
″
计算机执行的、利用神经网络识别视频语义的方法及装置
″
，于2020年12月04日提交中国专利局、申请号为202011405457.2、申请名称为
″
一种景别确定方法及装置
″
，于2020年12月24 日提交中国专利局、申请号为202011554281.7、申请名称为
″
一种视频处理方法及装置
″ꢀ
的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

/>[0002]本申本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种计算机执行的、利用神经网络识别视频语义的方法，其特征在于，所述神经网络包括输入层、空域特征提取层、静态语义识别层、动态语义识别层、时序片段划分层、输出层；其中，所述静态语义识别层和所述动态语义识别层并列设置；所述方法包括：在所述输入层，获取视频的多个视频帧；在所述空域特征提取层，提取所述多个视频帧中每一个视频帧的空域特征；在所述动态语义识别层，根据所述多个视频帧中的N个连续视频帧的空域特征，确定所述N个连续视频帧中第N个视频帧的动态语义；N为正整数；在所述静态语义识别层，根据所述多个视频帧中第一视频帧的空域特征，确定所述第一视频帧的静态语义；在所述时序片段划分层，当具有第一动态语义且连续的视频帧的个数大于第一阈值时，使用所述具有第一动态语义且连续的视频帧合成第一时序片段，且确定所述第一动态语义为所述第一时序片段的动态语义；在所述时序片段划分层，当具有第一静态语义且连续的视频帧的个数大于第二阈值时，使用所述具有第一静态语义且连续的视频帧合成第二时序片段，且确定所述第一静态语义为所述第二时序片段的静态语义；在所述输出层，输出所述第一时序片段的动态语义和第一位置信息；以及输出所述第二时序片段的静态语义和第二位置信息；其中，所述第一位置信息由所述第一时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；所述第二位置信息由所述第二时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示。2.根据权利要求1所述的方法，其特征在于，所述神经网络还包括精彩时序片段识别层；所述方法还包括：根据第一视频帧的空域特征和第二视频帧的空域特征，确定所述第一视频帧和所述第二视频帧的空域差异信息；所述第一视频帧和所述第二视频帧在所述多个视频帧中相邻；在所述精彩时序片段识别层，根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频帧的空域特征，确定至少一个精彩时序片段。3.根据权利要求2所述的方法，其特征在于，所述空域特征包括RGB信息，所述空域差异信息包括RGB差异信息(RGB diff)。4.根据权利要求2所述的方法，其特征在于，所述精彩时序片段识别层包括一维卷积层和细节动态语义分类层；所述一维卷积层包括第一卷积窗口，所述第一卷积窗口对应第一细节动态语义；所述根据所述多个视频帧中各两两相邻视频帧的空域差异信息以及所述多个视频帧的空域特征，确定至少一个精彩时序片段包括：在所述一维卷积层，采用所述至少一个卷积窗口中的第一卷积窗口，对所述多个视频帧的空域特征和所述多个视频帧中各两两相邻视频帧的空域差异，进行卷积处理，得到若干个卷积结果；在所述细节语义分类层，根据所述若干个卷积结果，确定具有所述第一细节语义的精彩时序片段。5.根据权利要求2所述的方法，其特征在于，所述神经网络还包括联合逻辑判断层，所述联合逻辑判断层为所述时序片段划分层和所述精彩时序片段识别层的下一层；
所述至少一个精彩时序片段中的第一精彩时序片段包含于所述第一时序片段；所述方法还包括：在所述联合逻辑判断层，判断所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义是否匹配；当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义匹配时，在所述输出层输出所述第一精彩时序片段的细节动态语义和第三位置信息；其中，所述第三位置信息由所述第一精彩时序片段中的第一个视频帧和最后一个视频帧各自在所述视频中的位置表示；当所述第一精彩时序片段的细节动态语义和所述第一时序片段的动态语义不匹配时，在所述输出层不输出所述第一精彩时序片段的相关信息。6.根据权利要求1所述的方法，其特征在于，所述神经网络还包括语义光滑层，所述语义光滑层为所述时序片段划分层的上一层；所述方法还包括：在所述语义光滑层，根据所述多个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑处理。7.根据权利要求6所述的方法，其特征在于，所述根据所述多个视频帧中连续视频帧间静态语义的依赖关系，对所述多个视频帧的静态语义进行光滑处理包括：确定P个连续视频帧中第三视频帧的静态语义与其他视频帧的静态语义不同，且所述其他视频帧的静态语义相同；P大于第三阈值；所述其他视频帧为所述P个连续视频帧中除所述第三视频帧之外的视频帧；根据所述其他视频帧的静态语义，更新所述第三视频帧的静态语义。8.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述时序片段划分层，当具有第二动态语义且连续的视频帧的个数大于所述第一阈值时，使用所述具...

【专利技术属性】
技术研发人员：吴觊豪，任亿，赵彬，贾明波，戚向涛，池志祥，于远灏，徐溢璇，唐进，张大曲，徐敬业，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人