【技术实现步骤摘要】
一种动态信息与静态信息结合的视频语义分割方法
[0001]本专利技术涉及视频语义分割领域,并且更具体地,涉及一种动态信息与静态信息结合的视频语义分割方法。
技术介绍
[0002]随着视频数量的迅速增长,如何分析和理解视频的内容就更加重要,视频语义分割作为内容理解的其中一个重要步骤,如何提高语义分割的准确性也是亟待解决的问题,相关技术中,视频语义分割所使用的信息较为单一,而视频识别场景通常较为复杂,单模态信息覆盖的场景较少,降低了语义分割的准确性。
[0003]公开号为CN113139502A的中国专利公开了“一种视频语义分割方法、装置、电子设备及存储介质”,提出通过多模态图片信息提升图像分割的准确度,其在二分类领域确实已经足够了,但是推广到多分类领域仅通过多模态图像来分割,分割精度是远远不够的。
技术实现思路
[0004]针对现有技术的以上缺陷或者改进需求,本专利技术提供了一种动态信息与静态信息结合的视频语义分割方法,其目的在于实现对视频的有效分割,提高视频语义分割的准确度。
[0005]为实 ...
【技术保护点】
【技术特征摘要】
1.一种动态信息与静态信息结合的视频语义分割方法,其特征在于,包括以下步骤:步骤1,构建动态信息与静态信息结合的视频语义分割网络架构;所述视频语义分割网络架构设置了3个参考系,分别用于处理当前时刻T的视频帧,时刻T
‑
1的视频帧和时刻T
‑
2的视频帧;每一个参考系都使用时序特征编码器来提取特征,并通过一个卷积层输出对应参考系的特征图;之后将第二个参考系的输出特征图与第三个参考系的输出特征图拼接,送入位置学习模块学习位置信息得到动态信息特征图,然后将动态信息特征图与第一个参考系的输出特征图经过位置学习模块学习后得到的静态信息特征图相加得到具有动态信息与静态信息的特征表示,然后将这个具有动态信息与静态信息的特征表示送入位置学习模块进行学习后送入解码器进行特征解码,最后求每一个对应像素点类别预测最大值的下标得到最终的预测掩码;步骤2,设计损失函数,在数据集上训练得到视频语义分割模型;步骤3,使用视频语义分割模型,实现对视频的智能分割。2.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:所述时序特征编码器分为四层时序特征编码层,其中前两层是由时序特征残差块组成,后两层是由时序特征随机丢弃残差块组成;其中,第一层和第二层时序特征编码层分别由K1个和K2个时序特征残差块组成,第三层和第四层时序特征编码层分别由K3个和K4个时序特征随机丢弃残差块组成;时序特征残差块由卷积层,层归一化层,深度卷积层,激活层和卷积层组成,输入时序特征残差块的特征图依次经过这些层,然后再通过残差分支与输入时序特征残差块的特征图进行特征图相加操作输出特征图;时序特征随机丢弃残差块由卷积层,层归一化层,激活层,卷积层和随机丢弃层组成,输入时序特征随机丢弃残差块的特征图依次经过前四层,然后通过残差分支与输入时序特征随机丢弃残差块的特征图进行特征图相加操作,再经过一个随机丢弃层后输出特征图。3.如权利要求2所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:激活层使用的是RELU激活函数,随机丢弃层采用的是Drop path操作。4.如权利要求2所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:时序特征编码器的前两层时序特征编码层中的第一个时序特征残差块的第一个5
×
5卷积层,设置步长为2用来缩小特征图的高宽,此时在时序特征残差块的残差分支使用一个2
×
2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性,其他的时序特征残差块不进行此操作;时序特征编码器的后两层时序特征编码层中的第一个时序特征随机丢弃残差块的第一个7
×
7卷积层,设置步长为2用来缩小特征图的高宽,此时在时序特征残差块的残差分支使用一个2
×
2卷积层用来缩小特征图的高宽来保持特征图相加时的特征图的大小一致性,其他的时序特征随机丢弃残差块不进行此操作。5.如权利要求1所述的一种动态信息与静态信息结合的视频语义分割方法,其特征在于:位置学习...
【专利技术属性】
技术研发人员:余锋,李会引,姜明华,汤光裕,刘莉,周昌龙,宋坤芳,
申请(专利权)人:武汉纺织大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。