少数民族舞蹈视频描述中视觉互参考语义检测方法技术

技术编号：34539123 阅读：57 留言：0更新日期：2022-08-13 21:34

本发明专利技术公开了一种少数民族舞蹈视频描述中视觉互参考语义检测方法，其将输入视觉特征经过视觉互参考语义检测结构进行处理，输出表达能力较强的视频语义信息。所述视觉互参考语义检测结构以3D卷积神经网络和2D卷积神经网络处理得到的视频3D视觉特征和2D视觉特征为输入，分别经3D语义检测支路和2D语义检测支路提取语义特征，在语义提取过程中将3D视觉特征引入2D语义检测支路，将2D视觉特征引入3D语义检测支路，实现3D和2D信息的交互作用，同时采用多阶段迭代操作进一步提升语义特征表达能力，将两支路最终输出的3D语义特征和2D语义特征拼接融合来表达视频语义。将该语义特征输入至长短时记忆网络进行解码，可以得到较准确的视频文本描述。视频文本描述。视频文本描述。

全部详细技术资料下载

【技术实现步骤摘要】
少数民族舞蹈视频描述中视觉互参考语义检测方法

[0001]本专利技术涉及深度学习视频理解
，具体涉及少数民族舞蹈视频描述中视觉互参考语义检测方法。

技术介绍

[0002]近年来，我国在经济、技术等领域全面发展，少数民族地区的生活水平极大改善，少数民族文化宣传也成为重点工作之一，利用深度学习技术对少数民族舞蹈视频进行自动理解，有利于少数民族文化传播，同时伴随短视频平台的大量涌现，监控和自动审查短视频的内容也成为研究的热点问题。当前对于少数民族舞蹈视频的自动描述技术并不常见，对视频的自动审查也主要依靠人工手段，现有算法并不能实现对视频内容的充分认识和理解。
[0003]当前视频描述算法中越来越多地涉及到视频的语义特征，将语义特征作为编码特征，利用长短时记忆等网络对语义特征进行解析进而生成视频的文本描述结果。专利《一种提高视频文本描述准确性的编码器网络模型设计方法》(公开号： CN111985612A)公开了一种视频文本描述的编解码方法，利用视频特征获取语义特征，并且采用S
‑
LSTM网络解码得到视...

【技术保护点】

【技术特征摘要】
1.少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，包括：将视频分别经过3D卷积神经网络和2D卷积神经网络处理后得到3D视觉特征V
3D
和2D视觉特征V
2D
；所述3D视觉特征V
3D
在3D语义检测支路中进行特征提取、所述2D视觉特征V
2D
在2D语义检测支路中进行特征提取，分别得到3D语义特征S
a1
和2D语义特征S
b1
；将所述3D语义特征S
a1
和2D视觉特征V
2D
进行拼接融合获取新3D语义特征；将所述2D语义特征S
b1
和3D视觉特征V
3D
进行拼接融合获取新2D语义特征；在3D语义检测支路中，对特征提取操作、拼接融合操作进行多阶段迭代，得到3D语义特征S
Am
；在2D语义检测支路中，对特征提取操作、拼接融合操作进行多阶段迭代，得到2D语义特征S
Bm
：在3D语义检测支路中，对3D语义特征S
Am
采用语义检测单元End
‑
A进行最后一次语义提取，获取3D语义特征S
end
‑
A
；在2D语义检测支路中，对2D语义特征S
Bm
采用语义检测单元End
‑
B进行最后一次语义提取，得到2D语义特征S
end
‑
B
；将所述3D语义特征S
end
‑
A
和2D语义特征S
end
‑
B
进行拼接融合，得到语义特征S。2.根据权利要求1所述少数民族舞蹈视频描述中视觉互参考语义检测方法，其特征在于，所述3D视觉特征V
3D
在3D语义检测支路中进行特征提取、所述2D视觉特征V
2D
在2D语义检测支路中进行特征提取，具体为：3D语义检测支路中利用语义检测单元A1提取语义特征，得到3D语义特征S
a1
，具体操作如式(1)～(6)所示：式(1)所示为语义检测单元A1的第1层全连接计算，其中U
1,i
是权重U1的每一列向量，3D视觉特征V
3D
与U
1,i
做向量乘法计算，
⊕
表示特征的拼接融合，得到中间特征M1；将所述中间特征M1与偏置相加，得到：其中，D1是常数形式的偏置项，B
ro1
(
·
)是广播操作，通过拓展该常量数字与向量相加，得到中间特征N1；将所述中间特征N1进行非线性激活处理，当特征中的元素小于或等于1时，将其置为0，否则特征元素值不变；如式(3)所示：其中，N
1,i
是N1的每一个特征元素，函数A
ReLU
(
·
)是非线性激活函数，得到中间特征W1；然后进行随...

【专利技术属性】
技术研发人员：杨大伟，高航，毛琳，
申请(专利权)人：大连民族大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人