一种多模态掩码视频描述模型制造技术

技术编号：46551401 阅读：1 留言：0更新日期：2025-10-10 21:11

本发明专利技术公开了一种多模态掩码视频描述模型。包括预处理模块、多模态融合编码模块和多模态融合解码模块；本发明专利技术的模型融合了包含丰富语义关联信息的音频模态和掩码视频图像模态，本发明专利技术通过引入掩码机制来随机屏蔽掉输入的视频图像标记块，将它和音频图谱送入统一的多模态编码器用来增强图像的语义信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机深度学习，具体来说涉及一种多模态掩码视频描述模型。

技术介绍

1、随着计算机网络的飞速发展。网络配置的不断升级使得视觉信息能够更快速地上传至网络，社交应用软件如微信、抖音等迅速崛起并受到广泛欢迎。互联网数据的爆炸式增长标志着我们已经进入了大数据时代。据估计，互联网每天产生的视频和图像数据量高达7.7×10^18字节。视觉大数据不仅蕴含巨大的价值和知识，也为视频描述研究领域带来前所未有的挑战。海量的视频数据已超出人类处理能力的范围，因此，通过计算机高效、便捷地解析视频内容成为提高生产力的关键途径。

2、视频描述技术是计算机视觉领域中的高级任务，它也是连接计算机视觉与自然语言理解两大领域的前沿课题。该技术模仿人类的视觉和语言功能，以自然语言形式自动描述视频内容，有效地将视觉和语言信息相结合。视频描述技术是计算机视觉、人工智能、多媒体和自然语言处理等多个领域的交叉性研究课题，已在工业界和学术界引起广泛关注。视频描述是图片描述任务的延伸，它不仅需要提取视频图像的细粒度信息，还要考虑视频帧的时间序列关系，以便在全面...

【技术保护点】

1.一种的多模态掩码视频描述模型，其特征在于，包括预处理模块、多模态融合编码模块和多模态融合解码模块；

2.根据权利要求1所述的多模态掩码视频描述模型，其特征在于，所述预处理模块从每个长度为t秒的原始视频片段中均匀地提取了F个RGB帧，再对提取的RGB帧，采用标准数据增强技术增加数据多样性；然后引入了随机掩码技术，屏蔽掉图像块中的标记区域，得到Nv个RGB补丁标记Xrgb。

3.根据权利要求1所述的多模态掩码视频描述模型，其特征在于，所述标准数据增强技术包括随机裁剪、翻转和颜色抖动。

4.根据权利要求1所述的多模态掩码视频描述模型，其特征在于，预处理模...

【技术特征摘要】

1.一种的多模态掩码视频描述模型，其特征在于，包括预处理模块、多模态融合编码模块和多模态融合解码模块；

2.根据权利要求1所述的多模态掩码视频描述模型，其特征在于，所述预处理模块从每个长度为t秒的原始视频片段中均匀地提取了f个rgb帧，再对提取的rgb帧，采用标准数据增强技术增加数据多样性；然后引入了随机掩码技术，屏蔽掉图像块中的标记区域，得到nv个rgb补丁标记xrgb。

3.根据权利要求1所述的多模态掩码视频描述模型，其特征在于，所述标准数据增强技术包括随机裁剪、翻转和颜色抖动。

4.根据权利要求1所述的多模态掩码视频描述模型，其特征在于，预处理模块从每个长度为t秒的原始视频片段，提取出长度为t秒的音频样本，转换为单声道格式，再将其转化为音频频谱图，从中提取出nv个音频频谱补丁标记xspec。

5.根据权利要求1所述的多模态掩码视频描述模型，其特征在于，在提取nv个音频频谱补丁标记xspec的过程中，采用specaugment方法对音频频谱补丁标记进行数据增强。

6.根据权利要求1所述的多模态掩码视频描述模型，其特征在于，将rgb补丁标记xrgb和音频频谱补丁标记xspec分别输入多模态统一编码模块中，公式为...

【专利技术属性】
技术研发人员：姚昊，
申请(专利权)人：一重集团天津智能控制有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人