温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明公开了一种多模态掩码视频描述模型。包括预处理模块、多模态融合编码模块和多模态融合解码模块;本发明的模型融合了包含丰富语义关联信息的音频模态和掩码视频图像模态,本发明通过引入掩码机制来随机屏蔽掉输入的视频图像标记块,将它和音频图谱送入统...该专利属于一重集团天津智能控制有限公司所有,仅供学习研究参考,未经过一重集团天津智能控制有限公司授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明公开了一种多模态掩码视频描述模型。包括预处理模块、多模态融合编码模块和多模态融合解码模块;本发明的模型融合了包含丰富语义关联信息的音频模态和掩码视频图像模态,本发明通过引入掩码机制来随机屏蔽掉输入的视频图像标记块,将它和音频图谱送入统...