下载一种以文本驱动使图像和音频协同增强的多模态融合方法的技术资料

文档序号:46194919

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本发明公开了一种以文本驱动使图像和音频协同增强的多模态融合方法,属于多模态数据处理领域。本发明包括:构建多模态数据集和多模态融合网络;该融合网络包括图像特征提取网络、音频特征提取网络、文本语义向量提取网络和文本驱动模型;文本驱动模型用于将语...
该专利属于电子科技大学所有,仅供学习研究参考,未经过电子科技大学授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。