【技术实现步骤摘要】
多模态信号内容分析方法、装置、电子设备及存储介质
[0001]本申请涉及信号处理
,具体涉及一种多模态信号内容分析方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]在日常生活中,视觉与音频是人们感知外界的两个最主要、最基本的模态,人类利用音频
‑
视频信号来探索、捕捉和感知现实世界。多模态内容分析是一项让机器能够像人一样准确感受音频
‑
视频多模态信号内容的任务。多模态内容分析任务是通向通用人工智能的关键一步,使机器具有像人一样的感知能力。在日常生活中,有着极大的应用前景,例如,可以帮助残障人士更加自然的融入社会、作为生活助手提醒用户等。目前,基于深度学习的多模态信号内容分析方法已经取得了很大的进步。模型通过编码器来封装多模态信号,以字幕语句的形式使用解码器来生成有关该信号的相关描述。
[0003]相关技术中,基于深度学习的多模态信号内容分析方法没有考虑到由于字幕差异性对于多模态信号内容分析方法训练及性能的影响。由于音频模态模糊性与视频模态复杂性,不同人对同一个音
【技术保护点】
【技术特征摘要】
1.一种多模态信号内容分析方法,其特征在于,包括:获取音频
‑
视频信号对应的字幕词嵌入特征;利用预训练的字幕代理特征提取模型处理所述字幕词嵌入特征,得到字幕代理特征;基于所述字幕代理特征生成字幕。2.根据权利要求1所述的方法,其特征在于,所述获取音频
‑
视频信号对应的字幕词嵌入特征,包括:读取所述音频
‑
视频信号对应的字幕语句;对所述字幕语句进行分词处理,得到所述字幕语句的分词;对所述字幕语句的分词进行词嵌入特征编码,得到字幕词嵌入特征。3.根据权利要求1所述的方法,其特征在于,所述预训练的字幕代理特征提取模型的获取步骤包括:初始化预设的字幕代理特征提取模型;利用预先获取的训练集训练所述字幕代理特征提取模型,直至损失函数收敛,保存训练完成的模型参数,得到所述预训练的字幕代理特征提取模型;其中,所述训练集包括音频
‑
视频预训练特征与对应的真实字幕的词嵌入特征。4.根据权利要求3所述的方法,其特征在于,所述利用预先获取的训练集训练所述字幕代理特征提取模型,包括:将所述真实字幕的词嵌入特征输入到预训练的字幕代理特征提取模型中进行处理,获得输出的对应字幕代理特征;计算所述对应字幕代理特征与各音频
‑
视频特征之间的相似性;通过对比学习与多模态特征对齐,最大化所述字幕代理特征与其对应的音频
‑
视频预训练特征的相似性,最小化字幕代理特征与其他音频
‑
视频预训练特征的相似性,并通过反向传播算法优化模型参数。5.根据权利要求1所述的方法,其特征在于,所述基于所述字幕代理特征生...
【专利技术属性】
技术研发人员:马占宇,张益铭,杜若一,梁孔明,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。