【技术实现步骤摘要】
本公开的实施例涉及跨模态编码领域,并且更具体地,涉及用于生成跨模态编码器的方法、电子设备和计算机程序产品。
技术介绍
1、跨模态语音克隆技术是将可视化信息与语音信息相结合的技术,可以将语音特征与视频中的相结合,从而生成与视频内容相对应的语音。使用跨模态语音克隆技术,可以使用人工智能算法来学习人的语音和面部表情之间的关系,从而使得处理模型能够自动地捕捉到语音和面部表情之间的相关性。
技术实现思路
1、本公开的实施例涉及生成跨模态编码器的方法、电子设备和计算机程序产品。
2、根据本公开的第一方面,提供了用于生成跨模态编码器的方法。该方法包括提取样本视频的样本视频特征、样本音频的样本音频特征、样本文本的样本文本特征,其中样本视频、样本音频、样本文本之间的内容相关联。以及经由跨模态编码器,将样本视频特征、样本音频特征、样本文本特征相组合而生成第一跨模态样本特征,并且对样本视频特征、样本音频特征、样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征。经由跨模态编码器对扰乱的跨模态样本特征进
...【技术保护点】
1.一种用于生成跨模态编码器的方法,包括:
2.根据权利要求1所述的方法,对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括:
3.根据权利要求2所述的方法,其中对所述经掩蔽的多个部分进行所述异或操作包括:
4.根据权利要求1所述的方法,其中基于所述第一跨模态样本特征与所述第二跨模态样本特征,调整所述跨模态编码器包括:
5.根据权利要求1所述的方法,其中所述跨模态编码器还基于重建的样本视频特征、重建的样本音频特征、重建的样本文本特征而被调整。
6.根据权利要求5所
...【技术特征摘要】
1.一种用于生成跨模态编码器的方法,包括:
2.根据权利要求1所述的方法,对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括:
3.根据权利要求2所述的方法,其中对所述经掩蔽的多个部分进行所述异或操作包括:
4.根据权利要求1所述的方法,其中基于所述第一跨模态样本特征与所述第二跨模态样本特征,调整所述跨模态编码器包括:
5.根据权利要求1所述的方法,其中所述跨模态编码器还基于重建的样本视频特征、重建的样本音频特征、重建的样本文本特征而被调整。
6.根据权利要求5所述的方法,其中对所述样本视频特征、所述样本音频特征、所述样本文本特征进行重建包括:
7.根据权利要求1所述的方法,还包括使用所述跨模态编码器以:
8.根据权利要求7所述的方法,其中基于所述梅尔频谱图来生成所述语音包括:
9.根据权利要求7所述的方法,还包括:
10.一种电子设备,包括:
11.根据权利要求10所述的电子设备,对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。