用于生成跨模态编码器的方法、电子设备、计算机程序产品技术

技术编号：43304618 阅读：25 留言：0更新日期：2024-11-12 16:20

本公开实施例涉及用于生成跨模态编码器的方法。方法包括提取样本视频的样本视频特征、样本音频的样本音频特征、样本文本的样本文本特征。方法还包括经由跨模态编码器，将样本视频特征、样本音频特征、样本文本特征相组合而生成第一跨模态样本特征，对跨模态特征进行扰乱操作而生成扰乱的跨模态样本特征，经由跨模态编码器对扰乱的跨模态样本特征进行编码而生成第二跨模态样本特征，以及基于第一跨模态样本特征与第二跨模态样本特征，调整跨模态编码器。通过本方法，能够将文本转换为具有参考音频和参考视频指定所需情感的语音，并且将跨模态数据作为输入，生成的语音具有相同的声音，但具有与参考视频的不同情绪。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施例涉及跨模态编码领域，并且更具体地，涉及用于生成跨模态编码器的方法、电子设备和计算机程序产品。

技术介绍

1、跨模态语音克隆技术是将可视化信息与语音信息相结合的技术，可以将语音特征与视频中的相结合，从而生成与视频内容相对应的语音。使用跨模态语音克隆技术，可以使用人工智能算法来学习人的语音和面部表情之间的关系，从而使得处理模型能够自动地捕捉到语音和面部表情之间的相关性。

技术实现思路

1、本公开的实施例涉及生成跨模态编码器的方法、电子设备和计算机程序产品。

2、根据本公开的第一方面，提供了用于生成跨模态编码器的方法。该方法包括提取样本视频的样本视频特征、样本音频的样本音频特征、样本文本的样本文本特征，其中样本视频、样本音频、样本文本之间的内容相关联。以及经由跨模态编码器，将样本视频特征、样本音频特征、样本文本特征相组合而生成第一跨模态样本特征，并且对样本视频特征、样本音频特征、样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征。经由跨模态编码器对扰乱的跨模态样本特征进...

【技术保护点】

1.一种用于生成跨模态编码器的方法，包括：

2.根据权利要求1所述的方法，对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括：

3.根据权利要求2所述的方法，其中对所述经掩蔽的多个部分进行所述异或操作包括：

4.根据权利要求1所述的方法，其中基于所述第一跨模态样本特征与所述第二跨模态样本特征，调整所述跨模态编码器包括：

5.根据权利要求1所述的方法，其中所述跨模态编码器还基于重建的样本视频特征、重建的样本音频特征、重建的样本文本特征而被调整。

6.根据权利要求5所述的方法，其中对所述...

【技术特征摘要】

1.一种用于生成跨模态编码器的方法，包括：

2.根据权利要求1所述的方法，对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括：

3.根据权利要求2所述的方法，其中对所述经掩蔽的多个部分进行所述异或操作包括：

4.根据权利要求1所述的方法，其中基于所述第一跨模态样本特征与所述第二跨模态样本特征，调整所述跨模态编码器包括：

5.根据权利要求1所述的方法，其中所述跨模态编码器还基于重建的样本视频特征、重建的样本音频特征、重建的样本文本特征而被调整。

6.根据权利要求5所述的方法，其中对所述样本视频特征、所述样本音频特征、所述样本文本特征进行重建包括：

7.根据权利要求1所述的方法，还包括使用所述跨模态编码器以：

8.根据权利要求7所述的方法，其中基于所述梅尔频谱图来生成所述语音包括：

9.根据权利要求7所述的方法，还包括：

10.一种电子设备，包括：

11.根据权利要求10所述的电子设备，对所述样本视频特征、所述样本音频特征、所述样本文本特征进行扰乱操作而生成扰乱的跨模态样本特征包括：

【专利技术属性】
技术研发人员：王子嘉，倪嘉呈，刘金鹏，
申请(专利权)人：戴尔产品有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人