用于生成音频的方法和装置制造方法及图纸

技术编号：26602228 阅读：58 留言：0更新日期：2020-12-04 21:25

本公开的实施例公开了用于生成音频的方法和装置。该方法的一具体实施方式包括：接收目标用户录入的音频；接收目标用户拍摄的视频；将音频和视频输入至预先训练的音频生成模型，得到与视频匹配的音频，其中，音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。该实施方式实现了为用户拍摄的视频匹配个性化的音频。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成音频的方法和装置
本公开的实施例涉及计算机
，具体涉及用于生成音频的方法和装置。
技术介绍
用户可以通过使用一些视频类应用拍摄并上传视频。而且，还可以从应用提供的音频库中选取喜欢的音频，并将拍摄的视频和音频进行合并，以生成用户期望的视频。
技术实现思路
本公开的实施例提出了用于生成音频的方法和装置。第一方面，本公开的实施例提供了一种用于生成音频的方法，该方法包括：接收目标用户录入的音频；接收目标用户拍摄的视频；将音频和视频输入至预先训练的音频生成模型，得到与视频匹配的音频，其中，音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。在一些实施例中，上述音频生成模型通过如下步骤训练得到：获取训练样本集，其中，训练样本集中的训练样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频；获取预先建立的生成式对抗网络，其中，生成式对抗网络包括生成网络和判别网络，生成网络用于根据输入的音频和视频，生成与输入的视频匹配的音频，判别网络用于校验生成网络生成的音频；利用机器学习的方法，基于训练样本集对生成式对抗网络进行训练，将训练后的生成式对抗网络包括的生成网络确定为音频生成模型。在一些实施例中，上述判别网络用于度量生成网络生成的音频与对应的样本匹配音频的差异。在一些实施例中，训练样本集通过如下步骤得到：获取初始样本集，其中，初始样本集中的样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频；获取目标音频集；对于初始样本集中的样本，从目标音...

【技术保护点】
1.一种用于生成音频的方法，包括：/n接收目标用户录入的音频；/n接收所述目标用户拍摄的视频；/n将所述音频和所述视频输入至预先训练的音频生成模型，得到与所述视频匹配的音频，其中，所述音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。/n

【技术特征摘要】
1.一种用于生成音频的方法，包括：
接收目标用户录入的音频；
接收所述目标用户拍摄的视频；
将所述音频和所述视频输入至预先训练的音频生成模型，得到与所述视频匹配的音频，其中，所述音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。

2.根据权利要求1所述的方法，其中，所述音频生成模型通过如下步骤训练得到：
获取训练样本集，其中，训练样本集中的训练样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频；
获取预先建立的生成式对抗网络，其中，所述生成式对抗网络包括生成网络和判别网络，所述生成网络用于根据输入的音频和视频，生成与输入的视频匹配的音频，所述判别网络用于校验所述生成网络生成的音频；
利用机器学习的方法，基于所述训练样本集对所述生成式对抗网络进行训练，将训练后的生成式对抗网络包括的生成网络确定为音频生成模型。

3.根据权利要求2所述的方法，其中，所述判别网络用于度量所述生成网络生成的音频与对应的样本匹配音频的差异。

4.根据权利要求2所述的方法，其中，所述训练样本集通过如下步骤得到：
获取初始样本集，其中，初始样本集中的样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频；
获取目标音频集；
对于所述初始样本集中的样本，从所述目标音频集中选取目标音频作为新的样本匹配音频，其中，所选取的目标音频与该样本中的样本匹配音频的相似度大于预设阈值；将该样本中的样本音频、样本视频和所选取的目标音频组成新的样本；
将得到的新的样本和所述初始样本集合并，得到所述训练样本集。

5.根据权利要求1-4之一所述的方法，其中，所述方法还包括：
将得到的、与所述目标用户拍摄的视频匹配的音频和所述目标用户拍摄的视频进行合并，得到新的视频；
向所述目标用户展示所得到的新的视频。

6.一种用于生成音频的装置，包括：
接收单元，被配置成接收目标用户录入的音频；
所述接收单元，进一步被配置成接收所述目标用户拍摄的视频；
音频生成单元，被配置成将所述音频和所述视频输入至预先训练的音频生成模型，得...

【专利技术属性】
技术研发人员：严林，乔木，
申请(专利权)人：北京字节跳动网络技术有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人