用于生成音频的方法和装置制造方法及图纸

技术编号:26602228 阅读:58 留言:0更新日期:2020-12-04 21:25
本公开的实施例公开了用于生成音频的方法和装置。该方法的一具体实施方式包括:接收目标用户录入的音频;接收目标用户拍摄的视频;将音频和视频输入至预先训练的音频生成模型,得到与视频匹配的音频,其中,音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。该实施方式实现了为用户拍摄的视频匹配个性化的音频。

【技术实现步骤摘要】
用于生成音频的方法和装置
本公开的实施例涉及计算机
,具体涉及用于生成音频的方法和装置。
技术介绍
用户可以通过使用一些视频类应用拍摄并上传视频。而且,还可以从应用提供的音频库中选取喜欢的音频,并将拍摄的视频和音频进行合并,以生成用户期望的视频。
技术实现思路
本公开的实施例提出了用于生成音频的方法和装置。第一方面,本公开的实施例提供了一种用于生成音频的方法,该方法包括:接收目标用户录入的音频;接收目标用户拍摄的视频;将音频和视频输入至预先训练的音频生成模型,得到与视频匹配的音频,其中,音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。在一些实施例中,上述音频生成模型通过如下步骤训练得到:获取训练样本集,其中,训练样本集中的训练样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频;获取预先建立的生成式对抗网络,其中,生成式对抗网络包括生成网络和判别网络,生成网络用于根据输入的音频和视频,生成与输入的视频匹配的音频,判别网络用于校验生成网络生成的音频;利用机器学习的方法,基于训练样本集对生成式对抗网络进行训练,将训练后的生成式对抗网络包括的生成网络确定为音频生成模型。在一些实施例中,上述判别网络用于度量生成网络生成的音频与对应的样本匹配音频的差异。在一些实施例中,训练样本集通过如下步骤得到:获取初始样本集,其中,初始样本集中的样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频;获取目标音频集;对于初始样本集中的样本,从目标音频集中选取目标音频作为新的样本匹配音频,其中,所选取的目标音频与该样本中的样本匹配音频的相似度大于预设阈值;将该样本中的样本音频、样本视频和所选取的目标音频组成新的样本;将得到的新的样本和初始样本集合并,得到训练样本集。在一些实施例中,上述用于生成音频的方法还包括:将得到的、与目标用户拍摄的视频匹配的音频和目标用户拍摄的视频进行合并,得到新的视频;向目标用户展示所得到的新的视频。第二方面,本公开的实施例提供了一种用于生成音频的装置,该装置包括:接收单元,被配置成接收目标用户录入的音频;接收单元,进一步被配置成接收目标用户拍摄的视频;音频生成单元,被配置成将音频和视频输入至预先训练的音频生成模型,得到与视频匹配的音频,其中,音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。在一些实施例中,上述音频生成模型通过如下步骤训练得到:获取训练样本集,其中,训练样本集中的训练样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频;获取预先建立的生成式对抗网络,其中,生成式对抗网络包括生成网络和判别网络,生成网络用于根据输入的音频和视频,生成与输入的视频匹配的音频,判别网络用于校验生成网络生成的音频;利用机器学习的方法,基于训练样本集对生成式对抗网络进行训练,将训练后的生成式对抗网络包括的生成网络确定为音频生成模型。在一些实施例中,上述判别网络用于度量生成网络生成的音频与对应的样本匹配音频的差异。在一些实施例中,上述训练样本集通过如下步骤得到:获取初始样本集,其中,初始样本集中的样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频;获取目标音频集;对于初始样本集中的样本,从目标音频集中选取目标音频作为新的样本匹配音频,其中,所选取的目标音频与该样本中的样本匹配音频的相似度大于预设阈值;将该样本中的样本音频、样本视频和所选取的目标音频组成新的样本;将得到的新的样本和初始样本集合并,得到训练样本集。在一些实施例中,上述用于生成音频的装置还包括:合并单元,被配置成将得到的、与目标用户拍摄的视频匹配的音频和目标用户拍摄的视频进行合并,得到新的视频;展示单元,被配置成向目标用户展示所得到的新的视频。第三方面,本公开的实施例提供了一种服务器,该服务器包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开的实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本公开的实施例提供的用于生成音频的方法和装置,根据接收的用户录入的音频和拍摄的视频,生成与用户拍摄的视频相匹配的音频。和现有技术中的用户通常只能在一个有限的音频库中选取音频来匹配所拍摄的视频相比,有助于提升生成的与用户拍摄的视频匹配的音频的个性化。由于每个用户录入的音频一般都不同,而用户拍摄的视频也通常不同,因此,根据不同的音频和视频,生成的音频一般也不同,从而使得可以为不同用户拍摄的视频分别匹配不同的、个性化的音频。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的用于生成音频的方法的一个实施例的流程图;图3是根据本公开的用于生成音频的方法的又一个实施例的流程图;图4是根据本公开的实施例的用于生成音频的方法的一个应用场景的示意图;图5是根据本公开的用于生成音频的装置的一个实施例的结构示意图;图6是适于用来实现本公开的实施例的电子设备的结构示意图。具体实施方式下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出了可以应用本公开的用于生成音频的方法或用于生成音频的装置的实施例的示例性架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用。例如浏览器类应用、搜索类应用、影音类应用等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上安装本文档来自技高网...

【技术保护点】
1.一种用于生成音频的方法,包括:/n接收目标用户录入的音频;/n接收所述目标用户拍摄的视频;/n将所述音频和所述视频输入至预先训练的音频生成模型,得到与所述视频匹配的音频,其中,所述音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。/n

【技术特征摘要】
1.一种用于生成音频的方法,包括:
接收目标用户录入的音频;
接收所述目标用户拍摄的视频;
将所述音频和所述视频输入至预先训练的音频生成模型,得到与所述视频匹配的音频,其中,所述音频生成模型用于根据用户录入的音频和拍摄的视频生成与用户拍摄的视频匹配的音频。


2.根据权利要求1所述的方法,其中,所述音频生成模型通过如下步骤训练得到:
获取训练样本集,其中,训练样本集中的训练样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频;
获取预先建立的生成式对抗网络,其中,所述生成式对抗网络包括生成网络和判别网络,所述生成网络用于根据输入的音频和视频,生成与输入的视频匹配的音频,所述判别网络用于校验所述生成网络生成的音频;
利用机器学习的方法,基于所述训练样本集对所述生成式对抗网络进行训练,将训练后的生成式对抗网络包括的生成网络确定为音频生成模型。


3.根据权利要求2所述的方法,其中,所述判别网络用于度量所述生成网络生成的音频与对应的样本匹配音频的差异。


4.根据权利要求2所述的方法,其中,所述训练样本集通过如下步骤得到:
获取初始样本集,其中,初始样本集中的样本包括样本音频、样本视频和与样本视频匹配的样本匹配音频;
获取目标音频集;
对于所述初始样本集中的样本,从所述目标音频集中选取目标音频作为新的样本匹配音频,其中,所选取的目标音频与该样本中的样本匹配音频的相似度大于预设阈值;将该样本中的样本音频、样本视频和所选取的目标音频组成新的样本;
将得到的新的样本和所述初始样本集合并,得到所述训练样本集。


5.根据权利要求1-4之一所述的方法,其中,所述方法还包括:
将得到的、与所述目标用户拍摄的视频匹配的音频和所述目标用户拍摄的视频进行合并,得到新的视频;
向所述目标用户展示所得到的新的视频。


6.一种用于生成音频的装置,包括:
接收单元,被配置成接收目标用户录入的音频;
所述接收单元,进一步被配置成接收所述目标用户拍摄的视频;
音频生成单元,被配置成将所述音频和所述视频输入至预先训练的音频生成模型,得...

【专利技术属性】
技术研发人员:严林乔木
申请(专利权)人:北京字节跳动网络技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1