音频生成方法和系统技术方案

技术编号:36610459 阅读:15 留言:0更新日期:2023-02-08 09:57
一种音频生成方法和系统,该方法包括以下步骤:接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像,将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像,每个输出多通道图像包括输出图形表示,从每个输出多通道图像提取输出图形表示,并将每个输出图形表示转换为输出音频资产。图形表示转换为输出音频资产。图形表示转换为输出音频资产。

【技术实现步骤摘要】
音频生成方法和系统


[0001]本专利技术涉及用于生成音频的方法和系统,例如用于视频游戏环境中的音频资产(asset)。

技术介绍

[0002]随着当前视频游戏规模的增长,音频内容生成是一项具有挑战性的任务。声音设计师被要求为每个游戏制作越来越多的声音和音频资产。例如,在视频游戏领域,可能需要用于声音效果的巨大音频资产库,特别是用于表达声音效果。每个音频文件可能需要类似的资产,但略有变化,以适应视频游戏事件的需要。例如,脚步声音频资产可能需要脚步声上的多个变化,以模仿实际生活中脚步声的变化,并考虑由于游戏中的动作(诸如当玩家奔跑、行走、爬行等时)而影响脚步声的声学特性(诸如音量、音高、音调、音色)的某些因素。在创建这样的声音时,每个这样的资产通常需要手工制作以具有从基本音频资产的适当变化。这通常耗时、昂贵(计算和财务上都是如此),并给音频创作者带来沉重的脑力负担。
[0003]此外,在某些应用中(诸如在视频游戏中),能够动态生成新的音频资产是有利的。这样的过程很难实现,因为音频不能在游戏发行后由录音师生成,而必须借助于计算机过程来生成。在这种情况下,通常很难生成具有所需的从原始资产的变化,但在总体主题上仍然与原始资产足够相似以便观众能够识别它们的音频资产。已经尝试提供计算性音频资产生成,但它们通常复杂且过程密集,导致过程缓慢且昂贵。这种计算解决方案通常也是单输出的,这意味着每个新的音频资产必须逐个生成,这进一步增加了时间和处理成本。
[0004]本专利技术寻求减轻上述问题中的至少一些问题。

技术实现思路

[0005]根据本公开的一个方面,提供了一种生成音频资产的方法,包括以下步骤:接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像,将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像,每个输出多通道图像包括输出图形表示,从每个输出多通道图像提取输出图形表示,并将每个输出图形表示转换为输出音频资产。
[0006]使用音频的图形表示(诸如声谱图)来训练生成模型允许相对容易和自主地生成音频资产。此外,使用多通道图形表示来生成音频的批处理方法允许在短时间内并以降低的所需计算能力来创建多个音频资产。
[0007]优选地,生成模型是单一图像生成模型。与其他生成模型相比,使用声谱图制造新声音的单一图像生成显著减少了所需的数据量和计算能力。在单一输入图像上训练单一图像生成模型以生成输入图像的新变体。这通常是通过使用具有有限感受野的全卷积判别器(例如,马尔可夫判别器(patch discriminator))和渐进增长结构来实现的。这些单一图像模型的一个实用问题是,每次生成新图像时都必须对它们进行训练。换句话说,如果需要产生两个不同图像的新版本,就必须训练两个不同的模型(每个图像一个模型)。这通常是耗
时和昂贵的操作和维护。本专利技术允许在短时间内通过使用一种使用生成模型批量生成声音的新方法来生成多个音频资产。以此方式,可以在单通道图形表示的小数据集上训练单一图像生成模型,并且可以有能够产生不同训练声音的变体的单一模型。这使得能够轻松地并且以相对较小的所需计算能力来生成大量新的音频资产。
[0008]本专利技术可以利用音频资产的许多不同类型的图形表示中的任何一种。例如,音频资产也可以被转换为音频波形表示或光谱仪表示或从音频波形表示或光谱仪表示转换而来。优选地,音频资产被转换为音频声谱图和从音频声谱图转换而来。在这种情况下,将每个音频资产转换为图形表示的步骤可以包括对每个音频资产执行傅立叶变换,并绘制图形表示中的频域振幅以产生声谱图。声谱图是有利的,因为它们在显示关于声音的特征信息的频率空间中表示音频资产。例如,单一声谱图可以表示单声道音频,并且可以通过对音频进行短时傅立叶变换来获得。声谱图通常有一个通道(如果使用幅度或复数表示)或两个通道(如果使用幅度和相位)。已经发现,单通道声谱图在频域中提供了音频的特别好的表示,其可用于在音频资产的图形和声学表示之间快速和有效地转换,而没有明显的细节损失。当使用多声道音频时,例如当使用立体声或环绕立体声和3D音频时,也可以使用多通道。
[0009]虽然声谱图通常是通过傅立叶变换(和相关的逆变换)获得和解析的,但任何合适的函数都可以用于向声谱图表示的转换和从声谱图表示的转换。例如,解析每个输出多通道图像的步骤可以包括以下步骤:从多通道图像的每个通道中分离输出图形图像,以及对每个输出图形图像执行逆傅立叶变换以从每个输出图形图像中检索一个或多个输出音频资产。可替代地或除了声谱图之外,可以类似地考虑其他可逆变换来生成音频资产的图形表示,诸如小波变换而不是傅立叶变换。
[0010]单一图像生成模型可以是具有马尔可夫判别器的生成对抗网络GAN。马尔可夫判别器可以是一种用于GAN的判别器,其仅在局部图像块(patch)的尺度上判别结构损失,并且将输入图像中的每个块分类为是真还是假。马尔可夫判别器可以在图像上卷积地运行,平均所有响应以提供判别器的最终输出。在使用这种GAN的情况下,生成一个或多个输出多通道图像的步骤可以包括在输入多通道图像上训练GAN。
[0011]通常,输出多通道图像可以包括多通道图像的每个通道中的输出图形表示。每个图形表示可以是具有一个通道的声谱图。
[0012]本文描述的技术可以特别适合于在视频游戏应用中使用,其中需要大量的音频资产,并且具有轻微变化的大量类似声音特别有利。接收多个输入音频资产的步骤可以包括从视频游戏环境接收视频游戏信息,并且生成一个或多个输出多通道图像的步骤可以包括将视频游戏信息馈送到单一图像生成模型中,使得输出多通道图像受到视频游戏信息的影响。
[0013]在一些示例中,输入音频资产可以是从麦克风输入直接接收的。也就是,接收多个输入音频资产的步骤可以包括从麦克风源接收输入音频片段。
[0014]根据本公开的另一方面,提供了一种计算机程序,该计算机程序包括计算机实现的指令,当在计算机上运行时,该指令使计算机实现根据第一方面的方法,该方法具有本文公开的任何一个或多个特征。
[0015]可以理解,本文描述的方法可以通过软件指令或通过包含或替代专用硬件在适用时适当地适配的传统硬件上来执行。
[0016]因此,对传统等效设备的现有部分的所需适配可以以计算机程序产品的形式实现,该计算机程序产品包括存储在诸如软盘、光盘、硬盘、固态盘、PROM、RAM、闪存或这些或其他存储介质的任何组合上的处理器可实现指令,或者以硬件实现为ASIC(专用集成电路)或FPGA(现场可编程门阵列)或适合用于适配传统等效设备的其他可配置电路。另外,这样的计算机程序可以经由网络(诸如以太网、无线网络、互联网或这些或其他网络的任何组合)上的数据信号来发送。
[0017]根据本专利技术的另一方面,提供了一种用于生成音频资产的系统,该系统包括:资产输入单元,其被配置为接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,并通过将每个输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种生成音频资产的方法,包括以下步骤:接收多个输入音频资产,将每个输入音频资产转换为输入图形表示,从各个输入图形表示生成输入图像,将所述输入图像馈入生成模型以训练所述生成模型并生成一个或多个输出图像,每个输出图像包括输出图形表示,以及从每个输出图像提取所述输出图形表示,并将每个输出图形表示转换为输出音频资产。2.根据权利要求1的方法,其中所述输入图像是通过将每个输入图形表示堆叠在所述图像的分离通道中而生成的多通道图像,并且所生成的输出图像是输出多通道图像。3.根据权利要求1所述的方法,其中,将每个音频资产转换为图形表示的步骤包括对每个音频资产执行傅立叶变换并绘制频域振幅以产生声谱图作为所述图形表示。4.根据权利要求2所述的方法,其中,解析每个输出多通道图像的步骤包括以下步骤:从所述多通道图像的每个通道分离所述输出图形图像,以及对每个输出图形图像执行逆傅立叶变换,以从每个输出图形图像检索一个或多个输出音频资产。5.根据权利要求1的方法,其中,每个图形表示是声谱图。6.根据权利要求1的方法,其中,所述生成模型是单一图像生成模型,包括具有生成器和马尔可夫判别器的生成对抗网络GAN,并且生成一个或多个输出图像的步骤包括在所述输入图像上训练所述GAN。7.根据权利要求2所述的方法,其中,所述输出多通道图像包括所述多通道图像的每个通道中的输出图形表示。8.根据权利要求1所述的方法,其中,将每个输出图形表示转换为输出音频资产的步骤包括生成一个或多个分层输出音频资产,其中每个分层输出音频资产包括从所述输出图形表示导出的一个或多个音频资产。9.根据权利要求8所述的方法,其中,每个分层输出音频资产中的所述音频资产在时间上错开一时间延迟。10.根据权利要求1所述的方法,其中,接收多个输入音频资产的步骤包括从视频游戏环境接收视频游戏信息,并且生成一个或多个输出图像的步骤包括将所述视频游戏信息馈送到所述单一图像生成模型中,使得所述输出图像受到所述视频游戏信息的影响。11.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:AB里奥斯
申请(专利权)人:索尼互动娱乐欧洲有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1