音频生成方法和系统技术方案

技术编号：36610459 阅读：15 留言：0更新日期：2023-02-08 09:57

一种音频生成方法和系统，该方法包括以下步骤：接收多个输入音频资产，将每个输入音频资产转换为输入图形表示，通过将每个输入图形表示堆叠在图像的分离通道中来生成输入多通道图像，将输入多通道图像馈入生成模型以训练生成模型并生成一个或多个输出多通道图像，每个输出多通道图像包括输出图形表示，从每个输出多通道图像提取输出图形表示，并将每个输出图形表示转换为输出音频资产。图形表示转换为输出音频资产。图形表示转换为输出音频资产。

全部详细技术资料下载

【技术实现步骤摘要】
音频生成方法和系统

[0001]本专利技术涉及用于生成音频的方法和系统，例如用于视频游戏环境中的音频资产(asset)。

技术介绍

[0002]随着当前视频游戏规模的增长，音频内容生成是一项具有挑战性的任务。声音设计师被要求为每个游戏制作越来越多的声音和音频资产。例如，在视频游戏领域，可能需要用于声音效果的巨大音频资产库，特别是用于表达声音效果。每个音频文件可能需要类似的资产，但略有变化，以适应视频游戏事件的需要。例如，脚步声音频资产可能需要脚步声上的多个变化，以模仿实际生活中脚步声的变化，并考虑由于游戏中的动作(诸如当玩家奔跑、行走、爬行等时)而影响脚步声的声学特性(诸如音量、音高、音调、音色)的某些因素。在创建这样的声音时，每个这样的资产通常需要手工制作以具有从基本音频资产的适当变化。这通常耗时、昂贵(计算和财务上都是如此)，并给音频创作者带来沉重的脑力负担。
[0003]此外，在某些应用中(诸如在视频游戏中)，能够动态生成新的音频资产是有利的。这样的过程很难实现，因为音频不能在游戏发行后由录音师生成，而必须借助于计算机过程来生成。在这种情况下，通常很难生成具有所需的从原始资产的变化，但在总体主题上仍然与原始资产足够相似以便观众能够识别它们的音频资产。已经尝试提供计算性音频资产生成，但它们通常复杂且过程密集，导致过程缓慢且昂贵。这种计算解决方案通常也是单输出的，这意味着每个新的音频资产必须逐个生成，这进一步增加了时间和处理成本。
[0004]本专利技术寻求减轻上述问题中的至少一些问题。
专...

【技术保护点】

【技术特征摘要】
1.一种生成音频资产的方法，包括以下步骤：接收多个输入音频资产，将每个输入音频资产转换为输入图形表示，从各个输入图形表示生成输入图像，将所述输入图像馈入生成模型以训练所述生成模型并生成一个或多个输出图像，每个输出图像包括输出图形表示，以及从每个输出图像提取所述输出图形表示，并将每个输出图形表示转换为输出音频资产。2.根据权利要求1的方法，其中所述输入图像是通过将每个输入图形表示堆叠在所述图像的分离通道中而生成的多通道图像，并且所生成的输出图像是输出多通道图像。3.根据权利要求1所述的方法，其中，将每个音频资产转换为图形表示的步骤包括对每个音频资产执行傅立叶变换并绘制频域振幅以产生声谱图作为所述图形表示。4.根据权利要求2所述的方法，其中，解析每个输出多通道图像的步骤包括以下步骤：从所述多通道图像的每个通道分离所述输出图形图像，以及对每个输出图形图像执行逆傅立叶变换，以从每个输出图形图像检索一个或多个输出音频资产。5.根据权利要求1的方法，其中，每个图形表示是声谱图。6.根据权利要求1的方法，其中，所述生成模型是单一图像生成模型，包括具有生成器和马尔可夫判别器的生成对抗网络GAN，并且生成一个或多个输出图像的步骤包括在所述输入图像上训练所述GAN。7.根据权利要求2所述的方法，其中，所述输出多通道图像包括所述多通道图像的每个通道中的输出图形表示。8.根据权利要求1所述的方法，其中，将每个输出图形表示转换为输出音频资产的步骤包括生成一个或多个分层输出音频资产，其中每个分层输出音频资产包括从所述输出图形表示导出的一个或多个音频资产。9.根据权利要求8所述的方法，其中，每个分层输出音频资产中的所述音频资产在时间上错开一时间延迟。10.根据权利要求1所述的方法，其中，接收多个输入音频资产的步骤包括从视频游戏环境接收视频游戏信息，并且生成一个或多个输出图像的步骤包括将所述视频游戏信息馈送到所述单一图像生成模型中，使得所述输出图像受到所述视频游戏信息的影响。11.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员：AB里奥斯，
申请(专利权)人：索尼互动娱乐欧洲有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人