当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于端到端的水场景音频的生成方法技术

技术编号:21458535 阅读:35 留言:0更新日期:2019-06-26 06:21
本发明专利技术属于音频处理的技术领域,具体涉及一种基于端到端的水场景音频的生成方法,包括如下步骤:步骤一,选取各类水场景视频,并进行预处理;步骤二,根据预处理后的数据,通过训练获得生成器模型;步骤三,将无声视频进行预处理,加载到训练好的生成器模型,输出与无声视频对应的音频;步骤四,根据音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的音频。本发明专利技术能够实现端到端的户外水场景声音的自动生成,解决为场景配音费时和费力的问题,同时,利用训练所得的模型来生成水场景音频,能够提高生成速度和同步度,从而提高工作效率。

【技术实现步骤摘要】
一种基于端到端的水场景音频的生成方法
本专利技术属于音频处理的
,具体涉及一种基于端到端的水场景音频的生成方法。
技术介绍
随着计算机图形学技术的不断发展,人们对视频及动画的声音质量提出了更高的要求。而水场景,尤其是户外水场景存在于影视、游戏之中,所以开发一种能够自动的根据户外水场景视频去生成对应场景声音的方法显得十分必要。目前,人们大多利用基于物理的方法去生成水场景的声音。基于物理的水场景声音生成方法主要基于一种理论,即气泡的形成和共振是水声音的最主要的来源。Zheng等人在谐波气泡中提出一个基于谐波气泡的水流声音生成方法,通过对声音传播过程的考虑,其生成了包括水龙头流水在内的多种流水声音,但其所生成的结果需要经过繁琐的人为调整,随后,Langlois等人在基于复杂声学气泡的水模拟中提出一个基于二相不可压缩流体模拟的声音生成方法被提出,用于改进利用气泡生成的流体声音结果,其液体中的气泡不再采用随机的模型,而是根据流体的状态去产生更加真实的气泡,也使得最终的声音效果更加逼真,但这些方法的主要研究对象都局限于小规模的水流,并且,随着声音结果的不断改良,算法复杂度也在不断的提升,这就使得他们无法应用到户外水场景的声音合成中。深度学习的声音生成方法,基于视频去生成对应的声音。Owens等人在视觉表明声音中提出一个由卷积神经网络(CNN)和长短期记忆单元(LSTM)组合而成的神经网络,其通过输入每一帧视频灰度图及其前后帧灰度图像组成的spacetime图的图像特征,输出与视频相对应的声音耳蜗电图,再去声音库中寻找与此图最匹配的声音样本拼接生成最终结果,Chen等人在深跨模态视听生成中提出利用GAN网络设计了两种转换模式,分别将输入乐器声的对数振幅梅尔频谱图(LMS)转换为对应的乐器图,以及将乐器图转换为对应的LMS图,再去寻找与LMS匹配的乐器声音,这两个算法的深度网络的输出都是类似于图像的谱图,并没有直接生成原始的声音信号,Zhou等人在视频到声音:室外视频的声音生成中提出利用SampleRNN模型对自然场景视频的声音进行了尝试性地生成,通过提取视频图像或者光流图的特征作为RNN的输入,从而直接生成对应的声音信号,然而其在音视频同步性上仍然存在一些问题。
技术实现思路
本专利技术的目的在于:针对现有技术的不足,提供一种基于端到端的水场景音频的生成方法,能够实现端到端的户外水场景声音的自动生成,解决为场景配音费时和费力的问题,同时,利用训练所得的模型来生成水场景音频,能够提高生成速度和同步度,从而提高工作效率。为了实现上述目的,本专利技术采用如下技术方案:一种基于端到端的水场景音频的生成方法,包括如下步骤:步骤一,选取各类水场景视频,并进行预处理;步骤二,根据预处理后的数据,通过训练获得生成器模型;步骤三,将无声视频进行预处理,加载到训练好的所述生成器模型,输出与所述无声视频对应的音频;步骤四,根据所述音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的所述音频。还需要说明的是:本专利技术的生成方法中,步骤一中,选取各类水场景视频进行训练,有助于对模型进行优化训练,降低误差,同时,由于视频的图像信息与声音之间有较大的维度差异,通过预处理能够使图像信息与声音在同一个维度;步骤二中,通过对预处理后的数据训练生成器模型,可自动合成与户外水场景视频相同步的流体声音,不需要专业的拟音师来合成同步的水场景声音,也不需要人为的根据不同的场景特征去设计不同的算法来生成各类场景的声音,节约人力物力的同时,提高生成器模型的准确性,满足人们的需求,同时,还需要设置辨别器,用于评估生成器生成结果的好坏,并将评估结果反馈到生成器模型中,生成器模型经过多次的反馈及调整过程,实现对生成器模型进行有效训练,从而提高生成器模型的准确性,给无声视频同步配声音;步骤三中,无声视频不具有声音,需要训练好的生成器模型根据每一秒的无声视频信息向量,生成对应的音频数据,从而完成给无声视频配上声音;步骤四中,由于生成器模型输出的音频数据未必能符合实际水场景,如瀑布场景,需要对音色进行增强,以符合实际水场景需求,同时,为了进一步提高自动化水平,也采用训练好的音色增强器模型对音色进行增强,实现端到端的户外水场景声音的自动生成,训练好的音色增强器模型能够根据声音的包络,直接得到增强后的音频,免去中间的物理方法,如,图象法、比较法、综合法、控制变量法和转化法等,大大提高处理速度,减少用户等待的时间。作为本专利技术所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤一中,所述预处理的方法,包括如下步骤:A1、提取视频帧的特征,获取视频的信息;A2、将每秒视频信息转换为与音频维度相同的向量。作为本专利技术所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤二中,所述生成器模型的训练方法,包括如下步骤:B1、输入所述视频信息的向量,通过所述生成器模型输出音频信号;B2、评估所述音频信号,若不对应,则反馈给所述生成器模型,并重新进行调整,直到输出对应的音频信号;若对应,则继续进行下一个视频信息的训练。作为本专利技术所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤四中,所述音色增强器模型的训练方法,包括如下步骤:C1、输入目标音频的包络,通过所述音色增强器模型输出所述音频的序列;C2、评估所述音频的序列,若不是目标序列,则反馈给所述音色增强器模型,并重新进行调整,直到输出目标音频的序列;若是目标序列,则继续进行下一个音色增强训练。作为本专利技术所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤四中,所述包络的生成方法,包括如下步骤:D1、输入一段音频序列GV以及包络的采样间隔Lstep;D2、取音频序列GV中每一个采样间隔Lstep内的绝对值的最大值作为这段间隔内的一个包络点pi;D3、所有采样间隔内的包络点pi连接而成的数组Ep,经过线性插值形成长度与GV相同的序列E(1:len),即为音频序列GV所对应的包络,其中,Pi∈Gv,interp()表示线性插值,表示连接操作。作为本专利技术所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤A2中,所述视频信息转换公式为:G(y1,...,ym)→x1,...,xn,x∈{音频),y∈{视频}其中y1,...,ym代表所述视频帧的颜色通道信息,每一个通道都是由介于0到255之间的数组成的矩阵,G(y1,...,ym)表示基于视频帧生成的音频信号的值(取值范围为-1到1),x1,...,xn表示视频对应的音频信号的值(变化范围为-1到1)。作为本专利技术所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤二中,输出所述音频信号所使用的损失函数为:其中,λ=100,其中,X表示声音真实值,V表示视频帧信息,G表示生成器生成的结果,D表示评估的结果,E表示求均值。作为本专利技术所述的一种基于端到端的水场景音频的生成方法的一种改进,步骤二中,评估所述音频信号所使用的损失函数为:其中,V表示视频帧信息,G表示生成器生成的结果,D表示评估的结果,E表示求均值。作为本专利技术所述的一种基于端到端的水场景音频的生成方法的一种改进,所述水场景音频的生成方法基于GAN网络,所述GAN网络包括生成器、辨别器及音色增强器。本文档来自技高网
...

【技术保护点】
1.一种基于端到端的水场景音频的生成方法,其特征在于,包括如下步骤:步骤一,选取各类水场景视频,并进行预处理;步骤二,根据预处理后的数据,通过训练获得生成器模型;步骤三,将无声视频进行预处理,加载到训练好的所述生成器模型,输出与所述无声视频对应的音频;步骤四,根据所述音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的所述音频。

【技术特征摘要】
1.一种基于端到端的水场景音频的生成方法,其特征在于,包括如下步骤:步骤一,选取各类水场景视频,并进行预处理;步骤二,根据预处理后的数据,通过训练获得生成器模型;步骤三,将无声视频进行预处理,加载到训练好的所述生成器模型,输出与所述无声视频对应的音频;步骤四,根据所述音频的序列生成包络,并加载到训练好的音色增强器模型,输出音色增强后的所述音频。2.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于:步骤一中,所述预处理的方法,包括如下步骤:A1、提取视频帧的特征,获取视频的信息;A2、将每秒视频信息转换为与音频维度相同的向量。3.如权利要求2所述的一种基于端到端的水场景音频的生成方法,其特征在于:步骤二中,所述生成器模型的训练方法,包括如下步骤:B1、输入所述视频信息的向量,通过所述生成器模型输出音频信号;B2、评估所述音频信号,若不对应,则反馈给所述生成器模型,并重新进行调整,直到输出对应的音频信号;若对应,则继续进行下一个视频信息的训练。4.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于:步骤四中,所述音色增强器模型的训练方法,包括如下步骤:C1、输入目标音频的包络,通过所述音色增强器模型输出所述音频的序列;C2、评估所述音频的序列,若不是目标序列,则反馈给所述音色增强器模型,并重新进行调整,直到输出目标音频的序列;若是目标序列,则继续进行下一个音色增强训练。5.如权利要求1所述的一种基于端到端的水场景音频的生成方法,其特征在于:步骤四中,所述包络的生成方法,包括如下步骤:D1、输入一段音频序列GV以及包络的采样间隔Lstep;D2、取音频序列GV中每一个采样间隔Lstep内的绝对值的最大值作为这段间隔内的一个包络点pi;D3、所有采样间隔内的包络点pi连接而成的数组Ep,经过线性插值形成长度...

【专利技术属性】
技术研发人员:刘世光程皓楠王凯
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1