音信号合成方法、生成模型的训练方法、音信号合成系统及程序技术方案

技术编号:30072815 阅读:26 留言:0更新日期:2021-09-18 08:26
通过计算机实现的音信号合成方法是生成控制数据,该控制数据包含表示与应该合成的音信号的音高相对应的音名的音名数据和表示该音高的八度的八度数据,通过向对包含表示与参照信号的音高相对应的音名的音名数据及表示所述音高的八度的八度数据在内的控制数据和表示所述参照信号的输出数据之间的关系进行了学习的生成模型输入所生成的所述控制数据,从而对表示所述音信号的输出数据进行推定。从而对表示所述音信号的输出数据进行推定。从而对表示所述音信号的输出数据进行推定。

【技术实现步骤摘要】
【国外来华专利技术】音信号合成方法、生成模型的训练方法、音信号合成系统及程序


[0001]本专利技术涉及将音信号进行合成的音源技术。

技术介绍

[0002]提出有专利文献1所示的NSynth、或者非专利文献1所示的NPSS(Neural Parametric Singing Synthesizer)等使用神经网络(下面,称为“NN”)而生成与条件输入相对应的声音波形的音源(下面,称为DNN(Deep Neural Network)音源)。NSynth与嵌入(embedding/嵌入向量)相应地,针对每个采样周期而生成音信号的样本。NPSS的Timbre模型与音调及定时信息相应地,针对每个帧而生成音信号的频谱。
[0003]专利文献1:美国专利第10068557号说明书
[0004]非专利文献1:Merlijn Blaauw,Jordi Bonada,、“A Neural Parametric Singing Synthesizer Modeling Timbre and Expression from Natural Songs”,Appl.Sci.2017,7,1313

技术实现思路

[0005]以往,作为表示音高的音高数据的形式而提出了one

hot(独热)表达。one

hot表达是通过与不同的音高相对应的n个(n为2以上的自然数)位而表达音高的方法。例如,在表达1个音高的one

hot表达的向量中,将构成音高数据的n个位之中的与该音高相对应的1个位设定为“1”,将剩余的(N-1)个位分别设定为“0”。
[0006]在专利文献1的NSynth中,通过将one

hot表达的音高数据输入至WaveNet模型,从而生成与音高数据相对应的样本的时间序列。另外,在非专利文献1的NPSS中,通过将one

hot表达的音高数据输入至F0模型而生成音高F0的轨迹,生成与其音高F0的轨迹相对应的谱包络的时间序列。这些one

hot表达的音高数据是与在希望生成的音信号的音域内存在的音阶的总数同等大小的维数,由此,存在DNN音源的规模变大这样的问题。
[0007]在自然界的声音的生成机理中,大量发现人类的发声器官或者管乐器的发音机构等通过大致相同的物理构造而生成相差八度(Octave)的音的情形。原本现有的DNN音源无法有效使用在上述相差八度的音之间共通的特征。
[0008]本专利技术的目的在于,有效使用相差八度的音的共通性,通过比较小的规模而高品质地生成宽音域的音高的音信号。
[0009]本专利技术的一个方式所涉及的音信号合成方法生成控制数据,该控制数据包含表示与应该合成的音信号的音高相对应的音名的音名数据和表示该音高的八度的八度数据,通过向对包含表示与参照信号的音高相对应的音名的音名数据及表示所述音高的八度的八度数据在内的控制数据和表示所述参照信号的输出数据之间的关系进行了学习的生成模型输入所生成的所述控制数据,从而对表示所述音信号的输出数据进行推定。
[0010]本专利技术的一个方式所涉及的生成模型的训练方法准备某音高的参照信号、表示与
该音高相对应的音名的音名数据、以及表示该音高的八度的八度数据,训练生成模型以与包含所述音名数据和所述八度数据在内的控制数据相应地生成表示所述参照信号的输出数据。
[0011]本专利技术的一个方式所涉及的音信号合成系统具有1个以上的处理器和1个以上的存储器,在该音信号合成系统中,所述1个以上的存储器对生成模型进行存储,该生成模型对包含表示与参照信号的音高相对应的音名的音名数据及表示该音高的八度的八度数据在内的控制数据和表示所述参照信号的输出数据之间的关系进行了学习,所述1个以上的处理器生成包含表示与应该合成的音信号的音高相对应的音名的音名数据和表示该音高的八度的八度数据在内的控制数据,通过将所生成的所述控制数据输入至所述生成模型,从而对表示所述音信号的输出数据进行推定。
[0012]本专利技术的一个方式所涉及的程序使计算机作为生成控制部及生成部起作用,该生成控制部生成控制数据,该控制数据包含表示与应该合成的音信号的音高相对应的音名的音名数据和表示该音高的八度的八度数据,该生成部通过向对包含表示与参照信号的音高相对应的音名的音名数据及表示所述音高的八度的八度数据在内的控制数据和表示所述参照信号的输出数据之间的关系进行了学习的生成模型输入所生成的所述控制数据,从而对表示所述音信号的输出数据进行推定。
附图说明
[0013]图1是表示音信号合成系统的硬件结构的框图。
[0014]图2是表示音信号合成系统的功能结构的框图。
[0015]图3是音名数据和八度数据的说明图。
[0016]图4是训练部和生成部的处理的说明图。
[0017]图5是准备处理的流程图。
[0018]图6是发音单位的音生成处理的流程图。
具体实施方式
[0019]A:第1实施方式
[0020]图1是例示本专利技术的音信号合成系统100的结构的框图。音信号合成系统100是通过具有控制装置11、存储装置12、显示装置13、输入装置14和放音装置15的计算机系统实现的。音信号合成系统100例如为移动电话、智能手机或者个人计算机等信息终端。此外,音信号合成系统100除了由单体的装置实现以外,也由相互地分体构成的多个装置(例如服务器-客户端系统)实现。
[0021]控制装置11是对构成音信号合成系统100的各要素进行控制的单个或者多个处理器。具体地说,例如通过CPU(Central Processing Unit)、SPU(Sound Processing Unit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)或者ASIC(Application Specific Integrated Circuit)等1种以上的处理器而构成控制装置11。控制装置11生成表示合成音的波形的时间区域的音信号V。
[0022]存储装置12是对由控制装置11执行的程序和控制装置11所使用的各种数据进行存储的单个或者多个存储器。存储装置12例如由磁记录介质或者半导体记录介质等公知的
记录介质,或者多种记录介质的组合而构成。此外,也可以准备与音信号合成系统100分体的存储装置12(例如云储存器),控制装置11经由移动体通信网或者互联网等通信网而执行相对于存储装置12的写入及读出。即,存储装置12可以从音信号合成系统100被省略。
[0023]显示装置13对由控制装置11执行的程序的运算结果进行显示。显示装置13例如为显示器。显示装置13可以从音信号合成系统100被省略。
[0024]输入装置14接受用户的输入。输入装置14例如为触摸面板。输入装置14可以从音信号合成系统100被省略。
[0025]放音装置15对由控制装置11生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种音信号合成方法,其是由计算机实现的,生成控制数据,该控制数据包含表示与应该合成的音信号的音高相对应的音名的音名数据和表示该音高的八度的八度数据,通过向对包含表示与参照信号的音高相对应的音名的音名数据及表示该音高的八度的八度数据在内的控制数据和表示所述参照信号的输出数据之间的关系进行了学习的生成模型输入所生成的所述控制数据,从而对表示所述音信号的输出数据进行推定。2.根据权利要求1所述的音信号合成方法,其中,所生成的所述控制数据所包含的八度数据通过one

hot表示所述音信号的音高的八度。3.根据权利要求1或2所述的音信号合成方法,其中,所生成的所述控制数据所包含的音名数据通过one

hot表示与所述音信号的音高相对应的音名。4.根据权利要求1至3中任一项所述的音信号合成方法,其中,所述输出数据表示应该合成的音信号的波形谱。5.根据权利要求1至3中任一项所述的音信号合成方法,其中,所述输出数据表示应该合成的音信号的样本。6.一种生成模型的训练方法,其是由计算机实现的,准备某音高的参照信号、表示与该音高相对应的音名的音名数据、以及表示该音高的八度的八度数据,训练生成模型以与包含所述音名数据和所述八度数据在内的控制数据相应地生成表示所述参照信号的输出数据。7.一种音信号合成系统,其具有1个以上的处理器和1个以上的存储器,在该音信号合成系统中,所述1个以上的存储器对生成模型进行存储,该生成模型对包含表示与参照信号的...

【专利技术属性】
技术研发人员:西村方成
申请(专利权)人:雅马哈株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1