语音转换装置(1)具备:输入部(11),其输入转换目标语音的指定;提取部(12),其对转换源语音的语音信号进行解析来提取包含音素和音高的时序数据;调整部(13),其使音高的高度与被指定的转换目标语音的高度一致;以及生成部(14),其生成将音素和音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的转换目标语音的语音信号。音的语音信号。音的语音信号。
【技术实现步骤摘要】
【国外来华专利技术】语音转换装置、语音转换方法、程序及记录介质
[0001]本专利技术涉及语音转换装置、语音转换方法、程序及记录介质。
技术介绍
[0002]随着发布在虚拟空间内操作了计算机图形角色(以下,称为虚拟形象)的影像的服务的扩展,期望与虚拟形象的外观相符的语音转换。例如,即使在操作虚拟形象的发布者的性别及年龄不符合虚拟形象的外观的情况下,也可以将发布者的语音转换为符合虚拟形象的外观的语音。
[0003]包含语音转换的语音合成的品质由于这几年深度学习技术的进步而大幅地提高。其中,通过采取了一点一点地生成语音样本的自回归方法的深度学习模型WaveNet,能够合成与实际的语音几乎没有差别的品质的语音。WaveNet合成的品质高,另一方面存在合成的速度慢的弱点,也出现了改善了这一点的Wave RNN等模型。
[0004]现有技术文献
[0005]专利文献
[0006]专利文献1:日本专利第6783475号
技术实现思路
[0007]专利技术所要解决的课题
[0008]在使用了深度学习的语音转换的方法之一中,有如下方法:准备通过转换源语音和转换目标语音朗读相同文章的语音的配对数据,将这些配对数据作为学习数据来进行语音转换。但是,该方法需要让转换源语音的人朗读多个文章来对语音进行录音,再利用该语音数据进行深度学习,因此存在非常花费时间的问题。在语音转换的深度学习中需要转换源的语音数据是因为想要通过深度学习来直接(End
‑
to
‑
End)解决语音转换。
[0009]另外,存在想要对相同外观的虚拟形象以相同的语音说话的要求。即,期望无论是谁的语音都能够转换为相同语音。进而,若能够从任何人的语音转换为各种各样的人的语音,则能够选择发布者所希望的语音作为虚拟形象的语音,或者由一个或者少数的发布者操作大量虚拟形象。
[0010]本专利技术是鉴于所述情况而完成的,其目的在于,无论谁的语音,都转换为各种人的语音。
[0011]用于解决课题的手段
[0012]本专利技术的一个方式的语音转换装置具备:输入部,其输入转换目标语音的指定;提取部,其对转换源语音的语音信号进行解析而提取包含音素和音高的时序数据;调整部,其使所述音高的高度与被指定的所述转换目标语音的高度一致;以及生成部,其生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音信号。
[0013]本专利技术的一个方式的语音转换方法中,计算机输入转换目标语音的指定,对转换
源语音的语音信号进行解析而提取包含音素和音高的时序数据,使所述音高的高度与被指定的所述转换目标语音的高度一致,生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音信号。
[0014]专利技术效果
[0015]根据本专利技术,无论谁的语音,都能够转换为各种人的语音。
附图说明
[0016]图1是表示本实施方式的语音转换装置的结构的一例的图。
[0017]图2是用于说明音高的高度调整的图。
[0018]图3是用于说明语音转换装置的深度学习模型的图。
[0019]图4是表示不限定转换源语音而能够进行语音转换的情形的图。
[0020]图5是表示语音转换装置的处理流程的一例的流程图。
[0021]图6是表示本实施方式的语音转换装置的变形例的结构的一例的图。
[0022]图7是表示使用了语音转换装置的Web应用的画面的一例的图。
[0023]图8是表示将速度转换装置连接到语音转换装置的结构的一个例子的图。
具体实施方式
[0024][结构][0025]以下,使用附图对本专利技术的实施方式进行说明。
[0026]参照图1,对本实施方式的语音转换装置1的结构的一例进行说明。图1所示的语音转换装置1具备输入部11、提取部12、调整部13以及生成部14。语音转换装置1所具备的各部也可以由具备运算处理装置、存储装置等的计算机构成,各部的处理通过程序来执行。该程序存储在语音转换装置1所具备的存储装置中,也能够记录在磁盘、光盘、半导体存储器等记录介质中或通过网络提供。
[0027]输入部11输入转换目标语音的指定。例如,输入部11可以输入转换目标语音的识别符或者名字,也可以输入转换目标语音的属性(性别、大人的语音、小孩的语音、高的语音或者低的语音等)。在输入了转换目标语音的属性的情况下,输入部11从转换目标语音的候选中选择与该属性相应的转换目标语音。
[0028]提取部12输入转换源语音的语音信号(以下,称为语音数据),对转换源语音进行语音识别,从转换源语音中提取包含音素(子音+元音)和针对各音素的音高(pitch)的时序数据。音高也包含抑扬、音调以及语音的长度等语音信息。提取部12既可以读入记录有语音数据的文件,也可以使用语音转换装置1具备的麦克风(未图示)输入语音数据,也可以从与语音转换装置1具备的外部端子连接的设备输入语音数据。提取部12通过现有的语音识别技术,从语音数据中提取音素和音高。例如,在音素的提取中能够利用OpenJTalk,在音高的提取中能够利用WORLD。此外,音素的数量由语音数据的内容(文本的内容)决定,音高的数量由语音数据的长度决定,因此音素和音高也可以不是一一对应。
[0029]提取部12也可以与语音数据一起输入与语音数据相同内容的文章。提取部12可以从输入的文章中提取音素,也可以通过输入的文章来修正语音数据的语音识别结果。通过
输入语音和文章双方,能够实现音素读取的准确性和音高信息的获得这两者。例如,在由于口齿不清的情况等理由,识别出错误的音素的情况下,能够用输入的文章进行调整。
[0030]提取部12按照时序顺序向生成部14发送音素,并且向调整部13发送音高。音高由调整部13进行高度调整后发送到生成部14。
[0031]如图2所示,调整部13对提取部12提取出的每个音素的音高实施线性转换,使转换源语音的高度与转换目标语音的高度一致。例如,调整部13将较低的语音转换为较高的语音,或者将较高的语音转换为较低的语音。另外,转换目标语音的高度是已知的,保持在语音转换装置1具备的存储装置中。调整部13可以针对每个转换目标语音计算语音的高度的平均,将转换源语音的高度的平均调整为转换目标语音的高度的平均。
[0032]生成部14将音素和转换后的音高输入到学习完多人的语音数据的深度学习模型,合成用由输入部11指定的转换目标语音发声的语音信号。生成部14所保持的深度学习模型,当输入音素和音高时,输出用由输入部11指定的语音发声的语音信号。深度学习模型例如能够使用Wave RNN。在提取转换源语音数据的音素时,提取各音素的发声区间并附随于各音素,将各音素和音高输入到生成部14,从而生成部14能够输出保持转换源语音数据的发声期间的语音。关于无音区间,本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种语音转换装置,其特征在于,该语音转换装置具备:输入部,其输入转换目标语音的指定;提取部,其解析转换源语音的语音数据来提取包含音素和音高的时序数据;调整部,其使所述音高的高度与指定的所述转换目标语音的高度一致;以及生成部,其生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音数据。2.根据权利要求1所述的语音转换装置,其特征在于,该语音转换装置具备学习部,该学习部从成为转换目标语音的多人的语音数据提取音素以及音高,学习能够根据音素和音高合成所述多人的语音的各个语音的深度学习模型。3.根据权利要求1或2所述的语音转换装置,其特征在于,所述提取部与所述转换源语音的语音数据一起输入与所述转换源语音的说话内容相同的文章,对该文章进行解析而提取音素。4.根据权利要求1或2所述的语音转换装置,其特征在于,所述提取部代替所述转换源语音的语音数据而解析文章来提取音素,从存储装置读出与音素对应的音高并发送给所述调整部。5.根据权利要求1
‑
3中任一项所述的语音转换装置,其特征在于,所述提取部提取所述音素各自的发声区间,将压缩或伸长后的发声区间输入到所述生成部,所述调整部与所述发声区间的压缩或伸长一...
【专利技术属性】
技术研发人员:广芝和之,小田桐优理,北冈伸也,
申请(专利权)人:多玩国株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。