语音转换装置、语音转换方法、程序及记录介质制造方法及图纸

技术编号：37213044 阅读：44 留言：0更新日期：2023-04-20 23:02

语音转换装置(1)具备：输入部(11)，其输入转换目标语音的指定；提取部(12)，其对转换源语音的语音信号进行解析来提取包含音素和音高的时序数据；调整部(13)，其使音高的高度与被指定的转换目标语音的高度一致；以及生成部(14)，其生成将音素和音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的转换目标语音的语音信号。音的语音信号。音的语音信号。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】语音转换装置、语音转换方法、程序及记录介质

[0001]本专利技术涉及语音转换装置、语音转换方法、程序及记录介质。

技术介绍

[0002]随着发布在虚拟空间内操作了计算机图形角色(以下，称为虚拟形象)的影像的服务的扩展，期望与虚拟形象的外观相符的语音转换。例如，即使在操作虚拟形象的发布者的性别及年龄不符合虚拟形象的外观的情况下，也可以将发布者的语音转换为符合虚拟形象的外观的语音。
[0003]包含语音转换的语音合成的品质由于这几年深度学习技术的进步而大幅地提高。其中，通过采取了一点一点地生成语音样本的自回归方法的深度学习模型WaveNet，能够合成与实际的语音几乎没有差别的品质的语音。WaveNet合成的品质高，另一方面存在合成的速度慢的弱点，也出现了改善了这一点的Wave RNN等模型。
[0004]现有技术文献
[0005]专利文献
[0006]专利文献1：日本专利第6783475号

技术实现思路

[0007]专利技术所要解决的课题
[0008]在使用了深度学习的语...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种语音转换装置，其特征在于，该语音转换装置具备：输入部，其输入转换目标语音的指定；提取部，其解析转换源语音的语音数据来提取包含音素和音高的时序数据；调整部，其使所述音高的高度与指定的所述转换目标语音的高度一致；以及生成部，其生成将所述音素和所述音高按时序顺序输入能够学习多人的语音数据来合成指定的人的语音的深度学习模型中而合成了所指定的所述转换目标语音的语音数据。2.根据权利要求1所述的语音转换装置，其特征在于，该语音转换装置具备学习部，该学习部从成为转换目标语音的多人的语音数据提取音素以及音高，学习能够根据音素和音高合成所述多人的语音的各个语音的深度学习模型。3.根据权利要求1或2所述的语音转换装置，其特征在于，所述提取部与所述转换源语音的语音数据一起输入与所述转换源语音的说话内容相同的文章，对该文章进行解析而提取音素。4.根据权利要求1或2所述的语音转换装置，其特征在于，所述提取部代替所述转换源语音的语音数据而解析文章来提取音素，从存储装置读出与音素对应的音高并发送给所述调整部。5.根据权利要求1
‑
3中任一项所述的语音转换装置，其特征在于，所述提取部提取所述音素各自的发声区间，将压缩或伸长后的发声区间输入到所述生成部，所述调整部与所述发声区间的压缩或伸长一...

【专利技术属性】
技术研发人员：广芝和之，小田桐优理，北冈伸也，
申请(专利权)人：多玩国株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人