信息处理方法及信息处理系统技术方案

技术编号:28880974 阅读:15 留言:0更新日期:2021-06-15 23:18
信息处理系统具有合成处理部,该合成处理部将表示歌唱者的歌唱者数据、表示歌唱风格的风格数据和表示歌唱条件的合成数据输入至通过机器学习而生成的合成模型,由此基于该发音风格及发音条件而生成表示应该由歌唱者发音的目标音的音响特征的特征数据。

【技术实现步骤摘要】
【国外来华专利技术】信息处理方法及信息处理系统
本专利技术涉及对语音等音响进行合成的技术。
技术介绍
以往提出了对任意音位的语音进行合成的语音合成技术。例如在专利文献1中公开了片段连接型的语音合成技术,其通过将多个语音片段之中的与目标的音位相应地选择出的语音片段相互地连接,从而生成音(以下称为“目标音”)。专利文献1:日本特开2007-240564号公报
技术实现思路
近年的语音合成技术中,要求对由多样的发声者通过多样的发音风格发音的目标音进行合成。但是,为了通过片段连接型的语音合成技术应对以上的要求,需要针对发声者和发音风格的每个组合而单独地准备多个语音片段的集合。因此,存在为了准备语音片段而需要过大的工作量这样的问题。考虑以上的情况,本专利技术的一个方式的目的在于,不需要语音片段,生成使发音源(例如发声者)和发音风格的组合存在差异的多样的目标音。为了解决以上的课题,本专利技术的一个方式所涉及的信息处理方法将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。本专利技术的一个方式所涉及的信息处理系统具有合成处理部,该合成处理部将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。本专利技术的一个方式所涉及的信息处理系统具有大于或等于1个处理器和大于或等于1个存储器,通过执行在所述大于或等于1个存储器中存储的程序,所述大于或等于1个处理器将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的音响的音响特征的特征数据。附图说明图1是例示实施方式所涉及的信息处理系统的结构的框图。图2是例示信息处理系统的功能结构的框图。图3是例示合成处理的具体顺序的流程图。图4是学习处理的说明图。图5的例示学习处理的具体顺序的流程图。图6是补充处理的说明图。图7是例示补充处理的具体顺序的流程图。图8是例示第2实施方式中的合成模型的结构的框图。图9是例示第3实施方式中的合成模型的结构的框图。图10是变形例中的合成处理的说明图。具体实施方式<第1实施方式>图1是例示第1实施方式所涉及的信息处理系统100的结构的框图。信息处理系统100是对由特定的歌唱者通过特定的歌唱风格虚拟地歌唱乐曲而发出的语音(以下称为“目标音”)进行生成的语音合成装置。歌唱风格(发音风格的例示)是指与例如歌唱方式相关的特征。例如与说唱(rap)、R&B(rhythmandblues)或者朋克(punk)等各种音乐类型的乐曲相适合的歌唱方式是歌唱风格的具体例。第1实施方式的信息处理系统100是通过具有控制装置11、存储装置12、输入装置13和放音装置14的计算机系统实现的。例如移动电话、智能手机或者个人计算机等信息终端被利用为信息处理系统100。此外,信息处理系统100除了作为单体装置而实现以外,还可以通过相互地分体构成的多个装置的集合而实现。控制装置11由对信息处理系统100的各要素进行控制的单个或者多个处理器构成。例如,控制装置11由CPU(CentralProcessingUnit)、SPU(SoundProcessingUnit)、DSP(DigitalSignalProcessor)、FPGA(FieldProgrammableGateArray)或者ASIC(ApplicationSpecificIntegratedCircuit)等大于或等于1种的处理器构成。输入装置13接收由利用者进行的操作。例如由利用者进行操作的操作件、或者对利用者的接触进行检测的触摸面板被利用为输入装置13。另外,也可以将能够语音输入的拾音装置利用为输入装置13。放音装置14对与来自控制装置11的指示相对应的音响进行播放。例如扬声器或者耳机是放音装置14的典型例。存储装置12例如是由磁记录介质或者半导体记录介质等公知的记录介质构成的单个或者多个存储器,对由控制装置11执行的程序和由控制装置11使用的各种数据进行存储。此外,也可以通过多种记录介质的组合而构成存储装置12。另外,也可以将能够相对于信息处理系统100装卸的移动式记录介质、或者能够经由通信网与信息处理系统100通信的外部记录介质(例如在线储存器)利用为存储装置12。第1实施方式的存储装置12对多个(Na个)歌唱者数据Xa、多个(Nb个)风格数据Xb和合成数据Xc进行存储(Na及Nb各自为大于或等于2的自然数)。此外,歌唱者数据Xa的个数Na和风格数据Xb的个数Nb可以相同也可以不同。第1实施方式的存储装置12对与不同的歌唱者相对应的Na个歌唱者数据Xa(发音源数据的例示)进行存储。各歌唱者的歌唱者数据Xa是表示由该歌唱者发音的歌唱音的音响特征(例如音质)的数据。第1实施方式的歌唱者数据Xa是多维的第1空间中的嵌入向量(embeddingvector)。第1空间是与歌唱音的音响特征相应地决定空间内的各歌唱者的位置的连续空间。在歌唱者之间歌唱音的音响特征越类似,则第1空间内的该歌唱者之间的向量的距离成为越小的数值。如根据以上的说明所理解那样,第1空间表现为对与歌唱音的特征相关的歌唱者之间的关系进行表示的空间。利用者通过适当地操作输入装置13,从而对在存储装置12中存储的Na个歌唱者数据Xa的任意者的数据(即,期望的歌唱者的数据)进行选择。此外,关于歌唱者数据Xa的生成在后面记述。第1实施方式的存储装置12对与不同的歌唱风格相对应的Nb个风格数据Xb进行存储。各歌唱风格的风格数据Xb是表示通过该歌唱风格进行发音的歌唱音的音响特征的数据。第1实施方式的风格数据Xb是多维的第2空间中的嵌入向量。第2空间是与歌唱音的音响特征相应地决定空间内的各歌唱风格的位置的连续空间。在歌唱风格之间歌唱音的音响特征越类似,则第2空间内的该歌唱风格之间的向量的距离成为越小的数值。即,如根据以上的说明所理解那样,第2空间表现为对与歌唱音的特征相关的歌唱风格之间的关系进行表示的空间。利用者通过适当地操作输入装置13,从而对在存储装置12中存储的Nb个风格数据Xb的任意者的数据(即期望的歌唱风格的数据)进行选择。关于风格数据Xb的生成在后面记述。合成数据Xc对目标音的歌唱条件进行指定。第1实施方式的合成数据Xc是对于构成乐曲的多个音符分别指定音高、音位(发音文字)和发音期间的时间序列数据。合成数据Xc可以指定每个音符的音量等控制参数的数值。例如依照MIDI(MusicalInstrumentDigitalInterface)标准的格式的文件(SMF:StandardMIDIF本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其是通过计算机实现的信息处理方法,/n将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。/n

【技术特征摘要】
【国外来华专利技术】20181106 JP 2018-2092881.一种信息处理方法,其是通过计算机实现的信息处理方法,
将表示发音源的发音源数据、表示发音风格的风格数据和表示发音条件的合成数据输入至通过机器学习而生成的合成模型,由此基于所述发音风格及所述发音条件而生成表示应该由所述发音源进行发音的目标音的音响特征的特征数据。


2.根据权利要求1所述的信息处理方法,其中,
所述发音条件包含针对每个音符的音高。


3.根据权利要求1或2所述的信息处理方法,其中,
所述发音条件包含所述目标音的音位。


4.根据权利要求1至3中任一项所述的信息处理方法,其中,
向所述合成模型输入的所述发音源数据是与不同的发音源相对应的多个发音源数据之中的由利用者选择出的发音源数据。


5.根据权利要求1至4中任一项所述的信息处理方法,其中,
向所述合成模型输入的风格数据是与不同的发音风格相对应的多个风格数据之中的由利用者选择出的风格数据。


6.根据权利要求1至5中任一项所述的信息处理方法,其中,
所述信息处理方法还通过将表示新发音源的新发音源数据、表示与所述新发音源相对应的发音风格的风格数据和表示由所述新发音源进行的发音的发音条件的新合成数据输入至所述合成模型,由此基于所述新发音源的发音风格及由所述新发音源进行的发音的发音条件而生成表示由所述新发音源进行发音的音响的音响特征的新特征数据,
对所述新发音源数据及所述合成模型进行更新,以使得与基于所述新合成数据所表示的发音条件而由所述新发音源发音出的音响相关的已知特征数据和所述新特征数据的差异减少。

【专利技术属性】
技术研发人员:大道龙之介梅利因·布洛乌若尔迪·博纳达
申请(专利权)人:雅马哈株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1