一种戏曲合成方法、装置和计算机可读存储介质制造方法及图纸

技术编号:19347731 阅读:19 留言:0更新日期:2018-11-07 15:57
本申请提供了一种戏曲合成方法、装置和计算机可读存储介质,其中,该方法包括:获取目标语音和源戏曲唱段;按照所述目标语音的音色特征,将所述源戏曲唱段进行音色转换,得到与所述目标语音的音色特征匹配的转换后的目标戏曲唱段;基于所述目标戏曲唱段,以及预先训练好的配乐生成模型,生成与所述目标戏曲唱段匹配的配乐;将所述目标戏曲唱段与生成的所述配乐进行叠加,得到以生成的所述配乐为背景乐的目标戏曲。本申请实施例通过以戏曲领域的唱腔等特色作为特征,合成戏曲唱段,根据戏曲唱段生成配乐,进而叠加形成戏曲,可以将声音合成延伸到戏曲领域,并实现具有准确戏曲特征的戏曲合成。

Opera synthesis method, device and computer readable storage medium

The application provides a method, device and computer readable storage medium for opera synthesis, in which the method includes: acquiring target speech and source opera segments; converting the source opera segments according to the timbre characteristics of the target speech, and obtaining the conversion after matching the timbre features of the target speech. Target opera aria; based on the target opera aria and the pre-trained model of score generation, a score matching the target opera aria is generated; the target opera aria is superimposed with the generated score to obtain the target opera with the generated score as the background music. The embodiment of this application can extend the sound synthesis to the field of opera and realize the opera synthesis with accurate opera characteristics by synthesizing the opera segments, generating the score according to the opera segments, and then superimposing to form the opera.

【技术实现步骤摘要】
一种戏曲合成方法、装置和计算机可读存储介质
本申请涉及声音合成
,具体而言,涉及一种戏曲合成方法、装置和计算机可读存储介质。
技术介绍
声音的合成出现在上个世纪初,一开始人们的目的是使歌声和人声尽量的贴合,实现模拟人声,后来随着科技的发展,人们更倾向于通过旋律的叠加实现从文本转歌声、语音转歌声等多元的操作。相关技术中有通过使用大规模语料库的拼接,基于上下文环境调整基频、时长等声学参数来合成歌曲的方法,也有利用合成单元筛选模块和韵律、幅度修改模块合成歌曲的方法以及在谐波加噪声模型(HarmonicplusNoiseModel,HNM)的基础上,采用三阶拉格朗日插值的方法确定HNM参数,从而合成歌曲的方法,但以上方法都局限于在计算机科学领域对于合成技术的讨论,而没有结合实际应用来进行研究。
技术实现思路
有鉴于此,本申请的目的在于提供一种戏曲合成方法、装置和计算机可读存储介质,结合实际应用,实现了更能表现声音特色的合成。第一方面,本申请实施例提供了一种戏曲合成方法,其中,包括:获取目标语音和源戏曲唱段;按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段;基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐;将目标戏曲唱段与生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲歌曲。结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段,包括:分别从目标语音中提取基频特征和声道谱特征,以及从源戏曲唱段中提取基频特征和声道谱特征;基于目标语音中的基频特征和声道谱特征,以及源戏曲唱段中的基频特征和声道谱特征,生成目标戏曲唱段。结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,基于目标语音中的基频特征和声道谱特征,以及源戏曲唱段中的基频特征和声道谱特征,生成目标戏曲唱段,包括:将目标语音中的基频特征,以及源戏曲唱段中的基频特征,输入预先训练好的音色控制模型,得到转换后的基频特征;以及,将目标语音中声道谱特征,以及源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征;将转换后的基频特征和声道谱特征进行合成,得到目标戏曲唱段。结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,根据以下方式训练得到音色控制模型:采集多个模型训练样本;其中每个模型训练样本包括目标语音样本、源戏曲唱段样本以及目标戏曲唱段样本;将源戏曲唱段样本和目标语音样本中的基频特征和声道谱特征作为混合高斯模型GMM的输入特征,将目标戏曲唱段样本的基频特征和声道谱特征作为GMM的输出特征,训练得到GMM的映射规则,将该GMM的映射规则作为音色控制模型。结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,将目标语音中声道谱特征,以及源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征,包括:通过梅尔频率倒谱系数MFCC特征提取算法,提取目标语音的声道谱特征中的唱腔特征和源戏曲唱段的声道谱特征中的唱腔特征;将目标语音中的唱腔特征和源戏曲唱段中的唱腔特征输入音色控制模型,得到转换后的唱腔特征;将转换后的唱腔特征通过MFCC特征提取算法进行逆变换,得到转换后的声道谱特征。结合第一方面,本申请实施例提供了第一方面的第五种可能的实施方式,其中,基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐,包括:基于目标戏曲唱段,获取配乐数据集,配乐数据集中包括根据目标戏曲唱段选取的多种配乐;将配乐数据集输入预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐。结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,根据以下方式训练得到配乐生成模型:采集多个模型训练样本,其中,每个模型训练样本包括:与戏曲唱段样本对应的配乐数据集样本,以及与该戏曲唱段样本匹配的目标配乐;将配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐;将待测配乐以及期望生成器生成的目标配乐分别输入GAN中的判别器;基于判别器识别出的待测配乐与目标配乐之间的差别信息,对GAN中的生成器进行调整,并返回将配乐数据集样本输入生成式对抗网络GAN中的生成器,生成待测配乐的步骤,直到待测配乐与目标配乐之间的差别信息满足预设条件,将最后得到的生成器作为配乐生成模型。第二方面,本申请实施例还提供了一种戏曲合成装置,其中,包括:获取模块,用于获取目标语音和源戏曲唱段;转换模块,用于按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段;生成模块,用于基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐;叠加模块,用于将目标戏曲唱段与生成模块生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲歌曲。结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,其中,转换模块具体用于:分别从目标语音中提取基频特征和声道谱特征,以及从源戏曲唱段中提取基频特征和声道谱特征;基于目标语音中的基频特征和声道谱特征,以及源戏曲唱段中的基频特征和声道谱特征,生成目标戏曲唱段。第三方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机可执行指令,计算机可执行指令上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中的戏曲合成方法。本申请实施例提供上述戏曲合成方法通过获取目标语音和源戏曲唱段,按照目标语音的音色特征,将源戏曲唱段进行音色转换,得到与目标语音的音色特征匹配的转换后的目标戏曲唱段;基于目标戏曲唱段,以及预先训练好的配乐生成模型,生成与目标戏曲唱段匹配的配乐;将目标戏曲唱段与生成的配乐进行叠加,得到以生成的配乐为背景乐的目标戏曲。由于戏曲具有独特唱法,相关技术中的声音合成方法难以直接应用,采用本申请实施例的方法,可以将声音合成延伸到戏曲领域,并实现具有准确戏曲特征的戏曲合成。为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了本申请实施例所提供的一种戏曲合成方法的流程图;图2示出了本申请实施例所提供的音色转换的的流程图;图3示出了本申请实施例所提供的配乐合成的流程图;图4示出了本申请实施例所提供的采集配乐数据集的示意图;图5示出了本申请实施例所提供的GAN网络的结构示意图;图6示出了本申请实施例所提供的一种戏曲合成装置的功能单元框图;图7示出了本申请实施例所提供的执行一种戏曲合成方法的电子设备的硬件结构的示意图。具体实施方式为使本申请实施例的目的、技本文档来自技高网...

【技术保护点】
1.一种戏曲合成方法,其特征在于,包括:获取目标语音和源戏曲唱段;按照所述目标语音的音色特征,将所述源戏曲唱段进行音色转换,得到与所述目标语音的音色特征匹配的转换后的目标戏曲唱段;基于所述目标戏曲唱段,以及预先训练好的配乐生成模型,生成与所述目标戏曲唱段匹配的配乐;将所述目标戏曲唱段与生成的所述配乐进行叠加,得到以生成的所述配乐为背景乐的目标戏曲。

【技术特征摘要】
1.一种戏曲合成方法,其特征在于,包括:获取目标语音和源戏曲唱段;按照所述目标语音的音色特征,将所述源戏曲唱段进行音色转换,得到与所述目标语音的音色特征匹配的转换后的目标戏曲唱段;基于所述目标戏曲唱段,以及预先训练好的配乐生成模型,生成与所述目标戏曲唱段匹配的配乐;将所述目标戏曲唱段与生成的所述配乐进行叠加,得到以生成的所述配乐为背景乐的目标戏曲。2.根据权利要求1所述的方法,其特征在于,按照所述目标语音的音色特征,将所述源戏曲唱段进行音色转换,得到与所述目标语音的音色特征匹配的转换后的目标戏曲唱段,包括:分别从所述目标语音中提取基频特征和声道谱特征,以及从所述源戏曲唱段中提取基频特征和声道谱特征;基于所述目标语音中的基频特征和声道谱特征,以及所述源戏曲唱段中的基频特征和声道谱特征,生成所述目标戏曲唱段。3.根据权利要求2所述的方法,其特征在于,基于所述目标语音中的基频特征和声道谱特征,以及所述源戏曲唱段中的基频特征和声道谱特征,生成所述目标戏曲唱段,包括:将所述目标语音中的基频特征,以及所述源戏曲唱段中的基频特征,输入预先训练好的音色控制模型,得到转换后的基频特征;以及,将所述目标语音中声道谱特征,以及所述源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征;将转换后的基频特征和声道谱特征进行合成,得到所述目标戏曲唱段。4.根据权利要求3所述的方法,其特征在于,根据以下方式训练得到所述音色控制模型:采集多个模型训练样本;其中每个模型训练样本包括目标语音样本、源戏曲唱段样本以及目标戏曲唱段样本;将所述源戏曲唱段样本和所述目标语音样本中的基频特征和声道谱特征作为混合高斯模型GMM的输入特征,将目标戏曲唱段样本的基频特征和声道谱特征作为所述GMM的输出特征,训练得到所述GMM的映射规则,将该GMM的映射规则作为所述音色控制模型。5.根据权利要求3所述的方法,其特征在于,将所述目标语音中声道谱特征,以及所述源戏曲唱段中的声道谱特征,输入预先训练好的音色控制模型,得到转换后的声道谱特征,包括:通过梅尔频率倒谱系数MFCC特征提取算法,提取所述目标语音的声道谱特征中的唱腔特征和所述源戏曲唱段的声道谱特征中的唱腔特征;将所述目标语音中的唱腔特征和所述源戏曲唱段中的唱腔特征输入所述...

【专利技术属性】
技术研发人员:靳聪陈小森周帜赵薇李中仝侯聪聪李高玲孙圆圆张一民王雪婷帖云
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1