歌唱语音合成方法及合成设备、计算机存储介质技术

技术编号:28379734 阅读:12 留言:0更新日期:2021-05-08 00:07
本申请公开了一种歌唱语音合成方法及合成设备、计算机存储介质,该合成方法包括:获取乐谱信息;对乐谱信息进行特征提取,以获得乐谱特征;对乐谱特征进行基频特征预测,以获得基频特征;结合基频特征对乐谱特征进行声学特征预测,以获得声学特征;根据声学特征得到合成后的歌唱语音数据。本申请所提供的合成方法能够提高歌唱语音合成的准确性以及自然度。

【技术实现步骤摘要】
歌唱语音合成方法及合成设备、计算机存储介质
本申请涉及语音合成
,特别是涉及一种歌唱语音合成方法及合成设备、计算机存储介质。
技术介绍
语音合成(TextToSpeech,TTS)是一种将文字转换为语音的技术,近年来由于深度学习等工具的发展,取得了较大进步并被广泛应用,从而导致歌唱语音合成(SingingVoiceSynthesis,SVS)随之受到更多关注,并逐渐成为虚拟偶像、语音助手以及诸多智能设备重要的功能之一。同时,歌唱语音合成很容易与其他人工智能技术结合,比如机器作曲、自动填词等,形成广阔的应用空间。随着多模态技术的进步,人工智能歌手越来越得到大众的欢迎。基于计算机的歌唱语音合成研究始于1950年代,传统的歌唱语音合成方法包括单元拼接和统计参数合成方法。目前一些广泛流行的歌唱语音合成方法仍然采用了有上下文依赖的隐马尔可夫模型,但是这些模型面临较严重的过平滑效应,且对于统计参数的建模能力有限,因此生成的歌唱语音在音色和自然度上相比真实歌唱效果大大折扣。
技术实现思路
本申请主要解决的技术问题是提供一种歌唱语音合成方法及合成设备、计算机存储介质,能够提高歌唱语音合成的准确性以及自然度。为解决上述技术问题,本申请采用的一个技术方案是:提供一种歌唱语音合成方法,所述方法包括:获取乐谱信息;对所述乐谱信息进行特征提取,以获得乐谱特征;对所述乐谱特征进行基频特征预测,以获得基频特征;结合所述基频特征对所述乐谱特征进行声学特征预测,以获得声学特征;根据所述声学特征得到合成后的歌唱语音数据。为解决上述技术问题,本申请采用的另一个技术方案是:提供一种歌唱语音合成设备,所述歌唱语音合成设备包括处理器、存储器以及通信电路,所述处理器分别耦接所述存储器、所述通信电路,所述存储器中存储有程序数据,所述处理器通过执行所述存储器内的所述程序数据以实现上述方法中的步骤。为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序能够被处理器执行以实现上述方法中的步骤。本申请的有益效果是:本申请的歌唱语音合成方法首先对乐谱特征进行预测得到基频特征,然后结合基频特征对乐谱特征进行预测得到声学特征,最后根据声学特征得到歌唱语音数据,其中在预测声学特征时,结合了基频特征对乐谱特征进行预测,能够保证最终合成的歌唱语音数据的准确率和自然度。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1是本申请歌唱语音合成方法一实施方式的流程示意图;图2是一应用场景中对应图1的框架流程图;图3是图2中基频模型的框架示意图;图4是图2中声学模型的框架示意图;图5是图2中基频模型和声学模型的训练过程的流程示意图;图6是本申请歌唱合成设备一实施方式的结构示意图;图7是本申请计算机存储介质一实施方式的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。首先需要说明的是,本申请的歌唱语音合成方法由歌唱语音合成设备执行,该歌唱语音合成设备可以是手机、电脑、智能手表等任一项具有信息处理能力的设备,当用户将乐谱信息输入该歌唱语音合成设备后,歌唱语音合成设备输出对应的歌唱语音数据,即对用户来说,其将乐谱信息输入歌唱语音合成设备后,能够听到对应的歌唱语音,相当于歌唱语音合成设备按照乐谱信息进行了“歌唱”。参阅图1和图2,图1是本申请歌唱语音合成方法一实施方式的流程示意图,图2是一应用场景中对应图1的框架流程图,该方法包括:S110:获取乐谱信息。具体地,乐谱信息可以是歌唱语音合成设备直接获得的,即用户直接将乐谱信息输入到歌唱语音合成设备,也可以是歌唱语音合成设备间接获得的,例如,接收到另一电子设备转发的乐谱信息。S120:对乐谱信息进行特征提取,以获得乐谱特征。具体地,提取到的乐谱特征可以是音素特征、音高特征以及时长特征(即曲速特征,表征每一个音素所持续的时长)中的一种或几种的组合。在一应用场景中,步骤S120具体包括:S121:对乐谱信息进行特征提取,以获得乐谱信息的音素特征、音高特征以及时长特征。S122:将音素特征、音高特征以及时长特征进行合并,以获得乐谱特征。具体地,合并得到的乐谱特征能够同时表征乐谱信息的音素特征、音高特征以及时长特征。在一应用场景中,采用三个固定维度的向量(这三个向量的维度可以不同,也可以相同)分别表示乐谱信息中的每一个音素的音素特征、音高特征以及时长特征,然后将各个音素所对应的音素特征向量进行横向合并得到一特征矩阵,该特征矩阵表征乐谱信息的音素特征;将各个音素所对应的音高特征向量进行横向合并得到另一特征矩阵,该特征矩阵表征乐谱信息的音高特征;将各个音素所对应的时长特征向量进行横向合并得到又一特征矩阵,该特征矩阵表征乐谱信息的时长特征。可以理解的是,三个特征矩阵的行数相等,均等于乐谱信息中音素的个数。在得到上述三个特征矩阵后,将三个特征矩阵纵向合并,得到一个新的特征矩阵,即表征乐谱信息的乐谱特征,可以理解的是,此时合并得到的特征矩阵的行数也等于乐谱信息中音素的个数,其列数等于上述三个特征矩阵的列数之和。例如,假设采用A维的向量表示每一个音素的音素特征,B维的向量表示每一个音素的音高特征,C维的向量表示每一个音素的时长特征,同时假设乐谱信息中音素的个数为L,则乐谱信息的音素特征所对应的特征矩阵大小为L*A,音高特征所对应的特征矩阵大小为L*B,时长特征所对应的特征矩阵大小为L*C,然后将三个特征矩阵进行纵向合并,得到的新的特征矩阵大小为L*(A+B+C)。在一应用场景中,A等于128,B等于1,C等于3。其中,针对乐谱信息中的每一个音素,可以采用one-hot编码的向量表示对应的音素特征,针对乐谱信息中的每一个音素,可以采用量化的MIDI数值表示对应的音高特征(即此时音素对应的音高特征向量为1维,也即上述的B等于1)。需要说明的是,在其他应用场景中,也可以将各个音素所对应的音素特征向量进行纵向合并得到一特征矩阵,将各个音素所对应的音高特征向量进行纵向合并得到另一特征矩阵,将各个音素所对应的时长特征向量进行纵向合并得到又一特征矩阵,三个特征矩阵的列数相等,均等于乐谱信息中音素的个数。而后在合并时,将三个特征矩阵进行横向合并,得到对应乐谱特征的新的特征矩阵,该新的特征矩阵的列数等于乐谱信息中音素的个数,行数等于合并的三本文档来自技高网...

【技术保护点】
1.一种歌唱语音合成方法,其特征在于,所述方法包括:/n获取乐谱信息;/n对所述乐谱信息进行特征提取,以获得乐谱特征;/n对所述乐谱特征进行基频特征预测,以获得基频特征;/n结合所述基频特征对所述乐谱特征进行声学特征预测,以获得声学特征;/n根据所述声学特征得到合成后的歌唱语音数据。/n

【技术特征摘要】
1.一种歌唱语音合成方法,其特征在于,所述方法包括:
获取乐谱信息;
对所述乐谱信息进行特征提取,以获得乐谱特征;
对所述乐谱特征进行基频特征预测,以获得基频特征;
结合所述基频特征对所述乐谱特征进行声学特征预测,以获得声学特征;
根据所述声学特征得到合成后的歌唱语音数据。


2.根据权利要求1所述的方法,其特征在于,所述结合所述基频特征对所述乐谱特征进行声学特征预测,以获得声学特征的步骤,包括:
将所述基频特征和所述乐谱特征进行融合处理,得到融合特征;
对所述融合特征进行声学特征预测,以获得所述声学特征。


3.根据权利要求1所述的方法,其特征在于,所述对所述乐谱特征进行基频特征预测,以获得基频特征的步骤,包括:
将所述乐谱特征输入预设的基频模型进行预测,以获得所述基频特征。


4.根据权利要求3所述的方法,其特征在于,预设的所述基频模型是混合高斯模型,包括第一编码模块以及第一解码模块;
所述第一编码模块对输入的所述乐谱特征进行编码,以获得所述乐谱特征的第一编码特征;
所述第一解码模块对所述第一编码特征进行解码,以预测每个高斯分布的参数,得到每个所述高斯分布的密度函数,然后将所有所述高斯分布的密度函数相加得到基频分布密度函数,而后根据所述基频分布密度函数得到所述基频特征。


5.根据权利要求3所述的方法,其特征在于,在所述获取乐谱信息的步骤之前,还包括:
获取训练数据,所述训练数据包括样本语音数据和对应的样本乐谱信息;
对所述样本语音数据进行特征提取,以获得样本基频特征;
对所述样本乐谱信息进行特征提取,以获得样本乐谱特征;
以所述样本乐谱特征作为输入,并以所述样本基频特征作为真值标签对所述基频模型进行训练。


6.根据权利要求1所述的方法,其特征在于,所述结合所述基频特征对所述乐谱特征进行声学特征预测,以获得声学特征的步骤,包括:
将所述乐谱特征和所述基频特征输入预设的声学模型进行预测,以获得所述声学特征。


7.根据权利要求6所述的方法,其特征在于,预设的所述声学模型包括第二编码模块以及第二解码模块;
所述第二编码模块对输入的所述乐谱特征进行编码,以获得所述乐谱特征的第二编码特征;
所述第二解码模块对所述第二编码特征和所述基频特征进行合并后的合并特征进行解码,以获得所述声学特征。


8.根据权利要求7所述的方法,其特征在于,预设的所述声学模型进一步包括下采样模块;
所述下采样模块对所述第二编码特征和所述基频特征进行合并后的所述合并特征进行下采样,以获得下采样后的下采样特征,而后所述第二解码模块对所述下采样特征进行解码,以获得所述声学特征。


9.根据权利要求6所述的方法,其特征在于,在所述获取乐谱信息的步骤...

【专利技术属性】
技术研发人员:殷锋胡亚军
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1