歌曲处理方法及装置制造方法及图纸

技术编号:24941874 阅读:18 留言:0更新日期:2020-07-17 21:48
本发明专利技术是关于歌曲处理方法及装置。该方法包括:获取歌曲的简谱信息;确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;根据所述目标音素时长对所述歌曲的文本进行语音合成。通过本发明专利技术的技术方案,在歌曲合成时,利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制,进而提高歌唱合成的准确性和自然度。

【技术实现步骤摘要】
歌曲处理方法及装置
本专利技术涉及歌曲处理
,尤其涉及歌曲处理方法及装置。
技术介绍
目前,很多场景下都需要对歌曲的文本进行语音合成,而现有技术在对歌曲的文本进行语音合成时,语音合成可控性较差,很可能出现合成节奏和音高不能控制等问题,从而导致歌唱合成自然度较低的问题。
技术实现思路
本专利技术实施例提供了歌曲处理方法及装置。所述技术方案如下:根据本专利技术实施例的第一方面,提供一种歌曲处理方法,包括:获取歌曲的简谱信息;确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;根据所述目标音素时长对所述歌曲的文本进行语音合成。在一个实施例中,所述理论音频特征包括理论音节时长和理论基频值;所述根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长,包括:将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。在一个实施例中,所述根据所述目标音素时长对所述歌曲的文本进行语音合成,包括:根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数;根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。在一个实施例中,帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;所述声学参数包括基频以及频谱参数。在一个实施例中,所述确定所述简谱信息的理论音频特征,包括:通过第一预设公式,确定所述简谱信息的所述理论音节时长di(单位为秒),其中,第一预设公式如下:(第一预设公式)tmpo为所述简谱信息中的节奏,即每分钟含有的节拍数,dnotei为当前音节i的节拍;通过第二预设公式,确定所述简谱信息的所述理论基频值f0,其中,第二预设公式如下:440表示中央C上A音符发出的频率(单位为HZ),p为简谱信息中标注的音高与中央C上A音符的距离,单位为半音。根据本专利技术实施例的第二方面,提供一种歌曲处理装置,包括:获取模块,用于获取歌曲的简谱信息;第一确定模块,用于确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;第二确定模块,用于根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;合成模块,用于根据所述目标音素时长对所述歌曲的文本进行语音合成。在一个实施例中,所述理论音频特征包括理论音节时长和理论基频值;所述第二确定模块包括:输入子模块,用于将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;调整子模块,用于根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。在一个实施例中,所述合成模块包括:扩展子模块,用于根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;预测子模块,用于将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数;重构子模块,用于根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。在一个实施例中,帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;所述声学参数包括基频以及频谱参数。在一个实施例中,所述第一确定模块包括:第一确定子模块,用于通过第一预设公式,确定所述简谱信息的所述理论音节时长di(单位为秒),其中,第一预设公式如下:(第一预设公式)tmpo为所述简谱信息中的节奏,即每分钟含有的节拍数,dnotei为当前音节i的节拍;第二确定子模块,用于通过第二预设公式,确定所述简谱信息的所述理论基频值f0,其中,第二预设公式如下:440表示中央C上A音符发出的频率(单位为HZ),p为简谱信息中标注的音高与中央C上A音符的距离,单位为半音。本专利技术的实施例提供的技术方案可以包括以下有益效果:在根据歌曲的简谱信息确定理论音频特征以及歌曲的文本的当前音素特征之后,可根据当前音素特征、理论音频特征以及音素时长模型,自动确定歌曲的目标音素时长,从而利用目标音素时长对歌曲的文本进行语音合成,以实现在歌曲合成时,利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制,进而提高歌唱合成的准确性和自然度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种歌曲处理方法的流程图。图2是根据一示例性实施例示出的一种歌曲处理装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本专利技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本专利技术的一些方面相一致的装置和方法的例子。为了解决上述技术问题,本专利技术实施例提供了一种歌曲处理方法,该方法可用于歌曲处理程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S104:在步骤S101中,获取歌曲的简谱信息;在步骤S102中,确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;在步骤S103中,根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;音素时长模型用于预测文本的音素的时长。在步骤S104中,根据所述目标音素时长对所述歌曲的文本进行语音合成。在根据歌曲的简谱信息确定理论音频特征以及歌曲的文本的当前音素特征之后,可根据当前音素特征、理论音频特征以及音素时长模型,自动确定歌曲的目标音素时长,从而利用目标音素时长对歌曲的文本进行语音合成,以实现在歌曲合成时,利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制,进而提高歌唱合成的准确性和自然度。在一个实施例中,所述理论音频特征包括理论音节时长和理论基频值;所述根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长,包括:将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;当前音素特征即该歌曲的简谱信息的当前音素表征。根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。通过将当前音素特征输入至音素本文档来自技高网...

【技术保护点】
1.一种歌曲处理方法,其特征在于,包括:/n获取歌曲的简谱信息;/n确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;/n根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;/n根据所述目标音素时长对所述歌曲的文本进行语音合成。/n

【技术特征摘要】
1.一种歌曲处理方法,其特征在于,包括:
获取歌曲的简谱信息;
确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征;
根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长;
根据所述目标音素时长对所述歌曲的文本进行语音合成。


2.根据权利要求1所述的方法,其特征在于,
所述理论音频特征包括理论音节时长和理论基频值;
所述根据所述当前音素特征、所述理论音频特征以及音素时长模型,确定所述歌曲的目标音素时长,包括:
将所述当前音素特征输入至所述音素时长模型,得到当前音素时长;
根据所述理论音节时长,对所述当前音素时长进行调整,获得所述目标音素时长。


3.根据权利要求2所述的方法,其特征在于,
所述根据所述目标音素时长对所述歌曲的文本进行语音合成,包括:
根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展,获得帧扩展后的文本的目标音素特征;
将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数;
根据所述歌曲的声学参数,重构所述歌曲的文本对应的目标语音。


4.根据权利要求3所述的方法,其特征在于,
帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同;
所述声学参数包括基频以及频谱参数。


5.根据权利要求2所述的方法,其特征在于,
所述确定所述简谱信息的理论音频特征,包括:
通过第一预设公式,确定所述简谱信息的所述理论音节时长di(单位为秒),其中,第一预设公式如下:

(第一预设公式)
tmpo为所述简谱信息中的节奏,即每分钟含有的节拍数,dnotei为当前音节i的节拍;
通过第二预设公式,确定所述简谱信息的所述理论基频值f0,其中,第二预设公式如下:



440表示中央C上A音符发出的频率(单位为HZ),p为简谱信息中标注的音高与中央C上A音符的距离,单位为半音。


6.一种歌曲处...

【专利技术属性】
技术研发人员:孙见青
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1