歌曲处理方法及装置制造方法及图纸

技术编号：24941874 阅读：18 留言：0更新日期：2020-07-17 21:48

本发明专利技术是关于歌曲处理方法及装置。该方法包括：获取歌曲的简谱信息；确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；根据所述目标音素时长对所述歌曲的文本进行语音合成。通过本发明专利技术的技术方案，在歌曲合成时，利用理论音频特征以及音素时长模型对音素时长以及合成音高进行控制，进而提高歌唱合成的准确性和自然度。

全部详细技术资料下载

【技术实现步骤摘要】
歌曲处理方法及装置
本专利技术涉及歌曲处理
，尤其涉及歌曲处理方法及装置。
技术介绍
目前，很多场景下都需要对歌曲的文本进行语音合成，而现有技术在对歌曲的文本进行语音合成时，语音合成可控性较差，很可能出现合成节奏和音高不能控制等问题，从而导致歌唱合成自然度较低的问题。
技术实现思路
本专利技术实施例提供了歌曲处理方法及装置。所述技术方案如下：根据本专利技术实施例的第一方面，提供一种歌曲处理方法，包括：获取歌曲的简谱信息；确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；根据所述目标音素时长对所述歌曲的文本进行语音合成。在一个实施例中，所述理论音频特征包括理论音节时长和理论基频值；所述根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长，包括：将所述当前音素特征输入至所述音素时长模型，得到当前音素时长；根据所述理论音节时长，对所述当前音素时长进行调整，获得所述目标音素时长。在一个实施例中，所述根据所述目标音素时长对所述歌曲的文本进行语音合成，包括：根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展，获得帧扩展后的文本的目标音素特征；将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数；根据所述歌曲的声学参数，重构所述歌曲的文本对应的目...

【技术保护点】
1.一种歌曲处理方法，其特征在于，包括：/n获取歌曲的简谱信息；/n确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；/n根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；/n根据所述目标音素时长对所述歌曲的文本进行语音合成。/n

【技术特征摘要】
1.一种歌曲处理方法，其特征在于，包括：
获取歌曲的简谱信息；
确定所述简谱信息的理论音频特征和所述歌曲的文本的当前音素特征；
根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长；
根据所述目标音素时长对所述歌曲的文本进行语音合成。

2.根据权利要求1所述的方法，其特征在于，
所述理论音频特征包括理论音节时长和理论基频值；
所述根据所述当前音素特征、所述理论音频特征以及音素时长模型，确定所述歌曲的目标音素时长，包括：
将所述当前音素特征输入至所述音素时长模型，得到当前音素时长；
根据所述理论音节时长，对所述当前音素时长进行调整，获得所述目标音素时长。

3.根据权利要求2所述的方法，其特征在于，
所述根据所述目标音素时长对所述歌曲的文本进行语音合成，包括：
根据所述目标音素时长对所述歌曲的文本的音素进行帧扩展，获得帧扩展后的文本的目标音素特征；
将所述理论基频值和所述目标音素特征输入至端到端语音合成模型以预测出所述歌曲的声学参数；
根据所述歌曲的声学参数，重构所述歌曲的文本对应的目标语音。

4.根据权利要求3所述的方法，其特征在于，
帧扩展后的文本的音素数目与所述目标语音的帧数的数目相同；
所述声学参数包括基频以及频谱参数。

5.根据权利要求2所述的方法，其特征在于，
所述确定所述简谱信息的理论音频特征，包括：
通过第一预设公式，确定所述简谱信息的所述理论音节时长di(单位为秒)，其中，第一预设公式如下：

(第一预设公式)
tmpo为所述简谱信息中的节奏，即每分钟含有的节拍数，dnotei为当前音节i的节拍；
通过第二预设公式，确定所述简谱信息的所述理论基频值f0，其中，第二预设公式如下：

440表示中央C上A音符发出的频率(单位为HZ)，p为简谱信息中标注的音高与中央C上A音符的距离，单位为半音。

6.一种歌曲处...

【专利技术属性】
技术研发人员：孙见青，
申请(专利权)人：云知声智能科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人