歌声合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：21915783 阅读：37 留言：0更新日期：2019-08-21 12:58

本发明专利技术公开一种歌声合成方法、装置、计算机设备及存储介质，该歌声合成方法包括：对待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，按照第一时间标签的顺序，将待合成乐谱特征输入到目标时间模型中进行识别，获取每一待合成音节对应的识别时间信息；将待合成乐谱特征和待合成音节对应的识别时间信息输入到目标基频模型中进行识别，获取每一待合成音节对应的识别基频特征；将待合成乐谱特征、每一待合成音节对应的识别时间信息和每一待合成音节对应的识别基频特征输入到目标音色模型中进行识别，获取待合成音节对应的识别音色特征；采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成，获取目标音频，该方法可有效提高歌声合成精度。

The Method, Device, Computer Equipment and Storage Medium of Singing Composition

全部详细技术资料下载

【技术实现步骤摘要】
歌声合成方法、装置、计算机设备及存储介质
本专利技术涉及人工智能
，尤其涉及一种歌声合成方法、装置、计算机设备及存储介质。
技术介绍
随着信息技术的不断创新和完善，许多人机交互方面的音乐多媒体应用也逐渐走入我们的日常生活，例如计算机点歌、谱曲、修饰歌声，以及手机上的听歌识曲等。如何使计算机更加人性化，能够像人类一样“唱歌”，已经成为一种新的需求。目前，传统的歌声合成技术是基于波形拼接来实现，其核心是预先录制每个音节在不同音高的唱法，然后按照歌词和乐谱将预先录制好的音节音频拼接起来，但这项技术在拼接部分极易产生波形扭曲，造成声音不自然，另外，波形拼接依赖于非常庞大的录音数据，这就需要耗费时间与人力来收集歌曲录音数据。相比之下，基于声学参数的歌声合成技术就能很好的避免这些问题，但是它需要构建合适的声学模型来学习音节、乐谱与歌声发音规律之间的规律。传统的声学模型是基于隐马尔可夫模型实现，隐马尔可夫模型作为一种统计模型，它是以训练数据中的一些统计特征作为模型参数，不能很好的学习到乐谱音高与发音线性相关规律。
技术实现思路
本专利技术实施例提供一种歌声合成方法、装置、计算机设备及存储介质，以解决目前采用统计模型进行歌声合成准确度不高的问题。一种歌声合成方法，包括：获取待合成乐谱，对所述待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，所述待合成乐谱特征包括待合成音节和对应的第一时间标签；按照所述第一时间标签的顺序，将所述待合成乐谱特征输入到目标时间模型中进行识别，获取每一所述待合成音节对应的识别时间信息；将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目...

【技术保护点】
1.一种歌声合成方法，其特征在于，包括：获取待合成乐谱，对所述待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，所述待合成乐谱特征包括待合成音节和对应的第一时间标签；按照所述第一时间标签的顺序，将所述待合成乐谱特征输入到目标时间模型中进行识别，获取每一所述待合成音节对应的识别时间信息；将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目标基频模型中进行识别，获取每一所述待合成音节对应的至少一帧识别基频特征；将所述待合成乐谱特征、每一所述待合成音节对应的识别时间信息和每一所述待合成音节对应的识别基频特征输入到目标音色模型中进行识别，获取所述待合成音节对应的至少一帧识别音色特征；采用语音处理工具对所述识别基频特征和所述识别音色特征进行逐帧合成处理，获取目标音频。

【技术特征摘要】
1.一种歌声合成方法，其特征在于，包括：获取待合成乐谱，对所述待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，所述待合成乐谱特征包括待合成音节和对应的第一时间标签；按照所述第一时间标签的顺序，将所述待合成乐谱特征输入到目标时间模型中进行识别，获取每一所述待合成音节对应的识别时间信息；将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目标基频模型中进行识别，获取每一所述待合成音节对应的至少一帧识别基频特征；将所述待合成乐谱特征、每一所述待合成音节对应的识别时间信息和每一所述待合成音节对应的识别基频特征输入到目标音色模型中进行识别，获取所述待合成音节对应的至少一帧识别音色特征；采用语音处理工具对所述识别基频特征和所述识别音色特征进行逐帧合成处理，获取目标音频。2.如权利要求1所述歌声合成方法，其特征在于，所述对所述待合成乐谱进行乐谱特征提取，获取待合成乐谱特征，包括：采用文件解析方法对所述待合成乐谱进行解析，获取与所述待合成乐谱相对应的音符信息；采用预设编码规则对所述音符信息进行编码，获取每一音符信息相对应的待合成乐谱特征。3.如权利要求1所述歌声合成方法，其特征在于，在所述获取待合成乐谱之前，所述歌声合成方法还包括：获取电子乐谱和预先标记的所述电子乐谱中每一训练音节对应的标注时间信息；对所述电子乐谱进行乐谱特征提取，获取训练乐谱特征，所述训练乐谱特征包括训练音节和对应的第二时间标签；按照所述第二时间标签的顺序，将所述训练音节和对应的标注时间信息输入到因果卷积神经网络中进行训练，获取原始时间模型；对所述原始时间模型进行测试，获取第一测试结果，若所述第一测试结果大于第一阈值，则获取所述目标时间模型。4.如权利要求3所述歌声合成方法，其特征在于，所述歌声合成方法还包括：所述因果卷积神经网络包括输入层、隐藏层和输出层，所述隐藏层包括预设扩张系数，所述输出层包括残差块。5.如权利要求3所述歌声合成方法，其特征在于，在所述获取电子乐谱和预先标记的所述电子乐谱中每一训练音节对应的标注时间信息之后，所述歌声合成方法还包括：获取与所述电子乐谱相对应的原始音频信息；基于每一所述训练音节对应的标注时间信息对所述原始音频信息进行截取，获取每一训练音节相对应的第一音频信息；对所述第一音频信息进行降噪处理，获取第二音频信息；对所述第二音频信息进行预加重和分帧处理，获取每一所述训练音节对应的至少一帧目标音频信息；采用语音处理工具对每一所述训练音节对应的至少一帧目标音频信息进行特征提取，获取每一所述训练音节对应的标准基频特征；按照所述第二时间标签的顺序，将所述训练乐谱特征、每一所述训练音...

【专利技术属性】
技术研发人员：王健宗，曾振，罗剑，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人