歌声合成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21915783 阅读:37 留言:0更新日期:2019-08-21 12:58
本发明专利技术公开一种歌声合成方法、装置、计算机设备及存储介质,该歌声合成方法包括:对待合成乐谱进行乐谱特征提取,获取待合成乐谱特征,按照第一时间标签的顺序,将待合成乐谱特征输入到目标时间模型中进行识别,获取每一待合成音节对应的识别时间信息;将待合成乐谱特征和待合成音节对应的识别时间信息输入到目标基频模型中进行识别,获取每一待合成音节对应的识别基频特征;将待合成乐谱特征、每一待合成音节对应的识别时间信息和每一待合成音节对应的识别基频特征输入到目标音色模型中进行识别,获取待合成音节对应的识别音色特征;采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成,获取目标音频,该方法可有效提高歌声合成精度。

The Method, Device, Computer Equipment and Storage Medium of Singing Composition

【技术实现步骤摘要】
歌声合成方法、装置、计算机设备及存储介质
本专利技术涉及人工智能
,尤其涉及一种歌声合成方法、装置、计算机设备及存储介质。
技术介绍
随着信息技术的不断创新和完善,许多人机交互方面的音乐多媒体应用也逐渐走入我们的日常生活,例如计算机点歌、谱曲、修饰歌声,以及手机上的听歌识曲等。如何使计算机更加人性化,能够像人类一样“唱歌”,已经成为一种新的需求。目前,传统的歌声合成技术是基于波形拼接来实现,其核心是预先录制每个音节在不同音高的唱法,然后按照歌词和乐谱将预先录制好的音节音频拼接起来,但这项技术在拼接部分极易产生波形扭曲,造成声音不自然,另外,波形拼接依赖于非常庞大的录音数据,这就需要耗费时间与人力来收集歌曲录音数据。相比之下,基于声学参数的歌声合成技术就能很好的避免这些问题,但是它需要构建合适的声学模型来学习音节、乐谱与歌声发音规律之间的规律。传统的声学模型是基于隐马尔可夫模型实现,隐马尔可夫模型作为一种统计模型,它是以训练数据中的一些统计特征作为模型参数,不能很好的学习到乐谱音高与发音线性相关规律。
技术实现思路
本专利技术实施例提供一种歌声合成方法、装置、计算机设备及存储介质,以解决目前采用统计模型进行歌声合成准确度不高的问题。一种歌声合成方法,包括:获取待合成乐谱,对所述待合成乐谱进行乐谱特征提取,获取待合成乐谱特征,所述待合成乐谱特征包括待合成音节和对应的第一时间标签;按照所述第一时间标签的顺序,将所述待合成乐谱特征输入到目标时间模型中进行识别,获取每一所述待合成音节对应的识别时间信息;将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目标基频模型中进行识别,获取每一所述待合成音节对应的至少一帧识别基频特征;将所述待合成乐谱特征、每一所述待合成音节对应的识别时间信息和每一所述待合成音节对应的识别基频特征输入到目标音色模型中进行识别,获取所述待合成音节对应的至少一帧识别音色特征;采用语音处理工具对所述识别基频特征和所述识别音色特征进行逐帧合成处理,获取目标音频。一种歌声合成装置,包括:待合成乐谱特征获取模块,用于获取待合成乐谱,对所述待合成乐谱进行乐谱特征提取,获取待合成乐谱特征,所述待合成乐谱特征包括待合成音节和对应的第一时间标签;识别时间信息获取模块,用于按照所述第一时间标签的顺序,将所述待合成乐谱特征输入到目标时间模型中进行识别,获取每一所述待合成音节对应的识别时间信息;识别基频特征获取模块,用于将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目标基频模型中进行识别,获取每一所述待合成音节对应的至少一帧识别基频特征;识别音色特征获取模块,用于将所述待合成乐谱特征、每一所述待合成音节对应的识别时间信息和每一所述待合成音节对应的识别基频特征输入到目标音色模型中进行识别,获取所述待合成音节对应的至少一帧识别音色特征;目标音频获取模块,用于采用语音处理工具对所述识别基频特征和所述识别音色特征进行逐帧合成处理,获取目标音频。一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述歌声合成方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述歌声合成方法的步骤。上述歌声合成方法、装置、计算机设备及存储介质歌声合成中,通过获取待合成乐谱,对待合成乐谱进行乐谱特征提取,获取待合成乐谱特征,以便根据待合成乐谱特征中每一待合成音节对应的第一时间标签的顺序,将待合成乐谱特征输入到目标时间模型中,以使目标时间模型根据待合成乐谱特征预测每一待合成音节对应的识别时间信息,再将待合成乐谱特征和待合成音节对应的识别时间信息输入到目标基频模型中进行识别,以使目标基频特征模型根据待合成乐谱特征和待合成音节对应的识别时间信息逐帧预测与每一待合成音节对应的至少一帧识别基频特征,以便将待合成乐谱特征和每一待合成音节对应的至少一帧识别基频特征输入到目标音色模型中进行识别,以使目标音色模型根据合成乐谱特征和每一待合成音节对应的至少一帧识别基频特征逐帧预测每一待合成音节对应的至少一帧识别音色特征,最后,采用语音处理工具对识别基频特征和识别音色特征进行逐帧合成处理,获取目标音频,以提高目标音频能够更加贴合实际人类发出的声音,提高歌声合成的精准度。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一实施例中歌声合成方法的一应用环境示意图;图2是本专利技术一实施例中歌声合成方法的一流程图;图3是图2中步骤S10的一具体流程图;图4是本专利技术一实施例中歌声合成方法的一流程图;图5是本专利技术一实施例中歌声合成方法的一流程图;图6是本专利技术一实施例中歌声合成方法的一流程图;图7是本专利技术一实施例中歌声合成装置的一示意图;图8是本专利技术一实施例中计算机设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的歌声合成方法可应用在一种歌声合成系统中,用于采用深度学习乐谱音高与发音线性相关规律的发音规律,以进行歌声合成,提高歌声合成的精准度。该歌声合成方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。在一实施例中,如图2所示,提供一种歌声合成方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:S10:获取待合成乐谱,对待合成乐谱进行乐谱特征提取,获取待合成乐谱特征,待合成乐谱特征包括待合成音节和对应的第一时间标签。其中,待合成乐谱是用户通过歌声合成系统中提供的信息采集模块选择或上传的需要进行歌声合成的乐谱。待合成音节是指待合成乐谱对应歌词的音节,音节是由一个或几个音素组成的语音单位。例如:待合成乐谱对应的歌词为我爱你,其对应的待合成音节为wo、ai、ni。第一时间标签是指待合成乐谱中每一待合成音节对应发音的时间标签,也可理解为歌词顺序标签。待合成乐谱特征是指从待合成乐谱中提取出来的曲谱特征,包括但不限于待合成乐谱中的“音调”、“谱号”、“拍号”、“速度”以及每个音符的“音高”、“时长”、“声部”、“音符类型”和“歌词文本”等特征信息,这些信息均被记录于musicxml格式的待合成乐谱中。musicxml格式文件是一种关于音乐标记的特殊xml文件。具体地,用户可通过歌声合成系统中提供的信息采集模块进行本地上传原创歌曲或选择系统中预先存储的乐谱列表,并上传至服务器,以使服务器获取待合成乐谱。然后,对待合成乐谱进行特征提取,以获取待合成乐谱特征,以便后续将待合成乐谱特征作为模型输入进行识别。S20:按照第一时间标签的本文档来自技高网...

【技术保护点】
1.一种歌声合成方法,其特征在于,包括:获取待合成乐谱,对所述待合成乐谱进行乐谱特征提取,获取待合成乐谱特征,所述待合成乐谱特征包括待合成音节和对应的第一时间标签;按照所述第一时间标签的顺序,将所述待合成乐谱特征输入到目标时间模型中进行识别,获取每一所述待合成音节对应的识别时间信息;将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目标基频模型中进行识别,获取每一所述待合成音节对应的至少一帧识别基频特征;将所述待合成乐谱特征、每一所述待合成音节对应的识别时间信息和每一所述待合成音节对应的识别基频特征输入到目标音色模型中进行识别,获取所述待合成音节对应的至少一帧识别音色特征;采用语音处理工具对所述识别基频特征和所述识别音色特征进行逐帧合成处理,获取目标音频。

【技术特征摘要】
1.一种歌声合成方法,其特征在于,包括:获取待合成乐谱,对所述待合成乐谱进行乐谱特征提取,获取待合成乐谱特征,所述待合成乐谱特征包括待合成音节和对应的第一时间标签;按照所述第一时间标签的顺序,将所述待合成乐谱特征输入到目标时间模型中进行识别,获取每一所述待合成音节对应的识别时间信息;将所述待合成乐谱特征和所述待合成音节对应的识别时间信息输入到目标基频模型中进行识别,获取每一所述待合成音节对应的至少一帧识别基频特征;将所述待合成乐谱特征、每一所述待合成音节对应的识别时间信息和每一所述待合成音节对应的识别基频特征输入到目标音色模型中进行识别,获取所述待合成音节对应的至少一帧识别音色特征;采用语音处理工具对所述识别基频特征和所述识别音色特征进行逐帧合成处理,获取目标音频。2.如权利要求1所述歌声合成方法,其特征在于,所述对所述待合成乐谱进行乐谱特征提取,获取待合成乐谱特征,包括:采用文件解析方法对所述待合成乐谱进行解析,获取与所述待合成乐谱相对应的音符信息;采用预设编码规则对所述音符信息进行编码,获取每一音符信息相对应的待合成乐谱特征。3.如权利要求1所述歌声合成方法,其特征在于,在所述获取待合成乐谱之前,所述歌声合成方法还包括:获取电子乐谱和预先标记的所述电子乐谱中每一训练音节对应的标注时间信息;对所述电子乐谱进行乐谱特征提取,获取训练乐谱特征,所述训练乐谱特征包括训练音节和对应的第二时间标签;按照所述第二时间标签的顺序,将所述训练音节和对应的标注时间信息输入到因果卷积神经网络中进行训练,获取原始时间模型;对所述原始时间模型进行测试,获取第一测试结果,若所述第一测试结果大于第一阈值,则获取所述目标时间模型。4.如权利要求3所述歌声合成方法,其特征在于,所述歌声合成方法还包括:所述因果卷积神经网络包括输入层、隐藏层和输出层,所述隐藏层包括预设扩张系数,所述输出层包括残差块。5.如权利要求3所述歌声合成方法,其特征在于,在所述获取电子乐谱和预先标记的所述电子乐谱中每一训练音节对应的标注时间信息之后,所述歌声合成方法还包括:获取与所述电子乐谱相对应的原始音频信息;基于每一所述训练音节对应的标注时间信息对所述原始音频信息进行截取,获取每一训练音节相对应的第一音频信息;对所述第一音频信息进行降噪处理,获取第二音频信息;对所述第二音频信息进行预加重和分帧处理,获取每一所述训练音节对应的至少一帧目标音频信息;采用语音处理工具对每一所述训练音节对应的至少一帧目标音频信息进行特征提取,获取每一所述训练音节对应的标准基频特征;按照所述第二时间标签的顺序,将所述训练乐谱特征、每一所述训练音...

【专利技术属性】
技术研发人员:王健宗曾振罗剑
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1