颤音建模方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:21226438 阅读:36 留言:0更新日期:2019-05-29 07:13
本申请实施例提供一种颤音建模方法、装置、计算机设备及存储介质。所述方法包括:获取多首歌的歌曲数据,其中,每一首歌的歌曲数据包括一篇标有歌词的乐谱和一段与所述乐谱相符的清唱录音;提取乐谱的语言学特征和音乐特征;提取清唱录音的声学特征;根据声学特征提取清唱录音的颤音特征;基于隐马尔可夫模型,以乐谱的语言学特征和音乐特征为输入,以清唱录音的声学特征和颤音特征为输出,训练得到颤音模型。本申请实施例通过提取清唱录音的颤音特征,并建立和训练得到输入为乐谱的语言学特征和音乐特征,输出为清唱录音的声学特征和颤音特征的颤音模型。该颤音模型可有效的保留颤音特征,以提高合成歌曲的自然度。

Tremolo Modeling Method, Device, Computer Equipment and Storage Media

The embodiment of the application provides a tremolo modeling method, device, computer equipment and storage medium. The method includes: acquiring song data of several songs, in which each song data includes a music score marked with lyrics and a voice recording consistent with the music score; extracting linguistic and musical features of the music score; extracting acoustic features of voice recording; extracting tremolo features of voice recording according to acoustic characteristics; and using hidden Markov model to make music score. With the input of linguistic and musical features and the output of acoustic and tremolo features of voice recordings, the tremolo model is trained. The embodiment of the application obtains the linguistic and musical features input to the music score by extracting the tremolo characteristics of the voice recording, and establishes and trains the tremolo model output to the acoustic and tremolo characteristics of the voice recording. The tremolo model can effectively retain the characteristics of tremolo to improve the naturalness of synthetic songs.

【技术实现步骤摘要】
颤音建模方法、装置、计算机设备及存储介质
本申请涉及人工智能
,尤其涉及一种颤音建模方法、装置、计算机设备及存储介质。
技术介绍
近年来,基于隐马尔可夫模型进行参数合成的歌曲合成方法在业界非常受关注。使用隐马尔可夫模型合成歌曲的最大优点是,在不需要庞大的歌唱数据库的情况下,可以有效的模拟不同的声音特征,歌唱风格,甚至是情绪。而颤音,作为一种重要的歌唱技巧,对合成歌曲的自然度有很大的影响。颤音在声学特征上的具体体现为基频上的小幅震动,颤音的具体时间点和强度因歌手而异。然而普通的隐马尔可夫模型会在训练和合成时平滑基频上的小幅度的起伏,如此会平滑掉颤音,导致合成的歌唱中并没有颤音的效果。
技术实现思路
本申请实施例提供一种颤音建模方法、装置、计算机设备及存储介质,可保留颤音特征,以提高合成歌曲的自然度。第一方面,本申请实施例提供了一种颤音建模方法,该方法包括:获取多首歌的歌曲数据,其中,每一首歌的歌曲数据包括一篇标有歌词的乐谱和一段与所述乐谱相符的清唱录音;提取所述乐谱的语言学特征和音乐特征;提取所述清唱录音的声学特征;根据所述声学特征提取所述清唱录音的颤音特征;基于隐马尔可夫模型,以所述乐谱的语言学特征和音乐特征为输入,以所述清唱录音的声学特征和颤音特征为输出,训练得到颤音模型。第二方面,本专利技术实施例提供了一种颤音建模装置,该颤音建模装置包括用于执行上述第一方面所述的方法对应的单元。第三方面,本专利技术实施例提供了一种计算机设备,所述计算机设备包括存储器,以及与所述存储器相连的处理器;所述存储器用于存储计算机程序,所述处理器用于运行所述存储器中存储的计算机程序,以执行上述第一方面所述的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现上述第一方面所述的方法。本申请实施例通过提取清唱录音的颤音特征,基于隐马尔可夫模型,将歌曲的乐谱的语言学特征和音乐特征作为输入,将该歌曲的清唱录音的声学特征和颤音特征作为输出,如此,得到输入为所述乐谱的语言学特征和音乐特征,输出为所述清唱录音的声学特征和颤音特征的颤音模型。该颤音模型可有效的保留颤音特征,以提高合成歌曲的自然度。附图说明为了更清楚地说明本专利技术实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的颤音建模方法的流程示意图;图2是本申请实施例提供的一个音符所对应的标签对数据;图3是本申请实施例提供的一段清唱录音所对应的基频的示意图;图4是本申请实施例提供的颤音建模方法的子流程示意图;图5是本申请另一实施例提供的颤音建模方法的子流程示意图;图6是本申请另一实施例提供的颤音建模方法的流程示意图;图7是本申请实施例提供的颤音建模装置的示意性框图;图8是本申请实施例提供的颤音定位单元的示意性框图;图9是本申请另一实施例提供的颤音定位单元的示意性框图;图10是本申请另一实施例提供的颤音建模装置的示意性框图;图11是本申请实施例提供的计算机设备的示意性框图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1是本申请实施例提供的颤音建模方法的流程示意图。如图1所示,该方法包括S101-S105。S101,获取多首歌的歌曲数据,其中,每一首歌的歌曲数据包括一篇标有歌词的乐谱和一段与所述乐谱相符的清唱录音。其中,每一首歌的清唱录音是与该乐谱对应的清唱录音,即乐谱和清唱录音是对应的。其中,乐谱是以文本文件的形式存在。通常情况下,用一些软件如MuseScore制作电子乐谱时,可以直接将乐谱文件保存为一些预设的格式文件如musicxml格式。这类的格式文件其本质是有特殊格式的文本文件。S102,提取所述乐谱的语言学特征和音乐特征。从整体来看,一个乐谱文件的结构如下:·音调·谱号·拍号·速度·(一些显示信息)·第一小节:·音符·音符·音符……·第二小节:·音符…………一个乐谱文件中通常包括音调、谱号、拍号、速度、显示信息(显示信息与音符在乐谱编辑软件中的视觉显示有关,与模型的训练无关,可忽略)、多个小节等信息。其中,每个小节中包括多个音符。每个音符中包括音高、时长、声部、音符类型、歌词等信息。而音高包括音阶和八度等信息,歌词包括音节、文本等信息。乐谱文件中以标签对的形式来标识乐谱文件的各种信息,如<></>即为一个标签对。图2是本申请实施例提供的一个音符所对应的标签对数据。需要注意的是,图2中的汉字所对应的是注解,以方便理解该音符所对应的标签对数据的含义。如图2所示,<note>和</note>这个标签之间包含了关于这个音符所有信息。而其中的<pitch>和</pitch>之间记录了该音符的音高信息,<duration>和</duration>之间记录了该音符的时长信息,<voice>和</voice>之间记录了该音符的声部信息,<type>和</type>之间记录了该音符的音符类型,<stem>和</stem>之间记录了该音符的显示信息(显示信息与音符在乐谱编辑软件中的视觉显示有关,与模型的训练无关,可忽略),<lyric>和</lyric>之间记录了该音符的歌词信息。其中,音高信息<pitch>和</pitch>中的<step>和</step>之间记录了音高信息中的音阶,<octave>和</octave>之间记录了音高信息中的八度;<lyric>和</lyric>中的<syllabic>和</syllabic>之间记录了歌词的音节,<text>和</text>之间记录了歌词文本。通过寻找标签对,可以读取到每个标签对中具体的关键字(如pitch、step、lyric等关键字)和关键字对应值的信息。在一个乐谱文件中,“音调”、“谱号”、“拍号”、“速度”、每个音符的“音高”、“时长”、“声部”和“音符类型”都是音乐特征,“歌词”则是文本特征,对应语言学特征。具体地,步骤S102,即提取所述乐谱的语言学特征和音乐特征,包括:获取乐谱文件中的便签对;解析标签对,以提取标签对中所对应的音乐特征以及语言学特征的值。其中,语言学特征包括歌词的发音,以及上下前后文的关系等。如此通过获取并解析乐谱文件中的标签对,提取乐谱中的语言学特征和音乐特征,达到提取特征的目的。S103,提取所述清唱录音的声学特征。其中,声学特征包括基频和梅尔频谱系数等。每一帧对应一组特征。基音的频率称为基频,而基音就本文档来自技高网...

【技术保护点】
1.一种颤音建模方法,其特征在于,所述方法包括:获取多首歌的歌曲数据,其中,每一首歌的歌曲数据包括一篇标有歌词的乐谱和一段与所述乐谱相符的清唱录音;提取所述乐谱的语言学特征和音乐特征;提取所述清唱录音的声学特征;根据所述声学特征提取所述清唱录音的颤音特征;基于隐马尔可夫模型,以所述乐谱的语言学特征和音乐特征为输入,以所述清唱录音的声学特征和颤音特征为输出,训练得到颤音模型。

【技术特征摘要】
1.一种颤音建模方法,其特征在于,所述方法包括:获取多首歌的歌曲数据,其中,每一首歌的歌曲数据包括一篇标有歌词的乐谱和一段与所述乐谱相符的清唱录音;提取所述乐谱的语言学特征和音乐特征;提取所述清唱录音的声学特征;根据所述声学特征提取所述清唱录音的颤音特征;基于隐马尔可夫模型,以所述乐谱的语言学特征和音乐特征为输入,以所述清唱录音的声学特征和颤音特征为输出,训练得到颤音模型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:提取待合成歌曲的乐谱的语言学特征和音乐特征;将提取的语言学特征和音乐特征输入到训练好的颤音模型中,以得到与所述待合成歌曲的乐谱相符的清唱录音的声学特征和颤音特征;在所得到的声学特征中加入所得到的颤音特征;将加入了颤音特征的声学特征输入声码器,以合成歌曲。3.根据权利要求1所述的方法,其特征在于,所述声学特征包括基频,所述根据所述声学特征提取所述清唱录音的颤音特征,包括:定位所述基频所对应的基频序列中的颤音片段;计算所述颤音片段的振幅和频率,将计算出的所述颤音片段的振幅和频率作为所述颤音片段中每一帧的颤音特征。4.根据权利要求3所述的方法,其特征在于,所述定位所述基频所对应的基频序列中的颤音片段,包括:检测所述基频序列中连续出现波谷或者波峰的次数是否达到预设次数;若达到预设次数,获取所对应的基频序列片段,并统计该基频序列片段中的平均频率;检测预设次数中每次频率由波谷到波峰或者频率由波峰到波谷的过程中,波谷所对应的频率是否小于平均频率,且波峰所对应的频率是否大于平均频率;若每次波谷所对应的频率小于平均频率,且波峰所对应的频率大于平均频率,确定该基频序列片段为颤音片段;否则,确定该基频序列片段为非颤音片段。5.根据权利要求3所述的方法,其特征在于,所述定位所述基频所对应的基频序列中的颤音片段,包括:对所述基频序列中的基频序列片段做短时距傅里...

【专利技术属性】
技术研发人员:朱清影程宁王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1