一种实现语音歌唱化的方法和装置制造方法及图纸

技术编号:10196031 阅读:129 留言:0更新日期:2014-07-10 22:43
本发明专利技术实施例公开了一种实现语音歌唱化的方法和装置,所述方法包括:接收用户输入的语音信号;将所述语音信号切分获得各基本考察单元的语音片断;根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系;根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。该方法避免了多次信号转换的损失,实现了对任意长度及任意内容的语音向任意歌曲的唱歌语音转换。

【技术实现步骤摘要】
一种实现语音歌唱化的方法和装置
本专利技术涉及语音信号处理领域,具体涉及一种实现语音歌唱化的方法和装置。
技术介绍
近年来,歌唱合成系统,即将用户输入的文本数据转换为歌唱语音的方法以及得到了广泛的研究和应用。歌唱合成系统的实现首先要求录制大量的歌曲数据,包括语音数据和简谱数据等,以提供合成系统所需的语音片段或训练可靠的模型参数。然后,由于歌曲数据录制的代价较大,歌唱合成系统通常只能选择录制某个特定发音人的数据,相应的提供的歌唱合成效果限定为特定发音人的音色,不适合个性化定制,无法实现到特定音色的演绎,特别是用户自身音色的重现。针对上述问题,现有技术中开发了一种歌唱合成方法,允许设备接收用户以说话风格方式输入的语音数据,系统按照预设的简谱对语音数据进行优化实现歌曲合成。这种方式保留了用户语音数据的音色,实现个性化合成。具体操作包括:(1)系统接收用户说话风格的歌词语音输入;(2)通过人工切分的方式将语音信号切分为各个独立的基于音素单元的语音片段;(3)并根据简谱标注确定各音素单元和简谱音符的对应关系;(4)系统从各音素单元的语音片段中提取声学频谱特征,基频特征等;(5)系统根据简谱标注信息确定目标歌曲的基频H)特征参数和时长特征,并据此调整各音素单元的基频特征和时长;(6)系统根据各音素单元的声学频谱特征,以及韵律特征(如:基频特征及时长特征等),合成歌唱语音输出。该现有技术虽然实现了从说话风格语音信号到歌唱风格的转换,但具有如下问题:一方面,该方案只能实现简谱对应的歌词的说话风格语音输入的转换。也就是说用户只能输入指定歌曲的歌词,无法实现对任意长度的,任意内容的歌曲合成效果转换,应用方法受限,同时也降低了娱乐效果;进一步,该方案通过人工切分方式,实现了说话风格的连续语音信号的切分,以及简谱音符的对应。对人工要求较高,受到语种的限制,无法普适推广。而且,该方案采用的是参数合成方式,即首先将语音信号转换为声学特征,随后在特征层面上按照歌唱标准进行优化,最后按照合成方式从优化特征中合成得到连续语音信号。显然从语音信号到特征参数的转换,以及特征参数到语音信号的合成中均存在信号的损失,音质有明显的下降。
技术实现思路
本专利技术实施例提供了一种实现语音歌唱化的方法和装置,能够自动对语音进行切分,而且可以将任意长度和任意内容的说话语音转换为用户需要的歌曲。本专利技术实施例提供了一种实现语音歌唱化的方法,所述方法包括:接收用户输入的语音信号;将所述语音信号切分获得各基本考察单元的语音片断;根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系;根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。本专利技术实施例还提供了一种实现语音歌唱化的装置,该装置包括:接收单元,切分单元,获取对应关系单元,获取基频单元,获取时长单元,和调整单元;所述接收单元,用于接收用户输入的语音信号;所述切分单元,用于将所述语音信号切分获得各基本考察单元的语音片断;所述获取对应关系单元,用于确定简谱中的各音符与所述各基本考察单元的对应关系;所述获取基频单元,用于根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单兀的目标基频值;所述获取时长单元,用于根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;所述调整单元,用于根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。从以上技术方案可以看出,本专利技术实施例具有以下优点:可以将输入的语音信号波形直接进行调整,通过对波形的直接优化,避免了多次信号转换的损失;且本专利技术实施例提供的技术方案,可以对任意长度及任意内容的说话语音向任意歌曲的唱歌语音转换也就是说本案不局限于对特定歌曲的歌词输入,而是允许用户输入任意内容,实现任意歌曲的转换。【附图说明】为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种实现语音歌唱化的方法流程示意简图;图2为本专利技术实施例提供的另一种实现语音歌唱化的方法流程示意简图;图3为本专利技术实施例中将语音信号切分为基本考察单元的语音片段的流程示意简图;图4为预先定义的搜索网络示例;图5为本专利技术实施例中获取简谱中的音符与基本考察单元的对应关系流程示意简图;图6为本专利技术实施例中实现可根据不同发音人的音域特点对获取的目标基频值进行优化的操作流程示意简图;图7a为本专利技术实施例中获取每个基本考察单元的目标时长操作流程示意简图;图7b所示获取音符的节拍数的举例;图8为本专利技术实施例提供的一种实现语音歌唱化的装置示意简图;图9为本专利技术实施例提供的切分单元示意简图;图10为本专利技术实施例提供的获取对应关系单元示意简图;图11为本专利技术实施例提供的调整基调单元示意简图;图12为本专利技术实施例提供的获取时长单元示意简图。【具体实施方式】本专利技术实施例提供了一种实现语音歌唱化的方法和装置,可以对用户任意语音输入,通过对该语音输入自动切分为基本考察单元的语音片段,再对划分的各基本考察单元进行语音片断的歌唱化调整,实现将用户语音转换为歌唱语音输出。实施例一如图1所示本专利技术实施例提供的一种实现语音歌唱化的方法流程示意图。步骤101,接收用户输入的语音信号;步骤102,将所述语音信号切分获得各基本考察单元的语音片断;其中,所述基本考察单元为单个音符所对应的最小的发音单元,如中文歌曲的字符,英文歌曲的音节等。步骤103,根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系;步骤104,根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单兀的目标基频值;步骤105,根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;步骤106,根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。本专利技术实施例提供的一种实现语音歌唱化的方法,在确定简谱中的音符与基本考察单元的对应关系后,可以根据简谱中各音符的音高,和简谱中各音符的节拍数,确定每个基本考察单元的目标基频值,和每个基本考察单元的目标时长;随后对每个基本考察单元的对应语音片断进行调整使得调整后的语音的基频为确定的目标基频值,调整后的语音的时长为确定的目标时长。因此,该方法通过对输入的语音信号波形直接进行调整,避免了多次信号转换的损失;且本专利技术实施例提供的技术方案,可以对任意长度及任意内容的用户语音输入向任意歌曲的唱歌语音转换;也就是说本案不局限于对特定歌曲的歌词输入,而是允许用户输入任意内容,实现任意歌曲的转换。实本文档来自技高网
...

【技术保护点】
一种实现语音歌唱化的方法,其特征在于,所述方法包括:接收用户输入的语音信号;将所述语音信号切分获得各基本考察单元的语音片断;根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系;根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值;根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长;根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。

【技术特征摘要】
1.一种实现语音歌唱化的方法,其特征在于,所述方法包括: 接收用户输入的语音信号; 将所述语音信号切分获得各基本考察单元的语音片断; 根据预置的简谱,确定简谱中的各音符与所述各基本考察单元的对应关系; 根据简谱中各音符的音高,和所述对应关系,分别确定其所对应的基本考察单元的目标基频值; 根据简谱中各音符的节拍数,和所述对应关系,分别确定其所对应的基本考察单元的目标时长; 根据所述目标基频值和目标时长调整各基本考察单元的语音片断,使得调整后的语音片段的基频为所述目标基频值,调整后的语音片段的时长为所述目标时长。2.根据权利要求1所述的方法,其特征在于,所述将所述语音信号切分获得各基本考察单元的语音片断,具体包括: 从语音信号中逐帧提取语音声学特征矢量,生成声学特征矢量序列; 对所述声学特征矢量序列执行语音识别,确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段; 合并所述基本语音识别单元对应的语音片段得到基本考察单元的语音片段。3.根据权利要求2所述的方法,其特征在于, 所述基本语音识别模型,包括:静音识别模型,浊音识别模型和清音识别模型三种;所述合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断,包括:将浊音片断和清音片断合并构成基本考察单元的语音片断。4.根据权利要求2所述的方法,其特征在于, 所述基本语音识别模型,包括:各音素识别模型或音节识别模型; 所述合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断,包括:将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。5.根据权利要求1所述的方法,其特征在于,所述根据预置的简谱,确定简谱中的音符与基本考察单兀的对应关系,具体包括: 获取用户输入的语音信号所对应的基本考察单元的个数K; 获得简谱子片断序列; 依次统计每个子片段中音符的个数M ; 判断当前子片段中音符的个数M是否大于所述基本考察单元个数K,如果M大于K,根据如下式子获取参数r,r = [M/k] 将基本考察单元序列复制r遍顺序拼接,其中,复制后的总的基本考察单元个数为rK,满足rK〈=M ; 将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符进行线性对齐。6.根据权利要求5所述的方法,其特征在于,所述将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符,进行线性对齐,具体包括: 根据公式:N0tId\= [j*rK/M],将所述复制后的rK个基本考察单元,与所述简谱子片段中的M个音符,进行线性对齐;所述NotIdxj表示简谱子片段中第j个音符所对应基本考察单元的序号。7.根据权利要求5所述的方法,其特征在于,当判断当前音符子片段中音符总个数M小于基本考察单元个数K,即M〈K时,所述方法还包括: 判断所述简谱是否结束,如果未结束,将所示简谱中后一个子片段与当前的子片段联合,与基本考察单兀进行对应; 若判断所述简谱结束,将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单兀。8.根据权利要求1所述的方法,其特征在于,所述根据简谱中各音符的音高,和所述对应关系,确定其所对应的基本考察单兀的目标基频值,包括: 根据公式R)_rUle=440*2(p_69)m,计算所述音符音高对应的目标基频值,作为对应的基本考察单元的目标基频值;其中F0_rule为目标基频值,440表示中央C上A音符发出的频率,P为当前简谱中标注的音高与中央C上A音符的距离。9.根据权利要8所述的方法,其特征在于,在获取基本考察单元的目标基频值后,还包括: 根据发音人的音域特点,对所述基本考察单元的目标基频值进行调整; 在获取基本考察单兀的目标基频值后,还根据发首人的首域特点,对所述基本考察单元的目标基频值进行优化,具体包括: 对每个基本考察单元的目标基频值进行升降调处理,获取在不同基调下的调整基频值; 获取在不同基调下的基本考察单兀序列的调整基频值序列; 提取每个基本考察单元的语音片断的基频特征序列,并计算平均,生成基频特征值; 获取基本考察单元序列的语音片段的基频特征值序列; 计算不同基调下的基本考察单兀序列的调整基频值序列,与提取的基本考察单兀序列的语音片断的基频特征值序列之间的差值; 选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。10.根据权利要求1所述的方法,其特征在于,所述根据简谱中音符的节拍数,和所述对应关系,确定其所对应的基本考察单兀的目标时长,具体包括: 根据简谱中音符的节拍数,和所述简谱中的音符与基本考察单元的对应关系,获得每个基本考察单元对应的节拍数, 根据获取的每个基本考察单元对应的节拍数,和所述简谱中描述的节奏,获取每个基本考察单元的目标时长。11.一种实现语音歌唱化的装置,其特征在于,该装置包括:接收单元,切分单元,获取对应关系单元,获取基频单元,获取时长单元,和调整单元; 所述接收单元,用于接收用户输入的语音信号; 所述切分单元,...

【专利技术属性】
技术研发人员:孙见青凌震华江源何婷婷胡国平胡郁刘庆峰
申请(专利权)人:安徽科大讯飞信息科技股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1