当前位置: 首页 > 专利查询>西门子公司专利>正文

一种将语音转换为旋律的方法和装置制造方法及图纸

技术编号:8563591 阅读:235 留言:0更新日期:2013-04-11 05:29
本发明专利技术提供了一种将声音转换为旋律的方法和装置,其中方法包括:获取输入的语音数据和乐谱信息;调整语音数据中各音节的时长,使各音节的时长与乐谱信息中对应的歌词时长对齐,并按照乐谱信息中各音符的音调,调整语音数据的语音基频,使各语音基频点与乐谱信息中对应音符的音调对齐;结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。通过本发明专利技术能够将用户输入的语音数据,按照选择的乐谱信息转换为具有用户声音特质的旋律。

【技术实现步骤摘要】

本专利技术涉及语音处理技术,特别涉及一种将语音转换为旋律的方法和装置
技术介绍
旋律是构成音乐的最基本要素,能够最有效地表现音乐以及人类情感。旋律是具 有各种音调和时长的音符的组合,可以理解为由具有不同音调和时长的音符排列而成。通 常,各个音符通过节拍排序,以向该音符序列提供音乐意义。音乐家或者歌唱家对音乐具有专业的掌控力和表现力,能够很好地配合旋律将自 己的歌声展现出来,而对于普通人来说,通常具有一定难度。常常希望通过输入一段语音就 能够实时转换为具有自身声音特质的旋律,而现有技术中尚不能实现该技术。
技术实现思路
有鉴于此,本专利技术提供了一种将语音转换为旋律的方法和装置,能够将用户输入 的语音数据转换为具有用户声音特质的旋律。本专利技术的技术方案如下一种将语音转换为旋律的方法,该方法包括获取语音数据和乐谱信息,所述语音 数据由用户输入,所述乐谱信息包括歌词信息,音符信息以及两者的对应关系;调整语音 数据中各音节的时长,使各音节的时长与乐谱信息中对应的歌词时长对齐,并按照乐谱信 息中各音符的音调,调整语音数据的语音基频点,使各语音基频点与乐谱信息中对应音符 的音调对齐;结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。调整语音数据中各音节的时长,使各音节的时长与乐谱信息中对应的歌词时长对 齐具体包括提取输入的语音数据中每一帧的能量和过零率信息;根据每一帧的能量和过 零率信息将语音数据划分为语音段和静音段;按照所述乐谱信息中的歌词信息将各语音段 切分为音节;调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐。其中,根据每一帧的能量和过零率信息将语音数据划分为语音段和静音段包括 根据每一帧的能量和过零率信息,将每一帧标识为语音帧或静音帧;将相邻的语音帧构成 语音段,将相邻的静音帧构成静音段。其中,按照所述乐谱信息中的歌词信息将各语音段切分为音节包括确定乐谱信 息的歌词中每个句子对应的语音段;确定每个句子所包含各个短语对应的语音段;以及对 每个短语对应的语音段进行语音切分,得到切分后的音节。其中,调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐包 括在对一个包含声母和韵母的音节进行时长调节时,如果需要对该音节的时长进行拉长, 则保持声母时长不变,只拉长韵母的时长;如果需要对该音节的时长进行缩短,则将声母和 韵母同时缩短。或者调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐包 括当一个音节的前后均为静音段时,使该音节声母的时长占整个音节时长的16. 2%;当该音节的前面为静音段,后面不是静音段时,使该音节声母时长占整个音节时长的27. 6%;当该音节的前面不是静音段,后面是静音段时,使该音节声母时长占整个音节时长的24. 8% ; 以及当该音节的前后均不是静音段时,使该音节声母时长占整个音节时长的32.9%。 具体地,按照乐谱信息中各音符的音调,调整语音数据的语音基频,使各语音基频点与对应音符的音调对齐具体包括提取输入的语音数据的语音基频信息,所述语音音频信息包括语音数据的基频均值以及语音数据的各个语音基频点;基于语音数据的基频均值和乐谱信息中所有音符的基频均值确定将所述语音数据转换成的旋律的调号;以确定的调号为基准,调整语音数据的各语音基频点的频率与乐谱信息中各音符的音调对齐。另外,基于语音数据的基频均值和乐谱信息中所有音符的基频均值确定旋律的调号包括确定语音数据的基频均值HLaver和乐谱信息中所有音频的基频均值P_aver ;如果R)_aver > P_aver,将语音数据的基频均值降K_n个半音作为旋律的调号,其中,K为F0_ aver比P_aver高出的半音数目,η为实验值,可以取η为int (K/7), int表示取整;如果F0_ aver < P_aver,将语音数据的基频均值升K_n个半音作为旋律的调号,其中,K为R)_aver 比P_aver低的半音数目,η为实验值,可以取η为int(K/7), int表示取整。更优地,在确定旋律的调号之后进一步包括将语音基频点进行分段,其中处于不同分段的两个相邻语音基频点之间的频率差值大于设定分段阈值;确定长度小于预设的野点长度阈值的分段为野点分段;对野点分段中语音基频点的频率进行sine插值处理。或者,在调整语音数据的语音基频之后进一步包括在经过步骤B调整音调后的语音数据中,将每个音符中包含的后的语音基频点和与后一个音符包含的前的语音基频点进行sine插值处理;其中,为设定的实验值。一种将语音转换为旋律的装置,该装置包括用户界面600、乐谱管理单元610、时长调整单元620、音调调整单元630和旋律合成单元640 ;所述用户界面600,用于获取用户输入的语音数据和从乐谱管理单元中选择的乐谱信息,所述语音数据由用户输入,所述乐谱信息包括歌词信息,音符信息以及两者的对应关系;所述乐谱管理单元610,用于管理乐谱信息供用户进行选择;所述时长调整单元620,用于调整所述语音数据中各音节的时长,使各音节的时长与所述选择的乐谱信息中对应的歌词时长对齐;所述音调调整单元630,用于按照所述选择的乐谱信息中各音符的音调,调整语音数据的语音基频,使各语音基频点与对应音符的音调对齐;所述旋律合成单元640,用于结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。其中,所述时长调整单元具体包括特征提取子单元621、分段标识子单元622、语音切分子单元623和时长调整子单元624 ;所述特征提取子单元621,用于提取所述输入的语音数据中每一帧的能量和过零率信息;所述分段标识子单元622,用于根据每一帧的能量和过零率信息,将语音数据划分为语音段和静音段;所述语音切分子单元623,用于按照所述选择的乐谱信息中的歌词信息,将语音段切分为音节;所述时长调整子单元624,用于调整语音数据中各音节的时长与乐谱信息中对应的歌词时长对齐。具体地,所述分段标识子单元622,根据每一帧的能量和过零率信息,将每一帧标识为语音帧或静音帧,将相邻的语音帧构成语音段,将相邻的静音帧构成静音段。其中,所述语音切分子单元623包括第一模块6231,用于确定乐谱信息的歌词中每个句子对应的语音段;第二模块6232,用于确定每个句子所包含各个短语对应的语音段;第三模块6233,用于对每个短语对应的语音段进行语音切分。另外,所述音调调整单元630具体包括特征提取子单元631、调号确定子单元632 和音调调整子单元633 ;所述特征提取子单元631,用于提取输入的语音数据的语音音频信息,所述语音音频信息包括语音数据的基频均值以及语音数据的各个语音基频点;所述调号确定子单元632,用于基于语音数据的基频均值和乐谱信息中所有音符的基频均值,确定将所述语音数据转换成的旋律的调号;所述音调调整子单元633,用于以所述调号确定子单元确定的调号为基准,调整语音数据的各语音基频点的频率与乐谱信息中各音符的音调对齐。其中,所述调号确定子单元632包括第四模块(6321),用于确定语音数据的基频均值H)_aver和乐谱信息中所有音频的基频均值P_aver ;第五模块(6322),用于在F0_ aver > P_aver时,将语音数据的基频均值降K_n个半音本文档来自技高网...

【技术保护点】
一种将语音转换为旋律的方法,所述方法包括:获取语音数据和乐谱信息,所述语音数据由用户输入,所述乐谱信息包括:歌词信息,音符信息以及两者的对应关系;调整所述语音数据中各音节的时长,使各音节的时长与乐谱信息中对应的歌词时长对齐;按照所述乐谱信息中各音符的音调,调整所述语音数据的语音基频点,使所述语音基频点与乐谱信息中对应音符的音调对齐;结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。

【技术特征摘要】
1.一种将语音转换为旋律的方法,所述方法包括获取语音数据和乐谱信息,所述语音数据由用户输入,所述乐谱信息包括歌词信息, 音符信息以及两者的对应关系;调整所述语音数据中各音节的时长,使各音节的时长与乐谱信息中对应的歌词时长对按照所述乐谱信息中各音符的音调,调整所述语音数据的语音基频点,使所述语音基频点与乐谱信息中对应音符的音调对齐;结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。2.根据权利要求1所述的方法,其中,所述调整所述语音数据中各音节的时长,使各音节的时长与乐谱信息中对应的歌词时长对齐,包括提取所述语音数据中每一帧的能量和过零率信息;根据每一帧的能量和过零率信息将所述语音数据划分为语音段和静音段;按照所述乐谱信息中的歌词信息将各语音段切分为音节;调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐。3.根据权利要求2所述的方法,其中,所述根据每一帧的能量和过零率信息将所述语音数据划分为语音段和静音段,包括根据每一帧的能量和过零率信息将每一帧标识为语音帧或静音帧;将相邻的语音帧构成语音段将相邻的静音帧构成静音段。4.根据权利要求2所述的方法,其中,所述按照所述乐谱信息中的歌词信息将各语音段切分为音节,包括确定乐谱信息的歌词中每个句子对应的语音段;确定每个句子所包含的各个短语对应的语音段;以及对每个短语对应的语音段进行语音切分,得到切分后的音节。5.根据权利要求2所述的方法,其中,所述调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐包括在对一个包含声母和韵母的音节进行时长调节时,如果需要对该音节的时长进行拉长,则保持声母时长不变,只拉长韵母的时长;如果需要对该音节的时长进行缩短,则将声母和韵母同时缩短。6.根据权利要求2所述的方法,其中,所述调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐包括当一个音节的前后均为静音段时,使该音节声母的时长占整个音节时长的16.2% ; 当该音节的前面为静音段,后面不是静音段时,使该音节声母时长占整个音节时长的 27. 6% ;当该音节的前面不是静音段,后面是静音段时,使该音节声母时长占整个音节时长的 24.8% ;以及当该音节的前后均不是静音段时,使该音节声母时长占整个音节时长的32. 9%。7.根据权利要求1所述的方法,其中,所述按照乐谱信息中各音符的音调,调整所述语音数据的语音基频点,使所述语音基频点与乐谱信息中对应音符的音调对齐,包括提取所述语音数据的语音基频信息,所述语音音频信息包括语音数据的基频均值以及语音数据的各个语音基频点;基于所述语音数据的基频均值和乐谱信息中所有音符的基频均值确定将所述语音数据转换成的旋律的调号;以确定的调号为基准,调整所述语音数据的各语音基频点的频率与乐谱信息中各音符的音调对齐。8.根据权利要求7所述的方法,其中,所述基于所述语音数据的基频均值和乐谱信息中所有音符的基频均值确定将所述语音数据转换成的旋律的调号,包括确定所述语音数据的基频均值HLaver和所述乐谱信息中所有音符的基频均值P_ aver ;如果Reaver > P_aver,将所述语音数据的基频均值降K_n个半音作为将所述语音数据转换成的旋律的调号,其中,K为Reaver比P_aver高出的半音数目,η为实验值,特别是可以取η为int (K/7), int表示取整;如果Reaver < P_aver,将所述语音数据的基频均值升K_n个半音作为将所述语音数据转换成的旋律的调号,其中,K为Reaver比P_aver低的半音数目,η为实验值,特别是可以取η为int (K/7),int表示取整。9.根据权利要求7所述的方法,其中,在所述确定将所述语音数据转换成的旋律的调号之后,所述方法进一步包括将所述语音基频点进行分段,其中处于不同分段的两个相邻语音基频点之间的频率差值大于设定分段阈值;确定长度小于预设的野点长度阈值的分段为野点分段;对...

【专利技术属性】
技术研发人员:杨晨蔡莲红周卫
申请(专利权)人:西门子公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利