一种将语音转换为旋律的方法和装置制造方法及图纸

技术编号：8563591 阅读：285 留言：0更新日期：2013-04-11 05:29

本发明专利技术提供了一种将声音转换为旋律的方法和装置，其中方法包括：获取输入的语音数据和乐谱信息；调整语音数据中各音节的时长，使各音节的时长与乐谱信息中对应的歌词时长对齐，并按照乐谱信息中各音符的音调，调整语音数据的语音基频，使各语音基频点与乐谱信息中对应音符的音调对齐；结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。通过本发明专利技术能够将用户输入的语音数据，按照选择的乐谱信息转换为具有用户声音特质的旋律。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音处理技术，特别涉及一种将语音转换为旋律的方法和装置。
技术介绍
旋律是构成音乐的最基本要素，能够最有效地表现音乐以及人类情感。旋律是具有各种音调和时长的音符的组合，可以理解为由具有不同音调和时长的音符排列而成。通常，各个音符通过节拍排序，以向该音符序列提供音乐意义。音乐家或者歌唱家对音乐具有专业的掌控力和表现力，能够很好地配合旋律将自己的歌声展现出来，而对于普通人来说，通常具有一定难度。常常希望通过输入一段语音就能够实时转换为具有自身声音特质的旋律，而现有技术中尚不能实现该技术。
技术实现思路
有鉴于此，本专利技术提供了一种将语音转换为旋律的方法和装置，能够将用户输入的语音数据转换为具有用户声音特质的旋律。本专利技术的技术方案如下一种将语音转换为旋律的方法，该方法包括获取语音数据和乐谱信息，所述语音数据由用户输入，所述乐谱信息包括歌词信息，音符信息以及两者的对应关系；调整语音数据中各音节的时长，使各音节的时长与乐谱信息中对应的歌词时长对齐，并按照乐谱信息中各音符的音调，调整语音数据的语音基频点，使各语音基频点与乐谱信息中对应音符的...

【技术保护点】
一种将语音转换为旋律的方法，所述方法包括：获取语音数据和乐谱信息，所述语音数据由用户输入，所述乐谱信息包括：歌词信息，音符信息以及两者的对应关系；调整所述语音数据中各音节的时长，使各音节的时长与乐谱信息中对应的歌词时长对齐；按照所述乐谱信息中各音符的音调，调整所述语音数据的语音基频点，使所述语音基频点与乐谱信息中对应音符的音调对齐；结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。

【技术特征摘要】
1.一种将语音转换为旋律的方法，所述方法包括获取语音数据和乐谱信息，所述语音数据由用户输入，所述乐谱信息包括歌词信息，音符信息以及两者的对应关系；调整所述语音数据中各音节的时长，使各音节的时长与乐谱信息中对应的歌词时长对按照所述乐谱信息中各音符的音调，调整所述语音数据的语音基频点，使所述语音基频点与乐谱信息中对应音符的音调对齐；结合调整音调后的语音基频点和调整时长后的各音节形成旋律数据。2.根据权利要求1所述的方法，其中，所述调整所述语音数据中各音节的时长，使各音节的时长与乐谱信息中对应的歌词时长对齐，包括提取所述语音数据中每一帧的能量和过零率信息；根据每一帧的能量和过零率信息将所述语音数据划分为语音段和静音段；按照所述乐谱信息中的歌词信息将各语音段切分为音节；调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐。3.根据权利要求2所述的方法，其中，所述根据每一帧的能量和过零率信息将所述语音数据划分为语音段和静音段，包括根据每一帧的能量和过零率信息将每一帧标识为语音帧或静音帧；将相邻的语音帧构成语音段将相邻的静音帧构成静音段。4.根据权利要求2所述的方法，其中，所述按照所述乐谱信息中的歌词信息将各语音段切分为音节，包括确定乐谱信息的歌词中每个句子对应的语音段；确定每个句子所包含的各个短语对应的语音段；以及对每个短语对应的语音段进行语音切分，得到切分后的音节。5.根据权利要求2所述的方法，其中，所述调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐包括在对一个包含声母和韵母的音节进行时长调节时，如果需要对该音节的时长进行拉长，则保持声母时长不变，只拉长韵母的时长；如果需要对该音节的时长进行缩短，则将声母和韵母同时缩短。6.根据权利要求2所述的方法，其中，所述调整语音数据中各音节的时长使得其与乐谱信息中对应的歌词时长对齐包括当一个音节的前后均为静音段时，使该音节声母的时长占整个音节时长的16.2% ；当该音节的前面为静音段，后面不是静音段时，使该音节声母时长占整个音节时长的 27. 6% ；当该音节的前面不是静音段，后面是静音段时，使该音节声母时长占整个音节时长的 24.8% ;以及当该音节的前后均不是静音段时，使该音节声母时长占整个音节时长的32. 9%。7.根据权利要求1所述的方法，其中，所述按照乐谱信息中各音符的音调，调整所述语音数据的语音基频点，使所述语音基频点与乐谱信息中对应音符的音调对齐，包括提取所述语音数据的语音基频信息，所述语音音频信息包括语音数据的基频均值以及语音数据的各个语音基频点；基于所述语音数据的基频均值和乐谱信息中所有音符的基频均值确定将所述语音数据转换成的旋律的调号；以确定的调号为基准，调整所述语音数据的各语音基频点的频率与乐谱信息中各音符的音调对齐。8.根据权利要求7所述的方法，其中，所述基于所述语音数据的基频均值和乐谱信息中所有音符的基频均值确定将所述语音数据转换成的旋律的调号，包括确定所述语音数据的基频均值HLaver和所述乐谱信息中所有音符的基频均值P_ aver ；如果Reaver > P_aver，将所述语音数据的基频均值降K_n个半音作为将所述语音数据转换成的旋律的调号，其中，K为Reaver比P_aver高出的半音数目，η为实验值，特别是可以取η为int (K/7), int表示取整；如果Reaver < P_aver，将所述语音数据的基频均值升K_n个半音作为将所述语音数据转换成的旋律的调号，其中，K为Reaver比P_aver低的半音数目，η为实验值，特别是可以取η为int (K/7)，int表示取整。9.根据权利要求7所述的方法，其中，在所述确定将所述语音数据转换成的旋律的调号之后，所述方法进一步包括将所述语音基频点进行分段，其中处于不同分段的两个相邻语音基频点之间的频率差值大于设定分段阈值；确定长度小于预设的野点长度阈值的分段为野点分段；对...

【专利技术属性】
技术研发人员：杨晨，蔡莲红，周卫，
申请(专利权)人：西门子公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人