一种实现语音歌唱化的方法和装置制造方法及图纸

技术编号：10196031 阅读：129 留言：0更新日期：2014-07-10 22:43

本发明专利技术实施例公开了一种实现语音歌唱化的方法和装置，所述方法包括：接收用户输入的语音信号；将所述语音信号切分获得各基本考察单元的语音片断；根据预置的简谱，确定简谱中的各音符与所述各基本考察单元的对应关系；根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。该方法避免了多次信号转换的损失，实现了对任意长度及任意内容的语音向任意歌曲的唱歌语音转换。

全部详细技术资料下载

【技术实现步骤摘要】
一种实现语音歌唱化的方法和装置
本专利技术涉及语音信号处理领域，具体涉及一种实现语音歌唱化的方法和装置。
技术介绍
近年来，歌唱合成系统，即将用户输入的文本数据转换为歌唱语音的方法以及得到了广泛的研究和应用。歌唱合成系统的实现首先要求录制大量的歌曲数据，包括语音数据和简谱数据等，以提供合成系统所需的语音片段或训练可靠的模型参数。然后，由于歌曲数据录制的代价较大，歌唱合成系统通常只能选择录制某个特定发音人的数据，相应的提供的歌唱合成效果限定为特定发音人的音色，不适合个性化定制，无法实现到特定音色的演绎，特别是用户自身音色的重现。针对上述问题，现有技术中开发了一种歌唱合成方法，允许设备接收用户以说话风格方式输入的语音数据，系统按照预设的简谱对语音数据进行优化实现歌曲合成。这种方式保留了用户语音数据的音色，实现个性化合成。具体操作包括:(1)系统接收用户说话风格的歌词语音输入；(2)通过人工切分的方式将语音信号切分为各个独立的基于音素单元的语音片段；(3)并根据简谱标注确定各音素单元和简谱音符的对应关系；(4)系统从各音素单元的语音片段中提取声学频谱特征，基频特征等；(5)系统根据简谱标注信息确定目标歌曲的基频H)特征参数和时长特征，并据此调整各音素单元的基频特征和时长；(6)系统根据各音素单元的声学频谱特征，以及韵律特征(如:基频特征及时长特征等)，合成歌唱语音输出。该现有技术虽然实现了从说话风格语音信号到歌唱风格的转换，但具有如下问题:一方面，该方案只能实现简谱对应的歌词的说话风格语音输入的转换。也就是说用户只能输入指定歌曲的歌词，无法实现对任意长度...

【技术保护点】
一种实现语音歌唱化的方法，其特征在于，所述方法包括：接收用户输入的语音信号；将所述语音信号切分获得各基本考察单元的语音片断；根据预置的简谱，确定简谱中的各音符与所述各基本考察单元的对应关系；根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。

【技术特征摘要】
1.一种实现语音歌唱化的方法，其特征在于，所述方法包括: 接收用户输入的语音信号；将所述语音信号切分获得各基本考察单元的语音片断；根据预置的简谱，确定简谱中的各音符与所述各基本考察单元的对应关系；根据简谱中各音符的音高，和所述对应关系，分别确定其所对应的基本考察单元的目标基频值；根据简谱中各音符的节拍数，和所述对应关系，分别确定其所对应的基本考察单元的目标时长；根据所述目标基频值和目标时长调整各基本考察单元的语音片断，使得调整后的语音片段的基频为所述目标基频值，调整后的语音片段的时长为所述目标时长。2.根据权利要求1所述的方法，其特征在于，所述将所述语音信号切分获得各基本考察单元的语音片断，具体包括: 从语音信号中逐帧提取语音声学特征矢量，生成声学特征矢量序列；对所述声学特征矢量序列执行语音识别，确定基本语音识别单元模型序列及各基本语音识别模型对应的语音片段；合并所述基本语音识别单元对应的语音片段得到基本考察单元的语音片段。3.根据权利要求2所述的方法，其特征在于，所述基本语音识别模型，包括:静音识别模型，浊音识别模型和清音识别模型三种；所述合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，包括:将浊音片断和清音片断合并构成基本考察单元的语音片断。4.根据权利要求2所述的方法，其特征在于，所述基本语音识别模型，包括:各音素识别模型或音节识别模型；所述合并基本语音识别单元对应的语音片段得到基本考察单元的语音片断，包括:将相邻音素单元片断合并构成基于音节的基本考察单元的语音片断。5.根据权利要求1所述的方法，其特征在于，所述根据预置的简谱，确定简谱中的音符与基本考察单兀的对应关系，具体包括: 获取用户输入的语音信号所对应的基本考察单元的个数K; 获得简谱子片断序列；依次统计每个子片段中音符的个数M ; 判断当前子片段中音符的个数M是否大于所述基本考察单元个数K，如果M大于K，根据如下式子获取参数r，r = [M/k] 将基本考察单元序列复制r遍顺序拼接，其中，复制后的总的基本考察单元个数为rK，满足rK〈=M ；将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符进行线性对齐。6.根据权利要求5所述的方法，其特征在于，所述将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符，进行线性对齐，具体包括: 根据公式:N0tId\= [j*rK/M]，将所述复制后的rK个基本考察单元，与所述简谱子片段中的M个音符，进行线性对齐；所述NotIdxj表示简谱子片段中第j个音符所对应基本考察单元的序号。7.根据权利要求5所述的方法，其特征在于，当判断当前音符子片段中音符总个数M小于基本考察单元个数K，即M〈K时，所述方法还包括: 判断所述简谱是否结束，如果未结束，将所示简谱中后一个子片段与当前的子片段联合，与基本考察单兀进行对应；若判断所述简谱结束，将当前音符子片段中的音符与基本考察单元一一对应后删除未对应上的基本考察单兀。8.根据权利要求1所述的方法，其特征在于，所述根据简谱中各音符的音高，和所述对应关系，确定其所对应的基本考察单兀的目标基频值，包括: 根据公式R)_rUle=440*2(p_69)m，计算所述音符音高对应的目标基频值，作为对应的基本考察单元的目标基频值；其中F0_rule为目标基频值，440表示中央C上A音符发出的频率，P为当前简谱中标注的音高与中央C上A音符的距离。9.根据权利要8所述的方法，其特征在于，在获取基本考察单元的目标基频值后，还包括: 根据发音人的音域特点，对所述基本考察单元的目标基频值进行调整；在获取基本考察单兀的目标基频值后，还根据发首人的首域特点，对所述基本考察单元的目标基频值进行优化，具体包括: 对每个基本考察单元的目标基频值进行升降调处理，获取在不同基调下的调整基频值；获取在不同基调下的基本考察单兀序列的调整基频值序列；提取每个基本考察单元的语音片断的基频特征序列，并计算平均，生成基频特征值；获取基本考察单元序列的语音片段的基频特征值序列；计算不同基调下的基本考察单兀序列的调整基频值序列，与提取的基本考察单兀序列的语音片断的基频特征值序列之间的差值；选择使得差值最小的基调下的各基本考察单元的调整基频值作为相应优化的目标基频值。10.根据权利要求1所述的方法，其特征在于，所述根据简谱中音符的节拍数，和所述对应关系，确定其所对应的基本考察单兀的目标时长，具体包括: 根据简谱中音符的节拍数，和所述简谱中的音符与基本考察单元的对应关系，获得每个基本考察单元对应的节拍数，根据获取的每个基本考察单元对应的节拍数，和所述简谱中描述的节奏，获取每个基本考察单元的目标时长。11.一种实现语音歌唱化的装置，其特征在于，该装置包括:接收单元，切分单元，获取对应关系单元，获取基频单元，获取时长单元，和调整单元；所述接收单元，用于接收用户输入的语音信号；所述切分单元，...

【专利技术属性】
技术研发人员：孙见青，凌震华，江源，何婷婷，胡国平，胡郁，刘庆峰，
申请(专利权)人：安徽科大讯飞信息科技股份有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人