The invention discloses a voice transmission method based on the rhythm of the music, the method is suitable for voice data according to the target speed rhythm treat processing, voice data processing includes the steps of: to deal with the voice data in the audio segment by mute detection extraction; acoustic speech data cut word processing on the extracted read target; the voice data MIDI file, acquire the information of each section of the MIDI file; combined voice data MIDI file information to calculate each MIDI corresponding; the voice data corresponding to the alignment of the MIDI according to the predetermined alignment rules; using speech transmission algorithm for phase vocoder transmission of voice data based on the alignment well; voice data and voice data transmission after the mixing background music, speech synthesis output. The invention also discloses corresponding calculation equipment.
【技术实现步骤摘要】
一种基于音乐节奏的语音变速方法及计算设备
本专利技术涉及音频处理
,尤其是一种基于音乐节奏的语音变速方法及计算设备。
技术介绍
近年来,随着信息科技的发展逐渐成熟,计算设备所具备的处理能力也大幅提升,使得许多复杂的应用得以实现,其中之一便是语音变速的相关技术。在语音信号处理领域,语音变速很早就被人们研究,但将语音变速与音乐旋律结合的方式很少被提及。在实际生活中,人们常常会被说唱的节奏所吸引,但演唱说唱音乐往往需要演唱者具有一定的乐理知识和歌唱技巧,这对普通消费者而言有一定的难度。因此,普通用户希望可以通过简单地说一些话语,然后将所说的语音转换为配有伴奏的说唱音乐。现有的歌声合成方法大多需要事先建立语料库,根据语料库中的语音进行语音变速,合成说唱音乐。但是建立语料库要耗费长时间进行语料的录制,且语料库需要庞大的储存空间。因此,需要一种操作方便、又能够保证变速后的语音在语调和语义上的完整性的语音处理方案。
技术实现思路
为此,本专利技术提供了一种基于音乐节奏的语音变速方法及计算设备,以力图解决或者至少缓解上面存在的至少一个问题。根据本专利技术的一个方面,提供了一种基 ...
【技术保护点】
一种基于音乐节奏的语音变速方法,所述方法适于根据目标语音数据的节奏对待处理语音数据进行变速处理,所述方法包括步骤:通过静音检测提取待处理语音数据中的有声段;对所提取的有声段语音数据进行切字处理;读取目标语音数据的MIDI文件,获取其中每段MIDI的文件信息;结合所述MIDI文件信息算出每段MIDI上对应的语音数据;根据预定的对齐规则将对应的语音数据对齐到该段MIDI上;采用基于相位声码器的语音变速算法对对齐后的语音数据进行变速;以及将变速后的语音数据与目标语音数据的背景音乐进行混音,输出合成的语音。
【技术特征摘要】
1.一种基于音乐节奏的语音变速方法,所述方法适于根据目标语音数据的节奏对待处理语音数据进行变速处理,所述方法包括步骤:通过静音检测提取待处理语音数据中的有声段;对所提取的有声段语音数据进行切字处理;读取目标语音数据的MIDI文件,获取其中每段MIDI的文件信息;结合所述MIDI文件信息算出每段MIDI上对应的语音数据;根据预定的对齐规则将对应的语音数据对齐到该段MIDI上;采用基于相位声码器的语音变速算法对对齐后的语音数据进行变速;以及将变速后的语音数据与目标语音数据的背景音乐进行混音,输出合成的语音。2.如权利要求1所述的方法,其中,所述通过静音检测提取待处理语音数据中的有声段的步骤包括:计算每一帧语音数据的短时能量,当至少有连续第一数量帧语音数据的短时能量均小于第一阈值时,确定该段语音数据为静音段;遍历待处理语音数据,找出所有的静音段;以及通过所确定的静音段从所述待处理语音数据中提取出至少一个有声段。3.如权利要求2所述的方法,其中,所述第一阈值根据预定长度语音数据的平均能量确定。4.如权利要求1-3中任一项所述的方法,其中,所述对所提取的有声段语音数据进行切字处理的步骤包括:计算所提取的有声段语音数据中每一帧语音数据的自适应子带频谱熵;当有连续两帧语音数据的自适应子带频谱熵均小于第二阈值时,对这两帧语音数据进行切字处理;计算经切字处理后的字长度;以及当经切字处...
【专利技术属性】
技术研发人员:卓鹏鹏,方博伟,张康,尤嘉华,张伟,
申请(专利权)人:厦门美图之家科技有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。