语音数据的调整方法及装置制造方法及图纸

技术编号:14744761 阅读:34 留言:0更新日期:2017-03-01 20:45
本发明专利技术提供了一种语音数据的调整方法及装置,其中,该方法包括:获取待处理的语音数据中指定帧的参数信息,以及指定帧的第一目标拉伸或压缩长度,其中,指定帧的参数信息包括:基音周期、第一帧长度、第一修正值;计算第一目标拉伸或压缩长度和第一修正值的和得到第二目标拉伸或压缩长度;依据第二目标拉伸或压缩长度和基音周期计算得到调整参数,其中,调整参数用于指示对指定帧进行拉伸或压缩的长度;依据调整参数对指定帧的长度进行调整得到第二帧长度和第二修正值,并根据第二修正值更新执行拉伸或压缩操作的指定帧的下一帧的修正值,解决了相关技术中每帧拉伸/压缩比例不能实时改变,且拉伸/压缩比例不能从整体上把控的技术问题。

【技术实现步骤摘要】

本专利技术涉及音频信号处理领域,具体而言,涉及一种语音数据的调整方法及装置
技术介绍
时间尺度变化算法,英文是Time-scalemodification,是一种语音在时域进行拉伸和压缩的方法。比如一个信号用S(t)=sin(2t)来表示,那么改变t的系数把信号变成sin(4t)就是时间尺度变化。时间尺度变化主要用于变速播放和变声领域,也适用于网络抖动、延时和丢包而需要语音修补环境。在遇到网络抖动、延时和丢包等情况时,通过时间尺度变化算法对语音信号进行拉伸或压缩,可以有效减小恶劣网络环境对语音质量的影响,提高在此环境下的主观听音感受。人在发浊音时,气流通过声门使声带产生张驰振荡式振动,产生一股准周期脉冲气流,这一气流激励声道就产生浊音,又称有声语音,它携带着语音中的大部分能量。这种声带振动的频率称为基频,相应的周期就称为基音周期(Pitch),它由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成。基音延时是在一定限制的基础上,使残差信号的自相关函数最大的延时。对每帧的基音延时的计算通过两个估计窗分别进行。第一个估计窗的范围是整个当前帧信号,第二个估计窗的范围是当前帧的后一半和lookahead(预取)部分。在经过这两个估计窗(预测窗)分别得到一个最佳延时参数后,再根据一定的逻辑判断,在两个最佳延时参数中选取一个作为当前帧的延时参数,即基音周期。在相关技术的调整语音数据的方法中,研究比较多的是同步叠加算法(Synchronizationoverlap-and-add,简称为SOLA),该算法的原理是:将原始信号按帧间距Sa,帧长N进行分帧,再以帧间距Ss进行合成,Sa和Ss的比值随之决定了语音的拉伸/压缩比例。后来又提出了基音同步叠加算法(PitchSynchronizationoverlap-and-add,简称为PSOLA),该算法的主要原理是:首先估计基音周期;接着对输入波形进行基音标记,将原始语音信号与一系列基音同步的窗函数相乘,得到一系列重叠的分析短时信号;然后将分析短时信号按固定比例进行如基频、时长和幅度调整,得到相应的与目标基音曲线同步的一系列短时合成信号序列;最后将合成的短时信号序列与目标基音周期同步排列,重叠累加得到合成的语音波形。相关技术中,在语音数据的时间尺度调整算法中,存在以下缺点:每帧拉伸/压缩比例相同,不能实时改变等,针对相关技术中的上述缺陷,目前尚没有有效的解决方法。
技术实现思路
本专利技术提供了一种语音数据的调整方法及装置,以至少解决相关技术中每帧拉伸/压缩比例相同,不能实时改变,且拉伸/压缩比例受限,不能从整体上把控的技术问题。根据本专利技术的一个方面,提供了一种语音数据的调整方法,包括:获取待处理的语音数据中指定帧的参数信息,以及所述指定帧的第一目标拉伸或压缩长度,其中,所述指定帧的参数信息包括:基音周期、第一帧长度、第一修正值;计算所述第一目标拉伸或压缩长度和所述第一修正值的和得到第二目标拉伸或压缩长度;依据所述第二目标拉伸或压缩长度和所述基音周期计算得到所述调整参数,其中,所述调整参数用于指示对所述指定帧进行拉伸或压缩的长度;依据所述调整参数对所述指定帧的长度进行调整得到第二帧长度和第二修正值,并根据所述第二修正值更新执行拉伸或压缩操作的所述指定帧的下一帧的修正值。进一步地,当所述调整参数指示对所述指定帧进行拉伸处理时,依据所述调整参数对所述指定帧的长度进行调整得到第二帧长度包括:根据所述第一帧长度和所述第二目标拉伸长度对所述指定帧进行调整得到第一子帧长度;计算所述第一子帧长度减去所述第一帧长度得到第一差值;判断所述第一目标拉伸长度减去所述第一差值得到的第二差值是否大于0;在判断结果为否时,确定所述第一子帧长度为所述第二帧长度。进一步地,所述方法还包括:在判断结果为是时,根据所述第一子帧长度和第三目标拉伸长度对所述第一子帧长度对应的帧进行调整得到所述第二帧长度,其中,所述第三目标拉伸长度为所述第二差值和所述基音周期的差值的绝对值。进一步地,所述依据所述第二目标拉伸或压缩长度和所述基音周期计算得到所述调整参数包括:将所述第二目标拉伸或压缩长度除以所述基音周期得到商值;比较所述商值和1的大小;若所述商值大于或等于1,将小于或等于所述商值的最大正整数作为所述调整基数;若所述商值小于1,则将1作为所述调整基数;将所述基音周期和所述调整基数的乘积设置为所述调整参数。进一步地,在所述将所述基音周期和所述调整基数的乘积设置为所述调整参数之后,所述方法还包括:比较所述调整参数和所述第一帧长度的大小;若所述调整参数大于所述第一帧长度,则用所述第一帧长度更新所述调整参数。根据本专利技术的另一方面,提供了一种语音数据的调整装置,包括:获取模块,用于获取待处理的语音数据中指定帧的参数信息,以及所述指定帧的第一目标拉伸或压缩长度,其中,所述指定帧的参数信息包括:基音周期、第一帧长度、第一修正值;第一计算模块,用于计算所述第一目标拉伸或压缩长度和所述第一修正值的和得到第二目标拉伸或压缩长度;第二计算模块,用于依据所述第二目标拉伸或压缩长度和所述基音周期计算得到所述调整参数,其中,所述调整参数用于指示对所述指定帧进行拉伸或压缩的长度;处理模块,用于依据所述调整参数对所述指定帧的长度进行调整得到第二帧长度和第二修正值,并根据所述第二修正值更新执行拉伸或压缩操作的所述指定帧的下一帧的修正值。进一步地,处理模块包括:第一调整单元,用于当所述调整参数指示对所述指定帧进行拉伸处理时,根据所述第一帧长度和所述第二目标拉伸长度对所述指定帧进行调整得到第一子帧长度;第一计算单元,用于计算所述第一子帧长度减去所述第一帧长度得到第一差值;判断单元,用于判断所述第一目标拉伸长度减去所述第一差值得到的第二差值是否大于0;确定单元,用于在判断结果为否时,确定所述第一子帧长度为所述第二帧长度。进一步地,所述处理模块还包括:第二调整单元,用于在判断结果为是时,根据所述第一子帧长度和第三目标拉伸长度对所述第一子帧长度对应的帧进行调整得到所述第二帧长度,其中,所述第三目标拉伸长度为所述第二差值和所述基音周期的差值的绝对值。进一步地,所述第二计算模块包括:第二计算单元,用于将所述第二目标拉伸或压缩长度除以所述基音周期得到商值;第一比较单元,用于比较所述商值和1的大小;第一设置单元,用于若所述商值大于或等于1,将小于或等于所述商值的最大正整数设置为所述调整基数;或,用于若所述商值小于1,则将1设置为所述调整基数;第二设置单元,用于将所述基音周期和所述调整基数的乘积设置为所述调整参数。进一步地,所述第二计算模块还包括:第二比较单元,用于在所述将所述基音周期和所述调整基数的乘积设置为所述调整参数之后,比较所述调整参数和所述第一帧长度的大小;更新单元,用于若所述调整参数大于所述第一帧长度,则用所述第一帧长度更新所述调整参数。通过本专利技术,采用获取待处理的语音数据中指定帧的参数信息,以及所述指定帧的第一目标拉伸或压缩长度,其中,所述指定帧的参数信息包括:基音周期、第一帧长度、第一修正值,然后计算所述第一目标拉伸或压缩长度和所述第一修正值的和得到第二本文档来自技高网
...
语音数据的调整方法及装置

【技术保护点】
一种语音数据的调整方法,其特征在于,包括:获取待处理的语音数据中指定帧的参数信息,以及所述指定帧的第一目标拉伸或压缩长度,其中,所述指定帧的参数信息包括:基音周期、第一帧长度、第一修正值;计算所述第一目标拉伸或压缩长度和所述第一修正值的和得到第二目标拉伸或压缩长度;依据所述第二目标拉伸或压缩长度和所述基音周期计算得到调整参数,其中,所述调整参数用于指示对所述指定帧进行拉伸或压缩的长度;依据所述调整参数对所述指定帧的长度进行调整得到第二帧长度和第二修正值,并根据所述第二修正值更新执行拉伸或压缩操作的所述指定帧的下一帧的修正值。

【技术特征摘要】
1.一种语音数据的调整方法,其特征在于,包括:获取待处理的语音数据中指定帧的参数信息,以及所述指定帧的第一目标拉伸或压缩长度,其中,所述指定帧的参数信息包括:基音周期、第一帧长度、第一修正值;计算所述第一目标拉伸或压缩长度和所述第一修正值的和得到第二目标拉伸或压缩长度;依据所述第二目标拉伸或压缩长度和所述基音周期计算得到调整参数,其中,所述调整参数用于指示对所述指定帧进行拉伸或压缩的长度;依据所述调整参数对所述指定帧的长度进行调整得到第二帧长度和第二修正值,并根据所述第二修正值更新执行拉伸或压缩操作的所述指定帧的下一帧的修正值。2.根据权利要求1所述的方法,其特征在于,当所述调整参数指示对所述指定帧进行拉伸处理时,依据所述调整参数对所述指定帧的长度进行调整得到第二帧长度包括:根据所述第一帧长度和所述第二目标拉伸长度对所述指定帧进行调整得到第一子帧长度;计算所述第一子帧长度减去所述第一帧长度得到第一差值;判断所述第一目标拉伸长度减去所述第一差值得到的第二差值是否大于0;在判断结果为否时,确定所述第一子帧长度为所述第二帧长度。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:在判断结果为是时,根据所述第一子帧长度和第三目标拉伸长度对所述第一子帧长度对应的帧进行调整得到所述第二帧长度,其中,所述第三目标拉伸长度为所述第二差值和所述基音周期的差值的绝对值。4.根据权利要求1所述的方法,其特征在于,所述依据所述第二目标拉伸或压缩长度和所述基音周期计算得到调整参数包括:将所述第二目标拉伸或压缩长度除以所述基音周期得到商值;比较所述商值和1的大小;若所述商值大于或等于1,将小于或等于所述商值的最大正整数作为调整基数;若所述商值小于1,则将1作为所述调整基数;将所述基音周期和所述调整基数的乘积设置为所述调整参数。5.根据权利要求4所述的方法,其特征在于,在所述将所述基音周期和所述调整基数的乘积设置为所述调整参数之后,所述方法还包括:比较所述调整参数和所述第一帧长度的大小;若所述调整参数大于所述第一帧长度,则用所述第一帧长度更新所述调整参数。6.一种语音数据的调整装置,其特征在于,包括:获取模块,用于获取待处理的语音数据中指定帧的...

【专利技术属性】
技术研发人员:史巍刘丹刘建敏
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1