一种语音变速的方法技术

技术编号:4166843 阅读:316 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种语音变速的方法,包括以下步骤:1、获取原始语音信号,以帧为语音信号的处理单位;2、在待处理原始语音信号帧处插入或删除一段语音信号实现慢放或快放效果;3、采用自相关法获取待处理原始语音信号帧的最大自相关帧,从该最大自相关帧之后到待处理原始语音信号帧为止的语音信号内容即为慢放插入的一段语音信号;4、采用自相关法获取待处理原始语音信号帧的最大自相关帧,从待处理原始语音信号帧之后到该最大自相关帧为止的语音信号内容即为快放删除的一段语音信号。本发明专利技术能在低运算量,低功耗且算法简单、软件实现代码简洁的基础上实现好的音质和好的变速效果。

Voice speed change method

The invention discloses a method for voice transmission, which comprises the following steps: 1, to obtain the original speech signal processing unit in a frame of speech signal; 2, in the pending insert or delete the original speech signal frame a voice signal to achieve slow or fast effect; 3, auto correlation method is used to obtain the the original speech signal processing maximum frame correlation frame, from the maximum correlation frame after to speech signal processing the contents of the original speech signal frame so far is a speech signal slow insertion; 4, auto correlation method is used to obtain the maximum original speech signal processing frame correlation frame from the original. The speech signal frame to be processed to the maximum correlation frame until the speech signal content is a voice signal quickly deleted. The invention realizes good sound quality and good speed change effect on the basis of low calculation amount, low power consumption, simple algorithm and simple code for software realization.

【技术实现步骤摘要】

技术介绍
本专利技术涉及,特别设计一种以帧为处理单位的语音变速的方法
技术介绍
语音变速,或称为语音压扩,是指语音回放时语速变化,包括快放和慢放;就像我们说话一样,可以说快些,也可以说慢些;快放,就能更快更省时地听完所有内容;慢放,就能听得更清晰,一字不漏。其实,单纯的语音变速,可以通过改变播放采样率来实现;但通过这种方法实现变速,会严重变调,回放的效果已经完全不是原来的声音,如男声变得像女声,或女声听起来像男声。本文所描述的语音变速,指的是变速不变调。语音变速技术,可以满足学习外语、报告记录、语音研究及公安侦察等需要。 在语音信号处理领域,语音变速很早就被人们研究。目前的实现方法,有硬件实现和软件处理办法。 硬件实现办法很多,例如,用以由所输入的声音信号分别分离成原音成分和声音特性的音调检测电路;用以在由上述音调检测电路分离出的原音成分和声音特性中,按播放原音成分的速度进行消除和添加来调节声音信号长度的音调调节部件;用以合成用上述音调调制部件调制的原音成分和声音特性,输出已变速的声音信号的声音合成电路;用由外部输入的控制信号控制上述各构成部件的主控制器。硬件实现办法应该能取得不错的效果,但涉及成本问题。 软件实现办法较多,例如专利号为200610164672的中国专利语音变速的方法提出的方法包含下列步骤接收原始语音信号;计算出该原始语音信号的基本周期;依据该基本周期定义搜寻范围;在该原始语音信号的每个该搜寻范围内寻找最大值;依据该最大值将该原始语音信号划分为多个语音区段;依据变速指令对该原始语音信号的每个该语音区段进行变速运算,而取得变速语音信号;输出该变速语音信号。上述方法的好处是将语音信号以最细小的基本周期单位进行后续的变速处理,不足之处是算法较复杂,软件实现时代码比较繁琐。 硬件实现语音变速,效果不错,但缺点是增加了成本,如果是需要量产的产品,会因增加语音变速带来不菲的支出;同时,因为增加硬件,很可能会增加产品尺寸,影响产品外观设计。 软件实现办法很多,例如某欧洲国家提供的商业语音变速方案,也有一些开源组织实现的变速方案。但目前普遍存在一些缺陷,就是处理后音质明显比原始音源差很多,有颤音,甚至引入轻微不明噪音,尤其慢放效果难以满足用户的需要。另外还存在的一个问题是,变速的级数或倍数有限,通常看到的一些产品中,慢放最慢是原速的0. 65倍,快放最快是原速的1. 5倍,或者即便能达到慢放0. 5,快放2倍,但此时的效果已经令人无法忍受。
技术实现思路
本专利技术的目的是提出一种语音变速的处理方法,能根据用户的需要进行相应的语音变速,而且变速后的音质效果令用户满意,不产生颤音。 上述专利技术目的可通过以下的技术措施来实现,,包括以下步骤 (1)获取待处理的原始语音信号,以帧为语音单位进行处理; (2)在待处理的原始语音信号帧处插入一段语音信号,实现慢放效果;在待处理的原始语音信号帧之后删除一段语音信号,实现快放效果; (3)上述实现慢放效果时插入一段语音信号的过程为按播放时间顺序,在待处理原始语音信号帧之前的语音信号中进行基音搜索,采用自相关法获取待处理原始语音信号帧的最大自相关帧;从该最大自相关帧之后到待处理原始语音信号帧为止的语音信号内容即为慢放插入的一段语音信号; (4)上述实现快放效果时删除一段语音信号的过程为按播放时间顺序,在待处理原始语音信号帧之后的语音信号中进行基音搜索,开始搜索位置由快放变速级数确定,采用自相关法获取待处理原始语音信号帧的最大自相关帧;从待处理原始语音信号帧之后到该最大自相关帧为止的语音信号内容即为快放删除的一段语音信号。 实现快放或慢放时,在原始语音信号帧的插入或删除处,用一帧经过叠加处理的语音信号进行平滑过渡,缓解或消除语音在遭切割肢解处引起的噪音。叠加处理的具体过程为在待处理原始语音信号帧附近的语音信号中进行基音搜索,采用自相关法获取待处理原始语音信号帧的最大自相关帧;由待处理原始语音信号帧和该最大自相关帧两段等长的语音信号,分别经过汉宁窗加窗处理后,再叠加。 本专利技术中级数的控制方法为快放时,依据需要快放的级数,确定需要删除的语音信号长度,从而实现指定级数的变速;慢放时,依据需要慢放的级数,确定对每帧语音进行慢速处理的概率,从而达到各种级数慢放控制。 步骤1中,处理对象是数字语音信号,即经采样量化后的数字信号;以帧(Frame)为语音单位进行处理,每帧语音以7-10毫秒为宜,视不同的语音采样率,每帧语音信号长度(即帧长FrameLen)不等,这个帧长一般都比较接近于基音周期的长度。 本专利技术以帧为语音信号的处理单位,采用最大自相关法确定基音周期,在要进行变速的语音信号源中,找到最相似的两段语音,进行叠加,将两段语音间剩余的语音信号,进行复制拼接或删除,从而达到慢放或快放的效果,并采用一段经过叠加处理的语音信号进行平滑过渡,缓解或消除语音在遭切割肢解处引起的噪音。 与现有技术相比,本专利技术在低运算量,低功耗且算法简单、软件实现代码简洁的基础上实现了好的音质和好的变速效果,可以应用于学习机、点读机、点读笔、录音笔等。附图说明 图1为本专利技术语音变速原理示意图; 图2为本专利技术语音慢放-一 缓冲区初始状态示意图; 图3为本专利技术语音慢放-一 输出第一帧语音示意图; 图4为本专利技术语音慢放-一 输出第二帧语音示意图; 图5为本专利技术语音慢放-一 复制语音到最后示意图; 图6为本专利技术语音快放实现示意图。具体实施例方式本专利技术的理论基础是语音信号由清音和浊音组成,其中浊音的能量比清音的能 量大得多,对语音信号的音质、效果起着决定性的作用,因此语音变速主要基于浊音的特性 进行。浊音是气流通过声门时使声带振动产生的一股周期性的脉冲气流引起的声音,这个 周期称为基音周期。 下面结合附图,对本专利技术作进一步的说明。 如图l所示,为本专利技术语音变速原理示意图,假定当前已经播放到bO点,此时由于 慢放的需要,需要插入扩充一段语音数据,于是,在bO之前的语音信号中进行基音搜索,采 用最大自相关法在前面找到一块与b0-bl最相似的语音信号为a0-al语音段;将a0-al与 b0-bl通过叠加,整合成长度相同的一段语音(命名为a-b段),用于播放;接着播放al-bl 段的语音数据(即将al-bl段放到a-b语音段后面);后面再接着播放bl后面的数据。由 于a0-al与bO-bl整合成的a-b段同时具备aO_al和bO_bl的特性,al_bl段放到a_b段 后面,即图中的b-c段,类似于放aO-al段后面,a-b-c能实现平滑过渡,同时实现了扩展功 能,即扩充了b-c段数据。 计算自相关时,选定一帧数据为基准,在另外指定的一块数据范围内,寻找一块连 续的长度为帧长的数据,使该块数据与基准数据的自相关系数最大,此块数据即为最大自 相关帧。自相关系数的计算公式为i (A:)=Z + = O,l, Frame/e — 1 ;w = 0 式中,sb(n)代表基准语音信号帧,s。(n)代表用于搜索的语音信号数据块,k代表 sc中相对首地址的偏移。R(k) (kO, 1, . . , Fr謙len-l)中最大值对应的k值即为最大自相 关帧在搜索数据块中的偏移量。 图2 图5为本专利技术语音慢放相关步骤的示意图,语音慢速实现时,本文档来自技高网
...

【技术保护点】
一种语音变速的方法,其特征在于包括以下步骤:(a)获取待处理的原始语音信号,以帧为语音单位进行处理;(b)在待处理的原始语音信号帧处插入一段语音信号,实现慢放;在待处理的原始语音信号帧之后删除一段语音信号,实现快放;(c)上述实现慢放效果时插入一段语音信号的过程为:按播放时间顺序,在待处理原始语音信号帧之前的语音信号中进行基音搜索,采用自相关法获取待处理原始语音信号帧的最大自相关帧;从该最大自相关帧之后到待处理原始语音信号帧为止的语音信号内容即为慢放插入的一段语音信号;(d)上述实现快放效果时删除一段语音信号的过程为:按播放时间顺序,在待处理原始语音信号帧之后的语音信号中进行基音搜索,采用自相关法获取待处理原始语音信号帧的最大自相关帧;从待处理原始语音信号帧之后到该最大自相关帧为止的语音信号内容即为快放删除的一段语音信号。

【技术特征摘要】
一种语音变速的方法,其特征在于包括以下步骤(a)获取待处理的原始语音信号,以帧为语音单位进行处理;(b)在待处理的原始语音信号帧处插入一段语音信号,实现慢放;在待处理的原始语音信号帧之后删除一段语音信号,实现快放;(c)上述实现慢放效果时插入一段语音信号的过程为按播放时间顺序,在待处理原始语音信号帧之前的语音信号中进行基音搜索,采用自相关法获取待处理原始语音信号帧的最大自相关帧;从该最大自相关帧之后到待处理原始语音信号帧为止的语音信号内容即为慢放插入的一段语音信号;(d)上述实现快放效果时删除一段语音信号的过程为按播放时间顺序,在待处理原始语音信号帧之后的语音信号中进行基音搜索,采用自相关法获取待处理原始语音信号帧的最大自相关帧;从待处理原始语音信号帧之后到该最大自相关帧为止的语音信号内容即为快放删除的一段语音信号。2. 根据权利要求1所述的一种语音变速的方法,其特征...

【专利技术属性】
技术研发人员:李军胡胜发
申请(专利权)人:安凯广州微电子技术有限公司
类型:发明
国别省市:81[中国|广州]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利