使用与发话人相关的时标变化技术的通信系统和方法技术方案

技术编号:3047701 阅读:152 留言:0更新日期:2012-04-11 18:40
使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正的方法,该方法包括步骤: a)在存储器中存储一部分输入语音信号; b)分析该部分输入语音信号,提供估测音调值; c)根据估测音调值确定分段长度; d)根据确定出的分段长度对输入语音信号进行时标压缩。(*该技术在2016年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及语音压缩和扩展技术,更具体地是涉及使用基于波形相似性的叠加技术(WSOLA)的改进版本进行语音压缩和扩展的方法和装置。在带宽和存储量有限的应用中对语音信号进行传输或变换通常会导致折衷,这种折衷或者降低了所得到的语音输出信号的质量,或者降低了此种声频信号的变换的灵活性。利用时标修正对音乐或话音进行加速或减速(最好不改变音调(pitch))具有许多应用,这些应用包括录音电话(dictation),语音邮件和声道编辑等。另一种具体应用,语音消息寻呼,对于采用当前技术的大型寻呼系统而言在经济上是不可行的。语音寻呼与音频(tone)寻呼、数字寻呼和字符数字寻呼相比需要更多的传播时间。在当前技术下,与逊于理想音质再现的音频、数字或字符数字寻呼相比,语音寻呼服务在经济上是不可行的。另一个限制语音消息寻呼的约束是带宽和当前使用寻呼信道的带宽的方法。相比之下,不管是以个人键盘的形式,还是通过打电话到话务员中心,对发送字符数字消息到寻呼终端的键盘输入设备的有限访问约束了字符数字寻呼的增长。一种语音系统克服了列出的这些问题,其中主叫方可以简单地摘下电话,拨打电话号并讲出一条消息。并且,当前没有语音寻呼系统采用摩托罗拉的FLEXTM新型高速寻呼协议结构。现有的语音寻呼系统,尤其是在大城市中,缺乏许多FLEXTM协议的优点,其中包括高电池节省率,多信道扫描能力,诸如语音加数据的模式混合,回送确认寻呼(允许向主叫方返回接收情况),位置搜寻能力,系统和频率重用。对于涉及语音信号时标变化的寻呼和诸如录音电话和语音邮件的其它应用,当前的时标变化方法缺乏理想的组合,这种组合能够提供足够的,允许设计者在给定的约束下优化应用的话音质量和灵活性。这样,需要一种经济易行并且具有允许在给定的结构下进行优化的灵活性的语音通信系统,并且更具体地,对于寻呼应用,该系统还保留了摩托罗拉的FLEXTM协议的许多优点。一种使用基于波形相似性的叠加技术(WSOLA)的改进版本的语音时标修正方法包括步骤在存储器中存储一部分输入语音信号;分析该部分输入语音信号,提供估测音调值;根据估测音调值确定分段长度;并且根据确定出的分段长度,针对给定的时标变化因子对输入语音信号进行时标变化。在本专利技术的另一方面,使用语音压缩、具有至少一个发送器基站和多个选择呼叫接收器的通信系统包括一个使用WSOLA-SD技术和正交幅度调制技术压缩音频信号以提供经过处理的信号的处理设备;和一个发送经过处理的信号的正交幅度调制发送器。在多个选择呼叫接收器中的每一个上,一个选择呼叫接收器模块接收被发送的处理信号,一个处理设备使用正交幅度解调技术和WSOLA-SD扩展技术对接收的处理信号进行解调以提供一个重构信号。在本专利技术的另一方面,接收压缩语音信号的选择呼叫接收器包括一个接收被发送的处理信号的选择呼叫接收器,一个使用单边带解调技术和WSOLA-SD扩展技术对接收的处理信号进行解调以提供重构信号的处理设备。在本专利技术的另一方面,一个使用基于波形相似性的叠加技术(WSOLA)的改进版本进行语音时标或频标修正的电子设备包括一个存储一部分输入语音信号的存储器,一个分析该部分输入语音以提供估测音调值,并且根据估测的音调值确定出分段长度的处理器,和一个根据所确定的分段长度对输入语音信号进行时标变化或频率定标的设备。附图说明图1是基于本专利技术的一个语音通信系统的模块图。图2是基于本专利技术的一个基站发送器的模块图。图3是基于本专利技术的一个基站发送器的扩展电路模块图。图4是基于本专利技术的另一个基站发送器的扩展电路模块图。图5是基于本专利技术的一个基站发送器的语音处理,编码和调制部分的模块图。图6是基于本专利技术的一个6单边带信号发送器的频谱分析器输出。图7是基于本专利技术的一个选择呼叫接收器的扩展电路模块图。图8是基于本专利技术的另一个选择呼叫接收器的扩展电路模块图。图9是基于本专利技术的另一个选择呼叫接收器的扩展电路模块图。图10是说明基于本专利技术的带外信令协议的传输格式的时序图。图11是说明基于本专利技术的带外信令协议的传输格式,其中包括一个语音帧的细节内容的时序图。图12是图示基于本专利技术的带外信令协议的一个控制帧和两个模拟帧的另一个时序图。图13-17图示了针对基于本专利技术的WSOLA时标变化(压缩)方法的几次迭代的时序图。图18-22图示了针对基于本专利技术的WSOLA-SD时标变化(压缩)方法的几次迭代的时序图。图23-24图示了针对基于本专利技术的WSOLA-SD时标变化(扩展)方法的几次迭代的时序图。图25图示了关于基于本专利技术的整个WSOLA-SD时标变化方法的模块图。参照图1,在选择呼叫系统100的模块图中说明了图示本专利技术的语音压缩和扩展技术的通信系统,其中选择呼叫系统100包括一个接收音频信号,诸如电话114的输入设备,从该设备产生基于语音的选择呼叫以便发送到系统100中的选择呼叫接收器。通过电话114(或其它诸如计算机的输入设备)进入的各选择呼叫通常包括(a)系统中至少一个选择呼叫接收器的接收器地址和(b)一个语音消息。所产生的选择呼叫通常被提供给一个发送器基站或一个选择呼叫终端113以便进行格式化和排队。终端113的语音压缩电路101用于压缩所提供的语音消息的时间长度(在下面对图2,3和4的描述中讨论这种语音压缩电路101的详细操作)。语音压缩电路101最好包含一个处理设备,该设备使用时标变化技术和单边带调制技术压缩音频信号以便提供经过处理的信号。接着选择呼叫被输入到选择呼叫发送器102,在该发送器中对通过天线103发送的射频信号进行调制。发送器最好是一个发送经过处理的信号的正交幅度调制发送器。选择呼叫接收器112中的天线104接收经过调制的发送射频信号,并且把该信号输入到接收经过处理的信号或射频信号的选择呼叫接收器模型或射频接收器模型105,其中射频信号被解调并且接收器地址和压缩语音消息调制被恢复。接着压缩语音消息被提供给一个模数转换器(A/D)115。选择呼叫接收器112最好包含一个处理设备,该设备使用单边带解调技术和时标变化扩展技术解调所接收的处理信号以便提供一个重构信号。接着压缩语音消息被提供给语音扩展电路106,该电路把语音消息的时间长度扩展到期望的值上(在下面图7和8的描述中详细讨论本专利技术中使用的语音扩展电路106的操作)。接着语音消息被提供给一个诸如音频放大器108的放大器以便把该消息放大成重构音频信号。解调接收器地址被从射频接收器105提供给解码器107。如果接收器地址与解码器107中存储的任一接收器地址相匹配,则激活报警器111,向选择呼叫接收器112的用户提供简略的感觉指示,表明已经接收到一个选择呼叫。简略的感觉指示可以包括听觉信号,诸如振动的触觉信号,或诸如光的视觉信号,或各种信号的组合。放大后的语音消息接着被从音频放大器108提供给报警器111中的音频扬声器以便通知消息并由用户查询消息。解码器107可以包括一个存储器,在该存储器中可以存储并反复调出所接收的语音消息以便通过激活一个或多个控制器110来进行查询。在本专利技术的另一方面,图1的各部分可以被等价地解释成录音电话设备,语音邮件系统,应答机或声道编辑设备的相应部分。通过去除系统100中包括选择呼叫发送器102和射频接收器105的无线本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正的方法,该方法包括步骤a)在存储器中存储一部分输入语音信号;b)分析该部分输入语音信号,提供估测音调值;c)根据估测音调值确定分段长度;d)根据确定出的分段长度对输入语音信号进行时标压缩。2.如权利要求1所述的方法,其中确定分段长度的步骤还包括用直接从输入语音信号确定的音调值动态调整分段长度的步骤。3.如权利要求1所述的方法,其中还包括提供等于或大于0.5的为增加输出语音质量而优化的重叠度的步骤。4.如权利要求1所述的方法,其中还包括提供小于0.5的为降低计算复杂性而优化的重叠度的步骤。5.使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正的方法,该方法包括步骤a)在存储器中存储一部分输入语音信号;b)根据该部分输入语音信号确定一个音调周期,提供估测音调值;c)根据估测音调值确定分段长度;d)根据确定出的分段长度对输入语音信号进行时标压缩。e)对输入语音信号进行时标扩展。6.如权利要求5所述的方法,其中确定分段长度的步骤还包括用直接从输入语音信号确定的音调值动态调整分段长度的步骤。7.如权利要求5所述的方法,其中还包括提供等于或大于0.5的为增加输出语音质量而优化的重叠度的步骤。8.如权利要求5所述的方法,其中还包括提供小于0.5的为降低计算复杂性而优化的重叠度的步骤。9.在有语音能力的设备中使用的,使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正,从而构成输出信号的方法,该方法包括步骤在输出设备上a)确定输入语音信号的音调周期,提供估测音调值;b)根据估测音调值确定分析分段长度;c)对输入语音信号进行时标扩展,从而提供输出语音信号。10.根据发话人的音调周期,使用基于波形相似性的叠加技术(WSOLA)的改进版本对语音进行时标校正的方法,该方法包括步骤a)确定输入语音信号的音调周期,提供估测音调值;b)确定接近估测音调值的两倍的分析分段长度;c)在音调低于一个预定阀值的情况下增加时标变化系数,使之高于平均时标变化系数;d)在音调高于一个预定阀值的情况下减少时标变化系数,使之低于平均时标变化系数;11.如权利要求10所述的对语音进行时标校正的方法,其中还包括步骤e)根据在步骤c或d使用的时标变化系数在语音压缩期间指定重叠度。12.如权利要求11所述的对语音进行时标校正的方法,其中还包括步骤f)以小于在步骤c或d使用的时标变化系数将近10%的系数扩展语音。13.在语音通信系统中的具有给定带宽的语音通信资源内压缩多个语音信号的方法,其中包括步骤(a)把语音通信资源子信道化,并且把多个语音信号中的至少一个放在一个子信道上;(b)压缩各子信道内的各个语音信号的时间,其中压缩各个语音信号的时间的步骤包括步骤c)确定各个语音信号的音调周期,针对各个语音信号提供对应的估测音调值;d)确定接近估测音调值的两倍的分析分段长度;e)在音调低于一个预定阀值的情况下增加时标变化系数,使之高于平均时标变化系数;f)在音调高于一个预定阀值的情况下减少时标变化系数,使之低于平均时标变化系数,其中步骤(a)至(f)的结果是提供了压缩语音信号。14.如权利要求13所述的对语音进行时标校正的方法,其中还包括步骤g)根据在步骤e或f使用的时标变化系数在语音压缩期间指定重叠度。15.如权利要求14所述的对语音进行时标校正的方法,其中还包括步骤h)以小于在步骤c或d使用的时标变化系数将近10%的系数扩展语音。16.使用语音压缩,具有至少一个发送器基站和多个选择呼叫接收器的通信系统,其中包括在发送器基站上一个接收音频信号的输入设备;一个使用WSOLA-SD技术和正交幅度调制技术压缩音频信号以提供经过处理的信号的处理设备;一个发送经过处理的信号的正交幅度调制发送器;在各个选择呼叫接收器上一个接收被发送的处理信号的选择呼叫接收器;一个使用正交幅度解调技术和WSOLA-SD扩展技术对接收的处理信号进行解调以提供一个重构信号的处理设备;一个把重构信号放大成重构音频信号的放大器。17.如权利要求16所述的通信系统,其中正交幅度调制是单边带调制。18.如权利要求16所述的通信系统,其中正交幅度调制是同相(I)和正交(Q)调制。19.如权利要求16所述的通信系统,其中通信系统包括多于一个的发送器基站,而经过处理的信号包括从至少一个选择呼叫接收器请求具有确认信号...

【专利技术属性】
技术研发人员:萨尼尔·萨特亚穆尔蒂克里福德·达纳·雷奇罗伯特·约汉·施文德曼卡兹米尔兹·西维亚克威廉·约塞夫·库兹尼基
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利