语音速率转换制造技术

技术编号:3047000 阅读:183 留言:0更新日期:2012-04-11 18:40
一种转换语音信号(2)的语音速率的方法,其中语音信号(2)的音调周期低于最大预期音调周期,所述方法包括以下步骤:将语音信号分为若干段;估计某段中的语音周期;复制该段中的部分语音信号,所述部分的时长等于估计音调周期;根据所述部分提供具有相同时长的中间信号;以及通过将所述中间信号音调同步地插入到该段的语音信号中来对该段进行扩展。使用了比最大预期音调周期要长但比最大预期音调周期的两倍要短的段长度。各段要处理的数据量小得多,使该方法能够在例如移动电话的有限计算资源中得以实现。还提供了一种类似的装置。(*该技术在2021年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及一种转换语音信号的语音速率的方法,该语音信号的音调周期低于最大预期音调周期。该方法包括以下步骤将语音信号分为若干段;估计某段中语音信号的语音周期;复制该段中的部分语音信号,所述部分的时长等于所述估计音调周期;根据所述部分提供具有相同时长的中间信号;以及通过将所述中间信号音调同步地插入该段的语音信号中来对该段进行扩展。本专利技术还涉及该方法在移动电话中的使用。此外,本专利技术还涉及适合转换语音信号的语音速率的装置。在很多情况下都希望提高语音的可懂度。尤其是上了年纪的人们常常受到某种听力障碍的困扰,因而降低了他们对速度较快的语音的理解力。另外,有语言学习障碍的儿童也能够从改善的可懂度中获益。此外,当移动电话用于嘈杂环境时,就很难完全听懂说的内容。不仅听力障碍的人会遇到这种情况,其它人也不例外。因此,愈来愈多地需要在移动电话方面获得提高的可懂度。提高语音可懂度的一种方法是减缓语音的速度。该方法的主要目的是为听众提供一些额外的时间来识别所说的内容。这可以通过使用时间标度技术来实现,也就是改变信号的时间演变。通过根据所选算法将额外的时间数据加入到信号中来调整语音速率。存在几种语音增强算法,它们都基于放慢输入语音的技术。这些算法的基本思想是执行一种语音扩展,在提升可懂度的同时仍保持语音的自然属性。因此,大部分扩展算法均取决于语音的音调周期性。然而,这类算法不适合在移动电话中实现。从Y.Nejime、T.Aritsuka、T.Imamura、T.Ifukube以及J.Matsushima的文章“用于听力障碍的便携式数字语音速率转换器”(IEEETransactions on Rehabilitatin Engineering,vol.4,no.2,pp.73-83,June1996)中可以了解到采用这样一种算法的装置。该装置是一种手掌大小的便携式装置,它在不改变音调的情况下转换语音。当语音速度降低时,在输入和输出语音之间产生延时。将语音信号记录在固态存储器中,同时放慢并生成前面记录的信号。用户通过按下装置上的某个按钮来激活该装置。用户按下按钮放慢语音速度的时间越长,延迟也越长。尽管可以通过去掉大于1秒的静寂时间来减少延迟,但并不足以消除延迟。用户可以通过释放该按钮来返回到非延迟状态。存储器中的语音数据被分为若干帧。时间标度过程逐帧扩展语音数据的时间标度。通过插入从三个连续音调周期的信号中创建的合成音调模式获得时间扩展。使用合成模式以避免扩展信号的混响。由于所用时间标度过程需要四音调长度的数据元素,因此各帧的长度为48ms,对应于本文中设置为12ms的假设最大音程的四倍。提及的其它文件假定16ms甚至接近20ms的最大音调周期,这将需要更长的帧长度,进而各帧所处理的数据量更大。要处理的这种数据量尤其影响了上述算法在移动电话中的使用,因为移动电话中计算资源相当有限。这种算法的另一缺陷在于用户按住装置的按钮时会积累延时。移动电话的使用几乎都是两个人之间的双向通信,因此希望尽可能使扩展语音接近实时状态。本专利技术的一个目的是提供一种上述类型的方法,其中,一帧所必须处理的数据量大大减少,使这种方法能够在例如移动电话的有限计算资源中得以实现。根据本专利技术,通过采用比所述最大预期音调周期要长但比最大预期音调周期的两倍要短的段长度来实现这个目的。测试证明,与短音调周期相比,具有相对长的音调周期的语音信号出现混响的危险性较小,因为它们实际上的改变较慢。因此,这些信号不需要合成音调模式,并且足够有一个帧或段长度正好允许处理一个全音调长度的模式。因此,段长度可以减少为仅略长于最大预期音调周期的一个值,也就是说,处于最大预期音调周期和最大预期音调周期的两倍之间。显然,较短的段或帧长减少了每帧要处理的数据量,并且由于至少可以避免对具有长音调周期的语音信号进行的合成信号计算,所以它还会进一步减少。对于具有较短音调周期的语音信号,仍然可以从例如两个连续音调周期中形成合成音调模式。在一个有利实施例中,该方法还包括以下步骤如果段的实际估计音调周期大于段长度的一半,则通过将复制部分直接用作中间信号来提供中间信号。这避免了额外计算合成信号。如果段的实际估计音调周期小于该段长度的一半,该方法则还可包括以下步骤复制两个连续部分,其中每个部分的时长等于估计音调周期;以及提供两个连续部分的平均作为中间信号。通过这种方法,可以最大程度地减少具有较短音调周期的语音的混响,这种较短音调周期的语音实际上具有更高的混响危险性。如果某段语音信息的内容低于预设阈值,则该方法还包括将该语音信号段分类为静寂段;如果某段和若干紧挨在前面的段已被分类为静寂段,则该方法还包括缩短该段,以补偿前面数段的扩展,有可能将输入信号和所述(扩展)输出信号之间的延迟保持在极低水平,从而提供基本实时的语音对话。这就使该算法更适合用于希望将扩展语音尽量保持接近实时状态的移动电话中。当采用20ms的段长度时,实现了特别适用于移动电话的有利实施例,因为许多移动电话中现有语音信号处理也使用这种段长度,从而通过使用与语音扩展算法相同的段,可以节省大量计算资源。当通过将中间信号音调多次同步插入某段语音信号来扩展该段时,可以获得更高的扩展率,而不会大量增加计算资源的使用。如果在复制所述部分和插入所述中间信号时采用重叠窗口,则可以得到更好结果,而不会在插入中引进尖峰信号或类似的不连续性。该方法的典型使用是在便携式通信装置中,在一个有利实施例中,该方法用于移动电话。如上所述,本专利技术还涉及一种装置,这种装置适于转换语音信号的语音速率,该语音信号的音调周期小于最大预期音调周期。该装置包括用于将语音信号分为若干段的装置;用于估计某段中语音信号的语音周期的装置;用于复制该段中部分语音的装置,所述部分的时长等于所述估计音调周期;用于根据所述部分提供具有相同时长的中间信号的装置;以及通过将所述中间信号音调同步地插入到该段的语音信号中来对该段进行扩展的装置。当该装置适于采用比所述最大预期音调周期更长但比最大预期音调周期的两倍要短的段长度时,则一帧所必须处理的数据量较少,使这种方法能够在例如移动电话的有限计算资源中得以实现。在一个有利实施例中,如果段的实际估计音调周期大于该段长度的一半,则该装置还适合于通过将复制部分直接用作中间信号来提供中间信号。这避免了额外计算合成信号。如果某段的实际估计音调周期小于该段长度的一半,则该装置还适合于复制两个连续部分,其中每个部分的时长等于估计音调周期;以及提供两个连续部分的平均作为中间信号。通过这种方法,可以最大程度地减少具有较短音调周期的语音的混响,这种较短音调周期的语音实际上具有更高的混响危险性。如果某段语音信息的内容低于预设阈值,则该装置还适合于将该语音信号段分类为静寂段;如果某个段和若干紧挨在前面的段已被分类为静寂段,则该方法还包括缩短该段,以补偿前面数段的扩展,有可能将输入信号和所述(扩展)输出信号之间的延迟保持在极低水平,从而提供基本实时的语音对话。这就使该算法更适合用于希望将扩展语音尽量保持接近实时状态的移动电话中。当装置适合采用20ms的段长度时,实现了特别适合于移动电话的有利实施例,因为许多移动电话中现有语音信号处理也使用这种段长度,从而通过使用与语音扩展算本文档来自技高网...

【技术保护点】
一种转换语音信号(2)的语音速率的方法,所述语音信号(2)的音调周期低于最大预期音调周期,所述方法包括以下步骤:.将所述语音信号分为若干段,.估计某段中所述语音信号的所述音调周期,.复制所述段中的部分所述语音信号,其中所述部分的 时长等于所述估计音调周期,.根据所述部分提供相同时长的中间信号,以及.通过将所述中间信号音调同步地插入到所述段的所述语音信号中来扩展所述段,其特征在于使用比所述最大预期音调周期要长但比所述最大预期音调周期的两倍要短的段长度。

【技术特征摘要】
EP 2000-4-6 00610036.6;US 2000-4-14 60/197,1941.一种转换语音信号(2)的语音速率的方法,所述语音信号(2)的音调周期低于最大预期音调周期,所述方法包括以下步骤·将所述语音信号分为若干段,·估计某段中所述语音信号的所述音调周期,·复制所述段中的部分所述语音信号,其中所述部分的时长等于所述估计音调周期,·根据所述部分提供相同时长的中间信号,以及·通过将所述中间信号音调同步地插入到所述段的所述语音信号中来扩展所述段,其特征在于使用比所述最大预期音调周期要长但比所述最大预期音调周期的两倍要短的段长度。2.如权利要求1所述的方法,其特征在于所述方法还包括以下步骤·如果所述段的所述实际估计音调周期大于所述段长度的一半,则通过将所述复制部分直接用作所述中间信号来提供所述中间信号。3.如权利要求1或2所述的方法,其特征在于所述方法还包括以下步骤·如果所述段的所述实际估计音调周期小于所述段长度的一半,则复制两个连续部分,其中所述各个部分的时长等于所述估计音调周期的时长,以及·提供所述两个连续部分的平均作为所述中间信号。4.如权利要求1至3中任何一项所述的方法,其特征在于所述方法还包括以下步骤·如果某段语音信息的内容低于预设阈值,则将所述语音信号的所述段分类为静寂段,·如果已经将某段以及紧挨在前面的若干段分类为静寂段,则缩短所述段以补偿前面若干段的扩展。5.如权利要求1至4中任何一项所述的方法,其特征在于采用20ms的段长度。6.如权利要求1至5中任何一项所述的方法,其特征在于通过将所述中间信号音调多次同步地插入到所述段的所述语音信号中来扩展所述段。7.如权利要求1至6中任何一项所述的方法,其特征在于在复制所述部分以及插入所述中间信号时采用了重叠窗口。8.在移动电话中应用权利要求1至7中任何一项所述的方法。9.一种适...

【专利技术属性】
技术研发人员:C安德伦H约翰尼松
申请(专利权)人:艾利森电话股份有限公司
类型:发明
国别省市:SE[瑞典]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1