用于回归深度神经网络的判别训练的系统和方法技术方案

技术编号:26734733 阅读:31 留言:0更新日期:2020-12-15 14:43
一种方法、计算机程序产品和计算机系统,用于通过计算装置将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。可以通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展语音信号的语音信号表示,来扩展语音信号的带宽。

【技术实现步骤摘要】
【国外来华专利技术】用于回归深度神经网络的判别训练的系统和方法交叉引用本申请要求2018年4月23日提交的美国非临时申请序列号15/959,606的权益,其全部内容通过引用而并入于此。
技术介绍
一般地,由于诸如通用移动电信系统(UMTS)和长期演进(LTE)网络等的电话网络扩展到城市地区,因此用户越来越习惯于高质量宽带(例如,16kHz)电话。对于诸如偏远公路或乡村地区等的位置,覆盖率往往很低。通常,一旦UMTS/LTE连接丢失,话音质量可能突然降低至窄带(例如,8kHz),这可能是相当明显的。带宽扩展可用于通过人工地将窄带(例如,8kHz)电话信号扩展到宽带(例如,16kHz)、超宽带(例如,24kHz)或甚至全带(例如,32/48kHz)信号来弥补正出现的话音质量差距。
技术实现思路
在一个示例实现中,一个或多个计算装置所进行的方法可以包括但不限于通过计算装置将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示,可以扩展语音信号的带宽。可以包括以下示例特征中的一个或多个。可以通过将语音信号分解成谱包络线和激励信号来获得语音信号表示,以及其中,可以使用利用成本函数训练的回归深度神经网络来扩展谱包络线。一个或多个判别项可以包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一。一个或多个判别项可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的统计关系。成本函数可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的功率比。成本函数可以使用不同音素类之间的K个功率比误差的加权和来保存不同音素类之间的功率比。可以在回归深度神经网络的输出处再现平均功率比。在另一示例实现中,计算系统可以包括一个或多个处理器和一个或多个存储器,该一个或多个处理器和一个或多个存储器被配置为进行操作,这些操作可以包括但不限于将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示,可以扩展语音信号的带宽。可以包括以下示例特征中的一个或多个。表示可以通过将语音信号分解成谱包络线和激励信号来获得语音信号,以及其中,可以使用利用成本函数训练的回归深度神经网络来扩展谱包络线。一个或多个判别项可以包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一。一个或多个判别项可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的统计关系。成本函数可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的功率比。成本函数可以使用不同音素类之间的K个功率比误差的加权和来保存不同音素类之间的功率比。可以在回归深度神经网络的输出处再现平均功率比。在另一示例实现中,计算机程序产品可以驻留在存储有多个指令的计算机可读存储介质上,这些指令在一个或多个处理器上执行时可以使该一个或多个处理器的至少一部分进行操作,这些操作可以包括但不限于将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化,其中,成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示,可以扩展语音信号的带宽。可以包括以下示例特征中的一个或多个。表示可以通过将语音信号分解成谱包络线和激励信号来获得语音信号,以及其中,可以使用利用成本函数训练的回归深度神经网络来扩展谱包络线。一个或多个判别项可以包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一。一个或多个判别项可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的统计关系。成本函数可以保存语音信号表示的实际值中的不同音素类和语音信号表示的估计值中的不同音素类之间的功率比。成本函数可以使用不同音素类之间的K个功率比误差的加权和来保存不同音素类之间的功率比。可以在回归深度神经网络的输出处再现平均功率比。在以下附图和说明书中阐述了一个或多个示例实现的详情。根据说明书、附图和权利要求书,其它可能的示例特征和/或可能的示例优点将变得明显。一些实现可能不具有这些可能的示例特征和/或可能的示例优点,并且这些可能的示例特征和/或可能的示例优点可能不必是一些实现所需的。附图说明图1是根据本专利技术的一个或多个示例实现的耦接至示例分布式计算网络的训练处理的示例示意图;图2是根据本专利技术的一个或多个示例实现的图1的计算机和客户端电子装置的示例示意图;图3是根据本专利技术的一个或多个示例实现的源/滤波器模型的示例示意图;图4是根据本专利技术的一个或多个示例实现的带宽扩展架构的示例示意图;图5是根据本专利技术的一个或多个示例实现的谱包络线、示例激励和合成谱的示例示意图;图6是根据本专利技术的一个或多个示例实现的基于深度神经网络的带宽扩展系统的示例示意图;图7是根据本专利技术的一个或多个示例实现的前馈神经网络的示例示意图;图8是根据本专利技术的一个或多个示例实现的非线性激活函数的示例示意图;图9是根据本专利技术的一个或多个示例实现的前馈神经网络中的激活能(activationenergy)的计算的示例示意图;图10是根据本专利技术的一个或多个示例实现的利用MSE成本函数的带宽扩展语音谱图以及真实宽带语音谱图的示例示意图;图11是根据本专利技术的一个或多个示例实现的标绘图的示例示意图;图12是根据本专利技术的一个或多个示例实现的训练处理的示例流程图;以及图13是根据本专利技术的一个或多个示例实现的标绘图的示例示意图。各附图中的相同附图标记表示相同元件。具体实施方式在一些实现中,本专利技术可被体现为一种方法、系统或计算机程序产品。因此,在一些实现中,本专利技术可以采取全硬件实现、全软件实现(包括固件、常驻软件、微代码等)或结合软件和硬件方面的实现的形式,这些软件和硬件方面在本文中一般可被称为“电路”、“模块”或“系统”。此外,在一些实现中,本专利技术可以采取计算机可用存储介质上的计算机程序产品的形式,该计算机可用存储介质具有体现在该介质中的计算机可用程序代码。在一些实现中,可以利用任何合适的计算机可用或计算机可读介质。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可用或计算机可读存储介质(包括与计算装置或客户端电子装置相关的存储装置)可以是例如但不限于电子、磁、光、电磁、红外或半导体系统、设备、装置或前述的任何合适组合。计算机可读介质的更具体示例(非穷举列表)可以包括本文档来自技高网...

【技术保护点】
1.一种计算机实现方法,包括:/n通过计算装置将语音信号变换为语音信号表示;/n利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化,其中,所述成本函数包括一个或多个判别项;以及/n通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示,来扩展所述语音信号的带宽。/n

【技术特征摘要】
【国外来华专利技术】20180423 US 15/959,6061.一种计算机实现方法,包括:
通过计算装置将语音信号变换为语音信号表示;
利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化,其中,所述成本函数包括一个或多个判别项;以及
通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示,来扩展所述语音信号的带宽。


2.根据权利要求1所述的计算机实现方法,其中,所述语音信号表示是通过将所述语音信号分解成谱包络线和激励信号而获得的,以及所述谱包络线是使用利用所述成本函数训练的回归深度神经网络来扩展的。


3.根据权利要求1所述的计算机实现方法,其中,所述一个或多个判别项包括摩擦音与元音功率比以及所述摩擦音与元音功率比的函数中至少之一。


4.根据权利要求1所述的计算机实现方法,其中,所述一个或多个判别项保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的统计关系。


5.根据权利要求4所述的计算机实现方法,其中,所述成本函数保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的功率比。


6.根据权利要求4所述的计算机实现方法,其中,所述成本函数使用所述不同音素类之间的K个功率比误差的加权和来保存所述不同音素类之间的功率比。


7.根据权利要求1所述的计算机实现方法,还包括:在所述回归深度神经网络的输出处再现平均功率比。


8.一种计算机程序产品,其驻留在存储有多个指令的计算机可读存储介质上,所述指令在一个或多个处理器上执行时使所述一个或多个处理器的至少一部分进行操作,所述操作包括:
将语音信号变换为语音信号表示;
利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化,其中,所述成本函数包括一个或多个判别项;以及
通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示,来扩展所述语音信号的带宽。


9.根据权利要求8所述的计算机程序产品,其中,所述语音信号表示是通过将所述语音信号分解成谱包络线和激励信号而获得的,以及所述谱包络线是使用利用所述成本函数训练的回归深度神经网络来扩展的。

【专利技术属性】
技术研发人员:F·福贝尔J·索泰
申请(专利权)人:塞伦妮经营公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1