用于回归深度神经网络的判别训练的系统和方法技术方案

技术编号：26734733 阅读：31 留言：0更新日期：2020-12-15 14:43

一种方法、计算机程序产品和计算机系统，用于通过计算装置将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化，其中，成本函数可以包括一个或多个判别项。可以通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展语音信号的语音信号表示，来扩展语音信号的带宽。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于回归深度神经网络的判别训练的系统和方法交叉引用本申请要求2018年4月23日提交的美国非临时申请序列号15/959,606的权益，其全部内容通过引用而并入于此。
技术介绍
一般地，由于诸如通用移动电信系统(UMTS)和长期演进(LTE)网络等的电话网络扩展到城市地区，因此用户越来越习惯于高质量宽带(例如，16kHz)电话。对于诸如偏远公路或乡村地区等的位置，覆盖率往往很低。通常，一旦UMTS/LTE连接丢失，话音质量可能突然降低至窄带(例如，8kHz)，这可能是相当明显的。带宽扩展可用于通过人工地将窄带(例如，8kHz)电话信号扩展到宽带(例如，16kHz)、超宽带(例如，24kHz)或甚至全带(例如，32/48kHz)信号来弥补正出现的话音质量差距。
技术实现思路
在一个示例实现中，一个或多个计算装置所进行的方法可以包括但不限于通过计算装置将语音信号变换为语音信号表示。可以利用成本函数来训练回归深度神经网络以使语音信号表示的实际值和语音信号表示的估计值之间的均方误差最小化，其中，成本函数可以包括一个或多个判别项。通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络来扩展语音信号的语音信号表示，可以扩展语音信号的带宽。可以包括以下示例特征中的一个或多个。可以通过将语音信号分解成谱包络线和激励信号来获得语音信号表示，以及其中，可以使用利用成本函数训练的回归深度神经网络来扩展谱包络线。一个或多个判别项可以包括摩擦音与元音功率比以及摩擦音与元音功率比的函数中至少之一。一个或多个判别项可以保存语音信号表...

【技术保护点】
1.一种计算机实现方法，包括：/n通过计算装置将语音信号变换为语音信号表示；/n利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化，其中，所述成本函数包括一个或多个判别项；以及/n通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示，来扩展所述语音信号的带宽。/n

【技术特征摘要】
【国外来华专利技术】20180423 US 15/959,6061.一种计算机实现方法，包括：
通过计算装置将语音信号变换为语音信号表示；
利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化，其中，所述成本函数包括一个或多个判别项；以及
通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示，来扩展所述语音信号的带宽。

2.根据权利要求1所述的计算机实现方法，其中，所述语音信号表示是通过将所述语音信号分解成谱包络线和激励信号而获得的，以及所述谱包络线是使用利用所述成本函数训练的回归深度神经网络来扩展的。

3.根据权利要求1所述的计算机实现方法，其中，所述一个或多个判别项包括摩擦音与元音功率比以及所述摩擦音与元音功率比的函数中至少之一。

4.根据权利要求1所述的计算机实现方法，其中，所述一个或多个判别项保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的统计关系。

5.根据权利要求4所述的计算机实现方法，其中，所述成本函数保存所述语音信号表示的实际值中的不同音素类和所述语音信号表示的估计值中的不同音素类之间的功率比。

6.根据权利要求4所述的计算机实现方法，其中，所述成本函数使用所述不同音素类之间的K个功率比误差的加权和来保存所述不同音素类之间的功率比。

7.根据权利要求1所述的计算机实现方法，还包括：在所述回归深度神经网络的输出处再现平均功率比。

8.一种计算机程序产品，其驻留在存储有多个指令的计算机可读存储介质上，所述指令在一个或多个处理器上执行时使所述一个或多个处理器的至少一部分进行操作，所述操作包括：
将语音信号变换为语音信号表示；
利用成本函数来训练回归深度神经网络以使所述语音信号表示的实际值和所述语音信号表示的估计值之间的均方误差最小化，其中，所述成本函数包括一个或多个判别项；以及
通过使用利用包括一个或多个判别项的成本函数训练的回归深度神经网络扩展所述语音信号的语音信号表示，来扩展所述语音信号的带宽。

9.根据权利要求8所述的计算机程序产品，其中，所述语音信号表示是通过将所述语音信号分解成谱包络线和激励信号而获得的，以及所述谱包络线是使用利用所述成本函数训练的回归深度神经网络来扩展的。

【专利技术属性】
技术研发人员：F·福贝尔，J·索泰，
申请(专利权)人：塞伦妮经营公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人