当前位置: 首页 > 专利查询>DTS公司专利>正文

根据基于独特键值的网络指导和调节的信号变换制造技术

技术编号:38014726 阅读:17 留言:0更新日期:2023-06-30 10:38
一种方法包括接收输入音频和具有目标音频特性的目标音频。该方法包括基于输入音频和目标音频中的一者或多者来估计表示目标音频特性的键值参数。该方法还包括配置神经网络,该神经网络被训练为由键值参数配置,键值参数使神经网络执行输入音频的信号变换,以产生具有与目标音频特性相对应且匹配的输出音频特性的输出音频。性的输出音频。性的输出音频。

【技术实现步骤摘要】
【国外来华专利技术】根据基于独特键值的网络指导和调节的信号变换


[0001]本公开涉及执行键值指导信号变换。

技术介绍

[0002]静态机器学习(ML)网络可以建模和学习固定信号变换函数。当存在多个不同的信号变换时或在连续时变变换的情况下,静态ML模型倾向于学习,例如,次优随机平均变换。
附图说明
[0003]图1是配置有被训练的神经网络模型以执行动态键值指导信号变换的示例系统的高级框图。
[0004]图2是用于训练图1的系统的神经网络的机器学习(ML)模型以进行信号变换的第一示例训练过程的流程图。
[0005]图3是用于训练ML模型以执行信号变换的第二示例训练过程的流程图。
[0006]图4是示例高级通信系统的框图,其中神经网络一旦被训练,就可以被部署以执行推断阶段键值指导信号变换。
[0007]图5是第一示例发射机过程的流程图,该第一示例发射机过程在通信系统的发射机中执行以在用非编码输入信号训练ML模型时产生与ML模型相容的比特流。
[0008]图6是第二示例发射机过程的流程图,该第二示例发射机过程在通信系统的发射机中执行以在用编码输入信号训练ML模型时产生与ML模型相容的比特流。
[0009]图7是在通信系统的接收机中执行的示例推断阶段接收机过程的流程图。
[0010]图8是使用先前训练为由键值参数配置以执行信号变换的神经网络来执行键值指导信号变换的示例方法的流程图。
[0011]图9是被配置为实现文中给出的实施例的计算机设备的框图。
具体实施方式
[0012]示例性实施例
[0013]本文给出的实施例提供基于键值的机器学习(ML)神经网络调节(conditioning)以对时变信号变换进行建模。实施例涉及配置“键值空间”、以及基于键值空间对于不同应用的信号变换映射。应用范围广泛,从音频信号合成和语音质量改进到加密和验证。
[0014]这些实施例至少实现了以下高级特征:
[0015]a.识别与输入信号的信号变换相关联的合适的键值空间,生成独特地表示或表征信号变换并且在一段时间(例如输入信号的一帧)内固定的键值参数,以及使用对应于输入信号的帧的键值参数配置机器学习神经网络以合成被变换的输入信号的输出信号。与信号变换相关联的键值空间定义或包含有限数量的键值参数、和适于配置神经网络以执行相关联信号变换的键值参数的一系列值。
[0016]b.在神经网络的训练过程中,至少基于输入信号帧的特性、训练帧、以及与帧对应
的独特键值,调整或选择成本最小化准则,使得神经网络学习要由独特键值配置以实现信号变换。
[0017]参考图1,给出了示例系统100的高级框图,该系统配置有被训练的神经网络模型以执行动态键值指导(key

guided)的/基于键值的信号变换。系统100被呈现为用于描述在下文呈现的不同实施例中采用的概念的构造。因此,并非系统100中呈现的所有组件和信号都应用于所有不同的实施例,这将从随后的描述中显而易见。
[0018]系统100包括键值生成器或估计器102、以及键值指导信号变换器104,其可以部署在发射机(TX)/接收机(RX)(TX/RX)系统中。在示例中,键值估计器102接收键值生成数据,该数据可至少包括输入信号、目标或期望信号、变换索引或信号变换映射。基于键值生成数据,键值估计器102生成或估计一组变换参数KP,也称为“键值参数”KP。键值估计器102可以逐个帧地或在一组帧上估计键值参数KP,如下所述。键值参数KP参数化或表示目标信号的期望/目标信号特性,例如目标信号的频谱/基于频率的特性或时间/时基特性。在TX/RX系统中,键值参数KP在发射机TX处被估计,然后与输入信号一起传输到接收机RX。
[0019]在接收机RX,信号变换器104接收由发射机TX发送的输入信号和键值参数KP。信号变换器104基于键值参数KP执行输入信号的期望信号变换,以产生具有与目标信号的期望/目标信号特性相似或匹配的输出信号特性的输出信号。
[0020]信号变换器104包括先前训练的神经网络模型,其配置为执行期望的KP驱动信号变换。神经网络(NN)可以是卷积神经网络(CNN),其包括具有卷积滤波器的一系列神经网络层,该滤波器具有基于常规的基于随机梯度的优化算法被配置的权重或系数。在另一个示例中,神经网络可以基于递归神经网络(RNN)模型。在一个实施例中,神经网络包括机器学习(ML)模型,其被训练为由键值参数KP独特地配置以执行输入信号的动态键值指导信号变换,以产生输出信号,使得一个或多个输出信号特性匹配或遵循一个或多个期望/目标信号特性。例如,键值参数KP配置神经网络的ML模型以执行信号变换,使得输出信号的频谱或时间特性匹配目标信号的对应的期望/目标频谱或时间特性。上述由系统100的信号变换器104执行的处理被称为“推断(inference)阶段”处理,因为该处理是在信号变换器的神经网络已经被训练之后由神经网络执行的。
[0021]在输入信号和目标信号包括各自的信号帧序列,例如各自的音频帧序列的示例中,键值估计器102在逐帧的基础上估计键值参数KP以产生逐帧键值参数序列,信号变换器104的神经网络的ML模型由键值参数配置以逐帧地执行输入信号到输出信号的信号变换。也就是说,由于用于指导给定输入帧的变换的帧特定键值参数,神经网络对于每个给定输入帧/与每个给定输入帧相对应地产生独特转换的输出帧。因此,由于期望/目标信号特性动态地因帧而变,并且所估计的表示期望/目标信号特性的键值参数相应地因帧而变,键值指导信号变换将相应地因帧而变,使得输出帧具有跟踪目标帧的信号特性的信号特性。这样,信号变换器104的神经网络对输入信号执行动态的、键值指导的信号变换,以产生随时间匹配目标信号特性的输出信号。在随后的描述中,信号变换器104也被称为“神经网络”104。
[0022]在各种实施例中,输入信号可以表示代表输入信号的被预处理输入信号,并且目标信号可以表示代表目标信号的被预处理目标信号,使得键值估计器102基于被预处理输入信号和被预处理目标信号来估计键值参数KP,神经网络104对被预处理输入信号进行信
号变换。在另一个实施例中,键值参数KP可以表示被编码的键值参数,使得被编码的键值参数配置神经网络104以执行输入信号或被预处理输入信号的信号变换。此外,输入信号可以表示被编码的输入信号或被编码的被预处理输入信号,使得键值估计器102和神经网络104各自对被编码的输入信号或被编码的被预处理输入信号进行操作。所有这些和进一步的变型在各种实施例中都是可能的,下面将描述其中的一些。
[0023]举例来说,在输入信号和目标信号各自为音频信号,即“输入音频”和“目标音频”的上下文中描述系统100的各个方面。应当理解,本文呈现的实施例同样适用于其他上下文,例如输入信号和目标信号包括各自的射频(RF)信号、图像、视频等的上下文。在音频上下文中,目标信号可以是语音或音频信号,例如以32kHz采样并例如被本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:接收输入音频和具有目标音频特性的目标音频;基于输入音频和目标音频中的一者或多者来估计表示目标音频特性的键值参数;以及配置神经网络,该神经网络被训练为由键值参数配置,键值参数使神经网络执行输入音频的信号变换,以产生具有与目标音频特性相对应且匹配的输出音频特性的输出音频。2.如权利要求1所述的方法,其中,该估计包括对目标音频进行频谱分析,使得键值参数表示目标音频的目标频谱特性;以及该配置包括用键值参数配置神经网络,以使神经网络执行信号变换作为输入音频的输入频谱特性到与目标频谱特性相匹配的输出音频的输出频谱特性的变换。3.如权利要求1所述的方法,其中,该估计包括执行线性预测(LP)分析以产生频谱包络键值参数作为该键值参数,所述频谱包络键值参数包括表示目标音频的目标频谱包络的线频谱频率(LSF)或LP系数(LPC);以及该配置包括使用频谱包络键值参数配置神经网络,以使神经网络执行信号变换作为输入音频的输入频谱包络到与目标频谱包络匹配的输出音频的输出频谱包络的变换。4.如权利要求1所述的方法,其中,该估计包括执行谐波分析以产生表示目标音频中存在的目标谐波的谐波键值参数作为该键值参数;以及该配置包括使用谐波键值参数配置神经网络,以使神经网络对输入音频进行信号变换,使得输出音频包括与目标谐波匹配的谐波。5.如权利要求1所述的方法,其中,该估计包括执行时间分析以产生表示目标音频的目标时间特性的时间键值参数作为该键值参数;以及该配置包括用时间键值参数配置神经网络,以使神经网络执行信号变换,作为输入音频的时间特性到与目标时间特性匹配的输出音频的时间特性的变换。6.如权利要求5所述的方法,其中,目标时间特性和输出音频的时间特性均为各自的时间振幅特性。7.如权利要求1所述的方法,其中,估计键值参数包括估计以下中的至少两个:时间键值参数,其表示目标音频的时间振幅特性;频谱包络键值参数,包括代表目标音频的目标频谱包络的线频谱频率(LSF)或LP系数(LPC);以及谐波键值参数,其表示目标音频中存在的谐波。8.如权利要求1所述的方法,其中,所述输入音频和所述目标音频包括各自的音频帧序列;估计键值参数包括逐帧估计键值参数;以及配置神经网络包括用逐帧估计的键值参数配置神经网络,使神经网络逐帧执行信号变换,以产生作为音频帧序列的输出音频。9.如权利要求1所述的方法,其中,输入音频包括编码的输入音频。
10.如权利要求1所述的方法,其中,键值参数包括编码的键值参数。11.一种装置,包括:解码器,用于解码编码的输入音频和编码的键值参数,以分别产生输入音频和键值参数;以及神经网络,其被训练为由键值参数配置以执行代表输入音频的音频...

【专利技术属性】
技术研发人员:A
申请(专利权)人:DTS公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1