神经网络模型的训练方法及电子设备和存储介质技术

技术编号:38500784 阅读:10 留言:0更新日期:2023-08-15 17:08
本发明专利技术公开一种神经网络模型的训练方法及电子设备和存储介质,其中方法包括:采集声场信息,对所述声场信息设计不同音区对应的房间脉冲响应;根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集;基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。本发明专利技术实施例通过设计不同音区对应的房间脉冲响应来构建用于训练神经网络模型的标签数据集和语音数据集,训练完成的神经网络模型能够灵活地应对不同的应用场景,可实现无人干预的一体化训练、测试系统,可极大地减少人力的投入,进而带来人效比的提升。的提升。的提升。

【技术实现步骤摘要】
神经网络模型的训练方法及电子设备和存储介质


[0001]本专利技术属于语音识别
,尤其涉及一种神经网络模型的训练方法及电子设备和存储介质。

技术介绍

[0002]相似的现有技术有基于时域端到端的音源分离方案、基于波束成形的多通道语音分离方案以及基于传统语音技术的语音分离方案。目前基于时域端到端的神经网络方案主要是应用在单通道的语音分离中,这些被分离的语音包含有人声与人声之间的语音分离、有人声与背景噪声(非人声)之间的语音分离、也有特殊音源之间(如乐器声、警报声、开关门声音等)的语音分离。而这些神经网络的结构,基本由卷积神经网络CNN(Convolutional Neural Network)、循环神经网络RNN(Recurrent Neural Networks)模块组成,CNN用于对语音特征的解析与还原,而RNN则用于构建语音在时序上的关系。在多通道语音分离的方案中,常常利用了麦克风阵列相比于单麦在相位上的丰富信息,结合成熟的波束成形技术,实现特定方位的语音增强。而借助于神经网络的技术,将不同空间位置的声源作为标签,将经过波束成形之后的语音作为输入信息,进而开展网络训练。当然,作为标签的音频以及作为输入的音频,其处理方式可以在时域进行,同样也可以在频域进行,两者只是在适配网络模型的时候会产生效果的差异,但整体方案上并没有差别,都是波束成形与神经网络NN(Neural Networks)相结合的方式。传统的语音分离技术,由于其成熟得早以及较NN相对更低的算力,因此在语音交互的产品中被首先落地应用。常见的用于语音交互(分离)的算法主要有波束成形BF(Beamforming)、盲源分离BSS(Blind source separation)、语音后处理等,波束成形常常用在麦克风阵列的场景,通过麦克风之间的相位差来进行特定角度的语音增强与抑制;而BSS常用于分布式的麦克风布局中,通过能量与语音的统计学差异来对混合的语音进行分离。
[0003]基于时域端到端的音源分离方案该方案核心的技术要点是基于多尺度卷积神经网络的语音分离算法,其主要的步骤分为:第一,将混合音频利用相关的编码器在时域进行特征提取操作;第二,利用带门控线性单元的卷积、深度可分离的卷积、时间卷积网络这些模块要素来构成网络结构,将第一步中的输入送入网络;第三,将网络的输出,配合第一步所使用的编码器进行反向构建时域音频,最终达到语音分离的效果。基于波束成形的多通道语音分离方案这类方案相比于“基于时域端到端的音源分离方案”的核心区别在于,它将传统的信号处理与神经网络方案相融合,在这类方案中,首先,依据多通道的布局来设计波束成形的增强方向;然后,将多通道的输入音频转换到时频域,利用网络很强的空间构建能力将不同方向波束的滤波器信息学得,如不同方向目标语音的存在概率、每一帧不同频点中目标语音的掩码等;第三步,将上述第二步中的滤波器信息应用到传统的BF中,进而达到更好的波束成形效果。基于传统语音技术的语音分离方案这类方案的特点是:传统的语音增强、语音分离技术是提前做好模型的假设,在此基础上进行公式推演,进而得出在给定的麦克风布局下,其相应的语音分离的计算方式。常见的算法如BF、BSS都是在基于预设的模
型假设、统计特征的前提下,对某一类应用场景的公式推演、论证再应用。
[0004]专利技术人发现:在上述提供的技术中由于神经网络中关于特征的编码、解码通常是经验所得,因此单纯依靠网络实现语音分离,会导致在部分场景下的音频,分离不干净或者分离度过高,这样会使得音频质量被破坏,不利于后续的语音唤醒、语音识别。其次由于网络训练需要一定的轮数,因此一旦训练完成,相关的分离效果基本确定,因此也就对应于相关的分离效果较难通过一些参数去调整。另外传统方案基于某类模型假设,如果模型假设过于复杂,可能不存在解析,即无法通过公式的形式来一步步推演从输入到输出的整个过程,受限的模型假设很难适配复杂的车载应用场景。现有的神经网络模型无法灵活地应对不同的应用场景,同时训练难度也大。

技术实现思路

[0005]本专利技术实施例旨在至少解决上述技术问题之一。
[0006]第一方面,本专利技术实施例提供一种神经网络模型的训练方法,包括:采集声场信息,对所述声场信息设计不同音区对应的房间脉冲响应;根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集;基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。
[0007]第二方面,本专利技术实施例提供一种语音交互方法,包括:获取多通道采集的音频数据,将所述音频数据输入至上述方法训练后的神经网络模型,通过所述神经网络模型将所述音频数据进行分离,得到语音数据和属性信息;对所述语音数据和所述属性信息进行传统信号处理,得到不同音区对应的分离音频;将所述不同音区对应的分离音频发送至车载语音交互系统,所述车载语音交互系统根据服务请求进行与所述服务请求对应的操作。
[0008]第三方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术上述任一项神经网络模型的训练方法。
[0009]第四方面,本专利技术实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本专利技术上述任一项神经网络模型的训练方法。
[0010]第五方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项神经网络模型的训练方法。
[0011]本专利技术实施例通过设计不同音区对应的房间脉冲响应来构建用于训练神经网络模型的标签数据集和语音数据集,训练完成的神经网络模型能够灵活地应对不同的应用场景,可实现无人干预的一体化训练、测试系统,可极大地减少人力的投入,进而带来人效比的提升。
附图说明
[0012]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域
普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本专利技术的神经网络模型的训练方法的一实施例的流程图;
[0014]图2为本专利技术的一种语音交互方法的一实施例的流程图;
[0015]图3为本专利技术的一种语音交互方法的前排双音区交互主视示意图;
[0016]图4为本专利技术的一种语音交互方法的前排双音区交互俯视示意图;
[0017]图5为本专利技术的一种语音交互方法的双音区双麦阵列房间脉冲响应设计示意图;
[0018]图6为本专利技术的一种语音交互方法的整体的设计意图;
[0019]图7为本专利技术一实施例提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型的训练方法,包括:采集声场信息,对所述声场信息设计不同音区对应的房间脉冲响应;根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集;基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。2.根据权利要求1所述的方法,其中,所述根据所述声场信息中不同音区对应的脉冲响应构建标签数据集和语音数据集包括:通过单通道无混响语音、主副驾脉冲响应集合以及真实噪声集合来构建所述标签数据集和所述语音数据集。3.根据权利要求1所述的方法,其中,所述神经网络模型包括编码器、循环神经网络和解码器,构建所述神经网络模型包括:利用所述编码器从输入的语音中提取特征信息;利用所述循环神经网络基于提取的所述特征信息构建时间序列上的特征信息;利用所述解码器将时间序列上的特征信息恢复到分离后的语音。4.根据权利要求3所述的方法,其中,所述声场信息包括麦克风3D信息、声源3D信息和车内尺寸3D信息。5.一种语音交互方法,包括:获取多通道采集的音频数据,将所述音频数据输入至根据权利要求1

4中任一项所述的方法训练后的神经网络模型,通过所述神经网络模型将所述音频数据进行分离,得到语音数据和属性信息;对所述语音数据和所述属性信息进行传统信号处理,得到不同音区对应的分离音频;将所述不同音区对应的分离音频发送至车载语音交互系统,所述车载语...

【专利技术属性】
技术研发人员:徐超
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1