神经网络模型的训练方法及电子设备和存储介质技术

技术编号：38500784 阅读：10 留言：0更新日期：2023-08-15 17:08

本发明专利技术公开一种神经网络模型的训练方法及电子设备和存储介质，其中方法包括：采集声场信息，对所述声场信息设计不同音区对应的房间脉冲响应；根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集；基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。本发明专利技术实施例通过设计不同音区对应的房间脉冲响应来构建用于训练神经网络模型的标签数据集和语音数据集，训练完成的神经网络模型能够灵活地应对不同的应用场景，可实现无人干预的一体化训练、测试系统，可极大地减少人力的投入，进而带来人效比的提升。的提升。的提升。

全部详细技术资料下载

【技术实现步骤摘要】
神经网络模型的训练方法及电子设备和存储介质

[0001]本专利技术属于语音识别
，尤其涉及一种神经网络模型的训练方法及电子设备和存储介质。

技术介绍

[0002]相似的现有技术有基于时域端到端的音源分离方案、基于波束成形的多通道语音分离方案以及基于传统语音技术的语音分离方案。目前基于时域端到端的神经网络方案主要是应用在单通道的语音分离中，这些被分离的语音包含有人声与人声之间的语音分离、有人声与背景噪声(非人声)之间的语音分离、也有特殊音源之间(如乐器声、警报声、开关门声音等)的语音分离。而这些神经网络的结构，基本由卷积神经网络CNN(Convolutional Neural Network)、循环神经网络RNN(Recurrent Neural Networks)模块组成，CNN用于对语音特征的解析与还原，而RNN则用于构建语音在时序上的关系。在多通道语音分离的方案中，常常利用了麦克风阵列相比于单麦在相位上的丰富信息，结合成熟的波束成形技术，实现特定方位的语音增强。而借助于神经网络的技术，将不同空间位置的声源作为标签，将经过波束成形之后的语音作为输入信息，进而开展网络训练。当然，作为标签的音频以及作为输入的音频，其处理方式可以在时域进行，同样也可以在频域进行，两者只是在适配网络模型的时候会产生效果的差异，但整体方案上并没有差别，都是波束成形与神经网络NN(Neural Networks)相结合的方式。传统的语音分离技术，由于其成熟得早以及较NN相对更低的算力，因此在语音交互的产品中被首先落地应用。常见的用于语音...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型的训练方法，包括：采集声场信息，对所述声场信息设计不同音区对应的房间脉冲响应；根据所述声场信息中不同音区对应的房间脉冲响应构建标签数据集和语音数据集；基于所述标签数据集和所述语音数据集对所述神经网络模型进行训练。2.根据权利要求1所述的方法，其中，所述根据所述声场信息中不同音区对应的脉冲响应构建标签数据集和语音数据集包括：通过单通道无混响语音、主副驾脉冲响应集合以及真实噪声集合来构建所述标签数据集和所述语音数据集。3.根据权利要求1所述的方法，其中，所述神经网络模型包括编码器、循环神经网络和解码器，构建所述神经网络模型包括：利用所述编码器从输入的语音中提取特征信息；利用所述循环神经网络基于提取的所述特征信息构建时间序列上的特征信息；利用所述解码器将时间序列上的特征信息恢复到分离后的语音。4.根据权利要求3所述的方法，其中，所述声场信息包括麦克风3D信息、声源3D信息和车内尺寸3D信息。5.一种语音交互方法，包括：获取多通道采集的音频数据，将所述音频数据输入至根据权利要求1
‑
4中任一项所述的方法训练后的神经网络模型，通过所述神经网络模型将所述音频数据进行分离，得到语音数据和属性信息；对所述语音数据和所述属性信息进行传统信号处理，得到不同音区对应的分离音频；将所述不同音区对应的分离音频发送至车载语音交互系统，所述车载语...

【专利技术属性】
技术研发人员：徐超，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人