数据处理方法、模型训练方法、关键词检测方法及设备技术

技术编号：37138467 阅读：20 留言：0更新日期：2023-04-06 21:40

本发明专利技术实施例提供了一种数据处理方法、模型训练方法、关键词检测方法及设备。数据处理方法包括：获取多个单通道的第一类音频，第一类音频包括预设关键词；基于多个单通道的第一类音频，生成单通道的第二类音频，第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量；对第二类音频进行多通道的模拟传递操作，获得多通道的目标音频，目标音频包括预设关键词。本实施例提供的技术方案，有效地实现了基于多个单通道的第一类音频模拟成多通道的目标音频，所获得的目标音频能够用于进行关键词检测模型的训练操作，从而保证了训练数据的数量，提高了关键词检测模型的训练质量和效果，进而提高了该方法的实用性。进而提高了该方法的实用性。进而提高了该方法的实用性。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、模型训练方法、关键词检测方法及设备

[0001]本专利技术涉及音频处理
，尤其涉及一种数据处理方法、模型训练方法、关键词检测方法及设备。

技术介绍

[0002]关键词检测（Keyword Spotting,简称KWS）即通常所说的音频唤醒，指的是一系列从实时音频流中检测出若干预定义关键词的技术。随着远讲免提音频交互（distant
‑
talking hands free speech interaction）技术的发展，关键词检测及其配套技术也变得越来越重要。类比于人和人交互时先喊对方的名字一样，关键词就好比智能设备的“名字”，而关键词检测模块则相当于交互流程的触发开关。
[0003]目前，关键词检测方法包括多通道的关键词检测方法，这类算法的基本思想是将多通道信号的特征进行拼接后进行训练，从而获得一个多个通道信号作为输入、单输出的系统。但是，由于多通道的实际数据比较难获取，使得关键词检测模型的训练数据数量有限，进而降低了关键词检测模型的训练质量和效果。

技术实现思路

[0004]本专利技术实施例提供了一种数据处理方法、模型训练方法、关键词检测方法及设备，能够基于多个单通道的第一类音频模拟成多通道的目标音频，所获得的目标音频能够用于进行关键词检测模型的训练操作，从而保证了训练数据的数量，提高了关键词检测模型的训练质量和效果。
[0005]第一方面，本专利技术实施例提供一种数据处理方法，包括：获取多个单通道的第一类音频，所述第一类音频包括预设关键词；基...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取多个单通道的第一类音频，所述第一类音频包括预设关键词；基于多个单通道的第一类音频，生成单通道的第二类音频，所述第一类音频所对应的时长/字符数量小于所述第二类音频所对应的时长/字符数量；对所述第二类音频进行多通道的模拟传递操作，获得多通道的目标音频，所述目标音频包括所述预设关键词。2.根据权利要求1所述的方法，其特征在于，基于多个单通道的第一类音频，生成单通道的第二类音频，包括：在多个单通道的第一类音频中，随机选择多个第一类音频；对所选择的多个第一类音频进行拼接处理，生成所述第二类音频。3.根据权利要求1所述的方法，其特征在于，对所述第二类音频进行多通道的传递模拟操作，获得多通道的目标音频，包括：获取与所述第二类音频相对应的传递函数，所述传递函数用于表示对第二类音频进行传输时所对应的信道特性；对所述传递函数和所述第二类音频进行卷积处理，获得多通道的目标音频。4.根据权利要求1所述的方法，其特征在于，对所述第二类音频进行多通道的模拟传递操作，获得多通道的目标音频，包括：获取干扰信息；分别对所述第二类音频和所述干扰信息进行多通道的模拟传递操作，获得模拟音频和模拟干扰信息；基于所述模拟音频和所述模拟干扰信息，确定多通道的目标音频。5.根据权利要求4所述的方法，其特征在于，对所述第二类音频进行多通道的模拟传递操作，获得模拟音频，包括：获取与所述第二类音频相对应的第一传递函数，所述第一传递函数用于表示对第二类音频进行传输时所对应的信道特性；对所述第一传递函数和所述第二类音频进行卷积处理，获得模拟音频。6.根据权利要求4所述的方法，其特征在于，所述干扰信息包括以下至少之一：点声源干扰音频、回声；对所述干扰信息进行多通道的模拟传递操作，获得模拟干扰信息，包括：获取与所述干扰信息相对应的第二传递函数，所述第二传递函数用于表示对干扰信息进行传输时所对应的信道特性；对所述第二传递函数和所述干扰信息进行卷积处理，获得模拟干扰信息。7.根据权利要求4所述的方法，其特征在于，所述干扰信息还包括环境噪声；对所述干扰信息进行多通道的模拟传递操作，获得模拟干扰信息，包括：获取单通道的环境噪声；对所述环境噪声进行模拟扩散处理，获得模拟环境噪声。8.根据权利要求4所述的方法，其特征在于，基于所述模拟音频和所述模拟干扰信息，确定多通道的目标音频，包括：获取用于限定所述目标音频的预设信噪比；基于所述预设信噪比，确定所述模拟音频和所述模拟干扰信息各自对应的权重信息；
基于...

【专利技术属性】
技术研发人员：纳跃跃，王子腾，付强，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人