数据处理方法、模型训练方法、关键词检测方法及设备技术

技术编号:37138467 阅读:20 留言:0更新日期:2023-04-06 21:40
本发明专利技术实施例提供了一种数据处理方法、模型训练方法、关键词检测方法及设备。数据处理方法包括:获取多个单通道的第一类音频,第一类音频包括预设关键词;基于多个单通道的第一类音频,生成单通道的第二类音频,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量;对第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,目标音频包括预设关键词。本实施例提供的技术方案,有效地实现了基于多个单通道的第一类音频模拟成多通道的目标音频,所获得的目标音频能够用于进行关键词检测模型的训练操作,从而保证了训练数据的数量,提高了关键词检测模型的训练质量和效果,进而提高了该方法的实用性。进而提高了该方法的实用性。进而提高了该方法的实用性。

【技术实现步骤摘要】
数据处理方法、模型训练方法、关键词检测方法及设备


[0001]本专利技术涉及音频处理
,尤其涉及一种数据处理方法、模型训练方法、关键词检测方法及设备。

技术介绍

[0002]关键词检测(Keyword Spotting,简称KWS)即通常所说的音频唤醒,指的是一系列从实时音频流中检测出若干预定义关键词的技术。随着远讲免提音频交互(distant

talking hands free speech interaction)技术的发展,关键词检测及其配套技术也变得越来越重要。类比于人和人交互时先喊对方的名字一样,关键词就好比智能设备的“名字”,而关键词检测模块则相当于交互流程的触发开关。
[0003]目前,关键词检测方法包括多通道的关键词检测方法,这类算法的基本思想是将多通道信号的特征进行拼接后进行训练,从而获得一个多个通道信号作为输入、单输出的系统。但是,由于多通道的实际数据比较难获取,使得关键词检测模型的训练数据数量有限,进而降低了关键词检测模型的训练质量和效果。

技术实现思路

[0004]本专利技术实施例提供了一种数据处理方法、模型训练方法、关键词检测方法及设备,能够基于多个单通道的第一类音频模拟成多通道的目标音频,所获得的目标音频能够用于进行关键词检测模型的训练操作,从而保证了训练数据的数量,提高了关键词检测模型的训练质量和效果。
[0005]第一方面,本专利技术实施例提供一种数据处理方法,包括:获取多个单通道的第一类音频,所述第一类音频包括预设关键词;基于多个单通道的第一类音频,生成单通道的第二类音频,所述第一类音频所对应的时长/字符数量小于所述第二类音频所对应的时长/字符数量;对所述第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,所述目标音频包括所述预设关键词。
[0006]第二方面,本专利技术实施例提供一种数据处理装置,包括:第一获取模块,用于获取多个单通道的第一类音频,所述第一类音频包括预设关键词;第一生成模块,用于基于多个单通道的第一类音频,生成单通道的第二类音频,所述第一类音频所对应的时长/字符数量小于所述第二类音频所对应的时长/字符数量;第一处理模块,用于对所述第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,所述目标音频包括所述预设关键词。
[0007]第三方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面中的数据处理方法。
[0008]第四方面,本专利技术实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的数据处理方法。
[0009]第五方面,本专利技术实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第一方面中的数据处理方法中的步骤。
[0010]第六方面,本专利技术实施例提供了一种模型训练方法,包括:获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;确定与多通道的音频信息相对应的音频特征;基于所述音频特征和所述预设关键词进行模型训练操作,获得关键词检测模型,所述关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,所述关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,所述最大池化单元随机位于任意一个前馈顺序存储网络单元之后,所述前馈顺序存储网络单元用于确定与所述音频特征相对应的表征向量;所述最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
[0011]第七方面,本专利技术实施例提供了一种模型训练装置,包括:第二获取模块,用于获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;第二确定模块,用于确定与多通道的音频信息相对应的音频特征;第二训练模块,用于基于所述音频特征和所述预设关键词进行模型训练操作,获得关键词检测模型,所述关键词检测模型支持对任意数量的通道音频进行关键词检测操作;其中,所述关键词检测模型包括:最大池化单元以及一个或多个前馈顺序存储网络单元,所述最大池化单元随机位于任意一个前馈顺序存储网络单元之后,所述前馈顺序存储网络单元用于确定与所述音频特征相对应的表征向量;所述最大池化单元用于将多通道的表征向量融合为最大数值的单通道表征向量。
[0012]第八方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第六方面中的模型训练方法。
[0013]第九方面,本专利技术实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第六方面中的模型训练方法。
[0014]第十方面,本专利技术实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第六方面中的模型训练方法中的步骤。
[0015]第十一方面,本专利技术实施例提供了一种关键词检测方法,包括:获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;确定与多个通道的音频信息相对应的多通道的表征向量;对多通道的表征向量进行最大池化处理,获得单通道特征;基于所述单通道特征进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果。
[0016]第十二方面,本专利技术实施例提供了一种关键词检测装置,包括:
第三获取模块,用于获取多通道的音频信息,多通道的音频信息中的至少之一包括预设关键词;第三确定模块,用于确定与多个通道的音频信息相对应的多通道的表征向量;第三处理模块,用于对多通道的表征向量进行最大池化处理,获得单通道特征;第三处理模块,还用于基于所述单通道特征进行关键词检测操作,获得与多通道的音频信息相对应的关键词检测结果。
[0017]第十三方面,本专利技术实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十一方面中的关键词检测方法。
[0018]第十四方面,本专利技术实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十一方面中的关键词检测方法。
[0019]第十五方面,本专利技术实施例提供了一种计算机程序产品,包括:计算机程序,当所述计算机程序被电子设备的处理器执行时,使所述处理器执行上述第十一方面中的关键词检测方法中的步骤。
[0020]本实施例提供的数据处理方法、模型训练方法、关键词检测方法及设备,通过获取多个单通道的第一类音频,其中,所获得的第一类音频中包括预设关键词,而后基于多个单通道的第一类音频生成一单通道的第二类音频,需要注意的是,第一类音频所对应的时长/字符数量小于第二类音频所对应的时长/字符数量,即第二类音频相对于第一类音频而言,属于长音频,为了能够生成多通道的第二类音频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取多个单通道的第一类音频,所述第一类音频包括预设关键词;基于多个单通道的第一类音频,生成单通道的第二类音频,所述第一类音频所对应的时长/字符数量小于所述第二类音频所对应的时长/字符数量;对所述第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,所述目标音频包括所述预设关键词。2.根据权利要求1所述的方法,其特征在于,基于多个单通道的第一类音频,生成单通道的第二类音频,包括:在多个单通道的第一类音频中,随机选择多个第一类音频;对所选择的多个第一类音频进行拼接处理,生成所述第二类音频。3.根据权利要求1所述的方法,其特征在于,对所述第二类音频进行多通道的传递模拟操作,获得多通道的目标音频,包括:获取与所述第二类音频相对应的传递函数,所述传递函数用于表示对第二类音频进行传输时所对应的信道特性;对所述传递函数和所述第二类音频进行卷积处理,获得多通道的目标音频。4.根据权利要求1所述的方法,其特征在于,对所述第二类音频进行多通道的模拟传递操作,获得多通道的目标音频,包括:获取干扰信息;分别对所述第二类音频和所述干扰信息进行多通道的模拟传递操作,获得模拟音频和模拟干扰信息;基于所述模拟音频和所述模拟干扰信息,确定多通道的目标音频。5.根据权利要求4所述的方法,其特征在于,对所述第二类音频进行多通道的模拟传递操作,获得模拟音频,包括:获取与所述第二类音频相对应的第一传递函数,所述第一传递函数用于表示对第二类音频进行传输时所对应的信道特性;对所述第一传递函数和所述第二类音频进行卷积处理,获得模拟音频。6.根据权利要求4所述的方法,其特征在于,所述干扰信息包括以下至少之一:点声源干扰音频、回声;对所述干扰信息进行多通道的模拟传递操作,获得模拟干扰信息,包括:获取与所述干扰信息相对应的第二传递函数,所述第二传递函数用于表示对干扰信息进行传输时所对应的信道特性;对所述第二传递函数和所述干扰信息进行卷积处理,获得模拟干扰信息。7.根据权利要求4所述的方法,其特征在于,所述干扰信息还包括环境噪声;对所述干扰信息进行多通道的模拟传递操作,获得模拟干扰信息,包括:获取单通道的环境噪声;对所述环境噪声进行模拟扩散处理,获得模拟环境噪声。8.根据权利要求4所述的方法,其特征在于,基于所述模拟音频和所述模拟干扰信息,确定多通道的目标音频,包括:获取用于限定所述目标音频的预设信噪比;基于所述预设信噪比,确定所述模拟音频和所述模拟干扰信息各自对应的权重信息;
基于...

【专利技术属性】
技术研发人员:纳跃跃王子腾付强
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1