一种音频数据处理方法、装置及存储介质制造方法及图纸

技术编号:20822523 阅读:16 留言:0更新日期:2019-04-10 06:38
本发明专利技术实施例公开一种音频数据处理方法、装置及存储介质,其中,方法包括:获取环境空间中的多路音频数据,并基于多路音频数据得到语音数据集合,并在多个增强方向上分别生成语音数据集合对应的增强语音信息;将增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向;获取增强语音信息中的语音频谱特征,并在语音频谱特征中获取目标音频方向上的语音频谱特征;基于目标匹配词对目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果。采用本发明专利技术,可以在提高语音控制的准确度的同时,有效地降低误识别率。

【技术实现步骤摘要】
一种音频数据处理方法、装置及存储介质
本专利技术涉及互联网
,尤其涉及一种音频数据处理方法、装置及存储介质。
技术介绍
随着科技的发展,智能语音设备逐渐被普及应用,在智能语音设备的实施过程中,语音命令与智能语音设备之间的语音交互是实现设备智能化的一项重要技术手段。在目前的智能语音设备的语音交互系统,在唤醒语及命令语的拾取过程中,不可避免地会受到外界环境噪音和其他人说话的干扰,如果干扰噪音过强,会严重影响语音交互系统的灵敏性,进而使得在设备唤醒的过程中会存在唤醒失灵或者误唤醒的现象,即无法确保设备唤醒的准确性。
技术实现思路
本专利技术实施例提供一种音频数据处理方法、装置及存储介质,可以在确保语音控制的准确度的同时,有效地降低误识别率。本专利技术实施例一方面提供了一种音频数据处理方法,所述方法包括:获取环境空间中的多路音频数据,并基于所述多路音频数据得到语音数据集合,并在多个增强方向上分别生成所述语音数据集合对应的增强语音信息;将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向;获取所述增强语音信息中的语音频谱特征,并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征;基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果;所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。其中,所述获取环境空间中的多路音频数据,包括:获取终端所处环境空间对应的麦克风阵列;所述麦克风阵列包含多个麦克风,以及各麦克风对应的阵列结构;基于所述各麦克风的阵列结构采集所述环境空间中的音频信号;所述音频信号包含至少一个语音信号;将所述各麦克风采集到的所述至少一个语音信号,分别确定为所述各麦克风对应的一路音频数据;一路音频数据为一个麦克风所采集到的所述至少一个语音信号。其中,所述各麦克风对应的一路音频数据包含第一语音信号和第二语音信号;所述第一语音信号是所述麦克风阵列所采集到的用户发出的声音信号,所述第二语音信号是所述麦克风阵列所采集到的所述终端发出的声音信号;所述基于所述多路音频数据得到语音数据集合,包括:从所述麦克风阵列中的各麦克风中获取目标麦克风,并将所述目标麦克风对应的包含第一语音信号和第二语音信号的音频数据,作为目标音频数据;使用回声消除器消除所述目标音频数据中的第二语音信号,并将消除第二语音信号后的目标音频数据确定为待增强语音数据;当所述麦克风阵列中的每个麦克风均被确定为目标麦克风时,得到与各路音频数据分别对应的待增强语音数据;将各待增强语音数据分别添加到语音数据集合。其中,所述在多个增强方向上分别生成所述语音数据集合对应的增强语音信息,包括:从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向,并基于所述波束形成器增强所述语音数据集合中的第一语音信号,并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据;基于噪声消除器和混响消除器,滤除所述方向性增强数据中所携带的环境噪音,并将滤除环境噪音后的方向性增强数据确定为所述语音数据集合对应的增强语音信息;当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时,得到所述语音数据集合在各增强方向上的增强语音信息。其中,所述语音数据集合中的第一语音信号包含第一用户发出的声音子信号和第二用户发出的声音子信号;所述第一用户为所述目标增强方向上的用户,且所述第二用户为所述多个增强方向中除所述目标增强方向之外的增强方向上的用户;所述基于所述波束形成器增强所述语音数据集合中的第一语音信号,并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据,包括:基于波束形成器,增强所述语音数据集合中所述第一用户发出的声音子信号,并在所述目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据,以输出增强后的第一语音信号;将所述增强后的第一语音信号作为所述目标增强方向上的方向性增强数据。其中,所述将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向,包括:基于第一唤醒检测模型,获取每个增强方向上的增强语音信息中的语音隐藏特征;一个语音隐藏特征为所述第一唤醒检测模型对一个增强语音信息的语音频谱特征进行特征提取处理后所得到的特征;基于目标匹配词对各语音隐藏特征进行语音识别,得到所述第一唤醒检测模型对应的语音识别结果;所述语音识别结果中包含各增强方向对应的语音隐藏特征与目标匹配词之间的匹配度;根据语音识别结果将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向。其中,所述基于目标匹配词对各语音隐藏特征进行语音识别,得到所述第一唤醒检测模型对应的语音识别结果,包括:基于所述第一唤醒检测模型,获取各语音隐藏特征与所述第一唤醒检测模型中多个唤醒特征之间的匹配度;将所述第一唤醒检测模型所得到的匹配度与所述第一唤醒检测模型中多个唤醒特征对应的目标匹配词进行关联,得到所述第一唤醒检测模型对应的语音识别结果。其中,所述每个增强语音信息中的语音频谱特征是由第二唤醒检测模型所提取到的;所述基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果,包括:从所述第一唤醒检测模型中获取所述目标音频方向上的语音隐藏特征;将所述目标音频方向上的语音频谱特征和语音隐藏特征进行拼接,得到拼接向量特征;将所述拼接向量特征输入所述第二唤醒检测模型,并输出所述拼接向量特征与所述第二唤醒检测模型中目标唤醒特征之间的匹配度,并根据所述第二唤醒检测模型所输出的匹配度生成目标验证结果;若所述目标验证结果中的匹配度大于或等于所述目标匹配词对应的匹配阈值,则唤醒终端。其中,所述方法还包括:若所述目标验证结果中的匹配度小于所述目标匹配词对应的匹配阈值,则确定验证失败,并执行所述获取环境空间中的多路音频数据的步骤。本专利技术实施例一方面提供了一种音频数据处理装置,所述音频数据处理装置包括:语音采集模块,用于获取环境空间中的多路音频数据;集合确定模块,用于基于所述多路音频数据得到语音数据集合;语音增强模块,用于在多个增强方向上分别生成所述语音数据集合对应的增强语音信息;音频方向确定模块,用于将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向;频谱获取模块,用于获取所述增强语音信息中的语音频谱特征,并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征;语音验证模块,用于基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果;所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。其中,所述语音采集模块包括:阵列获取单元,用于获取终端所处环境空间对应的麦克风阵列;所述麦克风阵列包含多个麦克风,以及各麦克风对应的阵列结构;信号检测单元,用于基于所述各麦克风的阵列结构采集所述环境空间中的音频信号;所述音频信号包含至少一个语音信号;数据确定单元,将所述各麦克风本文档来自技高网...

【技术保护点】
1.一种音频数据处理方法,其特征在于,包括:获取环境空间中的多路音频数据,并基于所述多路音频数据得到语音数据集合,并在多个增强方向上分别生成所述语音数据集合对应的增强语音信息;将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向;获取所述增强语音信息中的语音频谱特征,并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征;基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果;所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。

【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括:获取环境空间中的多路音频数据,并基于所述多路音频数据得到语音数据集合,并在多个增强方向上分别生成所述语音数据集合对应的增强语音信息;将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向;获取所述增强语音信息中的语音频谱特征,并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征;基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证,得到目标验证结果;所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。2.根据权利要求1所述的方法,其特征在于,所述获取环境空间中的多路音频数据,包括:获取终端所处环境空间对应的麦克风阵列;所述麦克风阵列包含多个麦克风,以及各麦克风对应的阵列结构;基于所述各麦克风的阵列结构采集所述环境空间中的音频信号;所述音频信号包含至少一个语音信号;将所述各麦克风采集到的所述至少一个语音信号,分别确定为所述各麦克风对应的一路音频数据;一路音频数据为一个麦克风所采集到的所述至少一个语音信号。3.根据权利要求2所述的方法,其特征在于,所述各麦克风对应的一路音频数据包含第一语音信号和第二语音信号;所述第一语音信号是所述麦克风阵列所采集到的用户发出的声音信号,所述第二语音信号是所述麦克风阵列所采集到的所述终端发出的声音信号;所述基于所述多路音频数据得到语音数据集合,包括:从所述麦克风阵列中的各麦克风中获取目标麦克风,并将所述目标麦克风对应的包含第一语音信号和第二语音信号的音频数据,作为目标音频数据;使用回声消除器消除所述目标音频数据中的第二语音信号,并将消除第二语音信号后的目标音频数据确定为待增强语音数据;当所述麦克风阵列中的每个麦克风均被确定为目标麦克风时,得到与各路音频数据分别对应的待增强语音数据;将各待增强语音数据分别添加到语音数据集合。4.根据权利要求3所述的方法,其特征在于,所述在多个增强方向上分别生成所述语音数据集合对应的增强语音信息,包括:从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向,并基于所述波束形成器增强所述语音数据集合中的第一语音信号,并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据;基于噪声消除器和混响消除器,滤除所述方向性增强数据中所携带的环境噪音,并将滤除环境噪音后的方向性增强数据确定为所述语音数据集合对应的增强语音信息;当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时,得到所述语音数据集合在各增强方向上的增强语音信息。5.根据权利要求4所述的方法,其特征在于,所述语音数据集合中的第一语音信号包含第一用户发出的声音子信号和第二用户发出的声音子信号;所述第一用户为所述目标增强方向上的用户,且所述第二用户为所述多个增强方向中除所述目标增强方向之外的增强方向上的用户;所述基于所述波束形成器增强所述语音数据集合中的第一语音信号,并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据,包括:基于波束形成器,增强所述语音数据集合中所述第一用户发出的声音子信号,并在所述目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据,以输出增强后的第一语音信号;将所述增强后的第一语音信号作为所述目标增强方向上的方向性增强数据。6.根据权利要求1所述的方法,其特征在于,所述将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配,并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向,包括:基于第一唤醒检测模型,获取每个增强方向上的增强语音信息中的语音隐藏特征;一个语音隐藏特征为所述第一唤醒检测模型对一个增强语音信息的语音频谱特征进行特征提取处理后所得到的特征;基于目标匹配词对各语音隐藏特征进行语音识别,得到所述第一唤醒检测模型对应的语音识别结果;所述语音识别结果中包含各增强方向对应的语音隐藏特征与目标匹配词之间的匹配度;根据语音识别结果将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向,确定为目标音频方向。7.根据权利要求6所述的方法,其特征在于,所述基于目标匹配词对各语音隐藏特征进行语音识别,得到所述第一唤醒检测模型对应的语音识别结果,包括:基于所述第一唤醒检测模型,获取各语音隐藏特征与所述第一唤醒检测模型中多个唤醒特征之间的匹配度;将所述第一唤醒检测模型所得到的匹配度与所述第一唤醒检测模型中多个唤醒特征对应的目标匹配词进行关联,得到所述第一唤醒检测模型对应的语音识别结果。8.根据权利要求7所述的方法,其特征在于,所述增强语音信息中的语音频谱特征是由第二唤醒检测模型所提取到的;所述基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和...

【专利技术属性】
技术研发人员:高毅
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1