一种面向智能车机抗副驾干扰的语音识别方法技术

技术编号:39185443 阅读:41 留言:0更新日期:2023-10-27 08:33
本发明专利技术涉及一种面向智能车机抗副驾干扰的语音识别方法,包括以下步骤:步骤一、将N个麦克风传感器以固定间距d沿水平方向均匀排列在车机中央底部或顶部,N为大于等于2的整数,以此构成多通道语音采集设备;步骤二、将采集到的多通道音频数据经傅里叶变换后逐帧输入训练好的二分类DOA模型,输出结果为“1”或“0”。该面向智能车机抗副驾干扰的语音识别方法,根据主副驾相对车机的大致方位固定,但主驾的精确导向矢量很难获得的实际情况,通过二分类模型分别获得主副驾MASK进而计算出主驾的精确导向矢量,解决基于MASK的波束形成方法很难区分两个人声的问题,从而改善在智能车机这种特定场景下的语音交互问题。定场景下的语音交互问题。定场景下的语音交互问题。

【技术实现步骤摘要】
一种面向智能车机抗副驾干扰的语音识别方法


[0001]本专利技术涉及智能车机
,具体为一种面向智能车机抗副驾干扰的语音识别方法。

技术介绍

[0002]近年来,随着人工智能技术的飞速发展,相关的应用场景也在不断被丰富,其中,新能源汽车的普及,促使汽车行业加速变革,自动驾驶、语音控制等全新体验使得人工智能技术的落地有了完美的载体,语音识别作为智能交互入口,使得驾驶员可以通过语音指令直接操控车机,不仅提升了驾驶体验同时也保障了驾驶安全,当下,消费者为体验智能化和便捷性而选购高端智能电动汽车已成为趋势。
[0003]随着短视频、直播等互动行业兴起,越来越多的类人声干扰使得智能车机无法判断是否主驾司机在下达指令,小则影响驾驶体验,大则影响安全驾驶,除此以外,对主驾司机进行声纹注册也可以解决上述问题,但是声纹模型普遍复杂,注册繁琐,主副驾人同性别时很难准确区分,如何简单有效的对抗副驾干扰仍然是需要解决的问题。

技术实现思路

[0004]针对现有技术的不足,本专利技术提供了一种面向智能车机抗副驾干扰的语音识别方法,具备提升主驾指令识别的准确度和改善在智能车机这种特定场景下的语音交互问题等优点,解决了类人声干扰使得智能车机无法判断是否主驾司机在下达指令,小则影响驾驶体验,大则影响安全驾驶的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种面向智能车机抗副驾干扰的语音识别方法,包括以下步骤:
[0006]步骤一、将N个麦克风传感器以固定间距d沿水平方向均匀排列在车机中央底部或顶部,N为大于等于2的整数,以此构成多通道语音采集设备;
[0007]步骤二、将采集到的多通道音频数据经傅里叶变换后逐帧输入训练好的二分类DOA模型,输出结果为“1”或“0”;
[0008]步骤三、当输出结果为“0”时,获得副驾MASK并实时更新来自副驾的信号协方差矩阵,当输出结果为“1”时,获得主驾MASK,通过输入信号协方差矩阵减去副驾信号协方差矩阵,估计出主驾信号协方差矩阵;
[0009]步骤四、将步骤三中所述主驾信号协方差矩阵进行特征值分解,选择主特征值作为主驾导向矢量的估计;
[0010]步骤五、通过估计的主驾导向矢量与当前更新的副驾信号协方差矩阵来计算波束形成滤波器权重;
[0011]步骤六、完成波束形成后,将改善了副驾干扰后的语音用于智能车机语音识别模块来处理主驾相应指令。
[0012]优选地,所述步骤二中二分类DOA模型模块包括判断当前是否有语音,当判断有语
音输入时,给出主驾(“1”)或副驾(“0”)的分类结果。
[0013]优选地,所述二分类DOA模型基于输入的多通道相位特征分类,所述二分类DOA模型从实际场景出发,进行较粗的二分类。
[0014]优选地,所述二分类DOA模型的输入为经过傅里叶变化后的多通道数据,对该数据求两两的归一化互频谱,再将所有互频谱做傅里叶逆变换后拼接作为特征。
[0015]优选地,所述步骤三中,在DOA模型判断为当前没有人说话的场景时,利用噪声时频掩膜估计出当前纯噪声的概率并实时更新噪声协方差矩阵。
[0016]优选地,所述步骤三中,当输出结果为“1”,即主驾开始说话时,再通过输入信号协方差矩阵减去当前更新的噪声信号协方差矩阵。
[0017]优选地,所述步骤五中计算波束形成权重的方法基于MVDR算法框架,当判断没有来自副驾的干扰声时,所述步骤五通过估计的主驾导向矢量与当前更新的噪声信号协方差矩阵来计算波束形成滤波器权重。
[0018]优选地,所述当前估计的主驾导向矢量不变直到下一次二分类DOA模型输出“1”时更新估计。
[0019]与现有技术相比,本申请的技术方案具备以下有益效果:
[0020]1、本专利技术利用一个DOA二分类的神经网络小模型,辅助计算出主驾精确的导向矢量,从而提升主驾声控体验。
[0021]2、本专利技术在常规降噪基础上可有效抑制来自副驾的类人声干扰,提升主驾指令识别的准确度。
[0022]3、本专利技术根据主副驾相对车机的大致方位固定,但主驾的精确导向矢量很难获得的实际情况,通过二分类模型分别获得主副驾MASK进而计算出主驾的精确导向矢量,解决基于MASK的波束形成方法很难区分两个人声的问题,从而改善在智能车机这种特定场景下的语音交互问题。
附图说明
[0023]图1为本专利技术一种面向智能车机抗副驾干扰的语音识别方法流程图;
[0024]图2为本专利技术中实际应用智能车机语音识别时的示意图;
[0025]图3为本专利技术中DOA二分类的神经网络小模型的网络解构示意图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]请参阅图1

3,本实施例中的一种面向智能车机抗副驾干扰的语音识别方法,包括以下步骤:
[0028]步骤一、将N个麦克风传感器以固定间距d沿水平方向均匀排列在车机中央底部或顶部,N为大于等于2的整数,以此构成多通道语音采集设备。
[0029]步骤二、将采集到的多通道音频数据经傅里叶变换后输入训练好的二分类DOA模
型,输出结果为“1”或“0”。
[0030]步骤中二分类DOA模型模块,包括判断当前是否有语音,当判断有语音输入时,给出主驾(“1”)或副驾(“0”)的分类结果。二分类DOA模型基于输入的多通道相位特征分类,不同于传统的DOA算法需要精细估计出导向矢量从而指导波束形成,二分类DOA模型从实际场景出发,只需进行较粗的二分类,目的是获得准确的副驾MASK,从而通过基于MASK的方法获得精确的主驾导向矢量。因为实际应用中主副驾大致位置是固定的,二分类DOA模型可以简单并有效的解决基于MASK的方法很难区分两个人声的问题。本文的二分类DOA模型的神经网络解构如图3所示。
[0031]步骤三、当输出结果为“0”时,获得副驾MASK并实时更新来自副驾的信号协方差矩阵,当输出结果为“1”时,获得主驾MASK,通过输入信号协方差矩阵减去副驾信号协方差矩阵,从而估计出主驾信号协方差矩阵。
[0032]步骤中,在DOA模型判断为当前没有人说话的场景时,即退化为常规基于MASK的波束形成,利用噪声时频掩膜估计出当前纯噪声的概率并实时更新噪声协方差矩阵。因为语音具有稀疏性,当输出结果为“1”,即主驾开始说话时,再通过输入信号(语音+噪声)协方差矩阵减去当前更新的噪声信号协方差矩阵,从而估计出主驾信号协方差矩阵。即使当主驾开始识别且副驾没有发出干扰声时也可以常规抑制如车噪、路噪等背景噪声。
[0033]步骤四、将步骤三中主驾信号协方差矩阵进行特征值分解,选择主特征值作为主驾导向矢量的估计。...

【技术保护点】

【技术特征摘要】
1.一种面向智能车机抗副驾干扰的语音识别方法,其特征在于:包括以下步骤:步骤一、将N个麦克风传感器以固定间距d沿水平方向均匀排列在车机中央底部或顶部,N为大于等于2的整数,以此构成多通道语音采集设备;步骤二、将采集到的多通道音频数据经傅里叶变换后逐帧输入训练好的二分类DOA模型,输出结果为“1”或“0”;步骤三、当输出结果为“0”时,获得副驾MASK并实时更新来自副驾的信号协方差矩阵,当输出结果为“1”时,获得主驾MASK,通过输入信号协方差矩阵减去副驾信号协方差矩阵,估计出主驾信号协方差矩阵;步骤四、将步骤三中所述主驾信号协方差矩阵进行特征值分解,选择主特征值作为主驾导向矢量的估计;步骤五、通过估计的主驾导向矢量与当前更新的副驾信号协方差矩阵来计算波束形成滤波器权重;步骤六、完成波束形成后,将改善了副驾干扰后的语音用于智能车机语音识别模块来处理主驾相应指令。2.根据权利要求1所述的一种面向智能车机抗副驾干扰的语音识别方法,其特征在于:所述步骤二中二分类DOA模型模块包括判断当前是否有语音,当判断有语音输入时,给出主驾(“1”)或副驾(“0”)的分类结果。3.根据权利要求2所述的一种面向智能车机抗副驾干扰的语音识别方法,其特征在于:所述二分类DOA模型基于输入的多通道...

【专利技术属性】
技术研发人员:明杨赵亚丽缪炜
申请(专利权)人:上海互问信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1