音频识别、回声消除方法、装置及设备制造方法及图纸

技术编号:18735739 阅读:34 留言:0更新日期:2018-08-22 04:35
本申请提供一种音频识别、回声消除方法、装置及设备,所述回声消除方法包括:获取音箱数据和麦克风数据;若所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。应用本申请方案可以提高判断麦克风数据的种类准确性,进而提高回声消噪效果。

【技术实现步骤摘要】
音频识别、回声消除方法、装置及设备
本申请涉及语音交互
,尤其涉及音频识别、回声消除方法、装置及设备。
技术介绍
在电话会议系统、车载系统、IP电话等语音交互系统中,经常会出现扬声器播放的声音经过多种路径传播后被麦克风拾取,并传回到系统形成回声现象。以即时通讯为例进行说明,在进行双方或多方的实时语音交流时,通常采用外置音箱放音,当甲方说话后,通过乙方的音箱放音,声音经过信道传播后连同乙方的话音被乙方的麦克风采集并回传给甲方,从而导致甲方能听到自己的声音。如果不对回音进行处理,将会影响通话质量和用户体验,严重时还会形成震荡,产生啸叫。为了避免回声带来的不利影响,可以采用回声消除器(AcousticEchoCanceller,AEC)将本地音箱播放出来的声音从麦克风采集的麦克风数据中消除,使得麦克风录制的声音只有本地用户说话的声音。通常采用自适应滤波器模拟回声路径,并将估计的回声数据从麦克风拾取的麦克风数据中消除。自适应滤波器是以输入数据和输出数据的统计特性的估计为依据,采取特定算法自动地调整滤波器系数,使其达到最佳滤波特性的一种算法。其中,输入数据为音箱播报的音箱数据,可以称为参考信号;输出数据为由音箱数据产生的回音数据,可以称为期望信号。自适应滤波器收敛阶段,回音数据是由音箱数据产生的回音数据,回音数据中不能有用户说话的语音数据,在没有语音数据的阶段中,自适应滤波器的滤波器系数不断迭代收敛,而一旦有用户语音进入,则需要固定滤波器系数,以便利用自适应滤波器进行回声消除。基于此,准确判断麦克风数据的种类,是合理调整滤波器系数的关键。输入数据中包括麦克风数据和音箱数据,麦克风数据基于音箱数据生成。先判断音箱数据是否为空,如果音箱数据为空,则不进行双讲判断和AEC处理,如果音箱数据不为空,则判断麦克风数据的种类为双讲型还是非双讲型。当麦克风数据的种类为双讲型时,固定滤波器系数并对麦克风数据进行回声消除;当麦克风数据的种类为非双讲型时,对滤波器系数进行调整。双讲型数据是同时基于音箱数据和语音数据生成的数据,非双讲型数据是没有同时包括音箱数据和语音数据的数据。现有技术中,在确定是否调整滤波器系数之前,往往基于能量阈值的方式判断麦克风采集的麦克风数据的种类,在存在风噪等噪声的复杂环境下,仅通过阈值的方式判断种类是否为双讲型或非双讲型,判断准确性差,从而导致回声消噪效果差。
技术实现思路
本申请提供音频识别、回声消除方法、装置及设备,以解决现有技术种类判断不准确的问题。根据本申请实施例的第一方面,提供一种回声消除方法,所述方法包括:获取音箱数据和麦克风数据;若所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。根据本申请实施例的第二方面,提供一种音频识别方法,所述方法包括:获取音箱数据和麦克风数据;将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类,所述种类包括双讲型和非双讲型;所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。根据本申请实施例的第三方面,提供一种回声消除装置,所述装置包括:数据获取模块,用于获取音箱数据和麦克风数据;种类判断模块,用于在所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;回声消除模块,用于在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。根据本申请实施例的第四方面,提供一种音频识别装置,所述装置包括:数据获取模块,用于获取音箱数据和麦克风数据;种类判断模块,用于将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类,所述种类包括双讲型和非双讲型;所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。根据本申请实施例的第五方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:获取音箱数据和麦克风数据;若所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。根据本申请实施例的第六方面,提供一种电子设备,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:获取音箱数据和麦克风数据;将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类,所述种类包括双讲型和非双讲型;所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。应用本申请实施例音频识别、回声消除方法、装置及设备时,由于种类判断模型是以不同的输入参数以及分类目标训练生成的模型,因此,在获取到音箱数据和麦克风数据时,可以将音箱数据和麦克风数据输入预先生成的类型判断模块中,并根据判断结果确定麦克风数据的种类,又由于麦克风数据的种类包括双讲型和非双讲型,因此可以准确的判断出麦克风数据属于双讲型数据,还是非双讲型数据。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。图1为回声消除系统的结构示意图。图2A为本申请根据一示例性实施例示出的一种构建种类判断模型的流程图。图2B为本申请根据一示例性实施例示出的一种种类判断模型的拓扑结构示意图。图2C为本申请根据一示例性实施例示出的另一种种类判断模型的拓扑结构示意图。图2D为本申请根据一示例性实施例示出的另一种种类判断模型的拓扑结构示意图。图3为本申请音频识别方法的一个实施例流程图。图4A为本申请回音消除方法的一个实施例流程图。图4B为本申请根据一示例性实施例示出的一种回声消除系统的结构示意图。图4C为本申请根据一示例性实施例示出的另一种回声消除系统的结构示意图。图5为本申请回声消除本文档来自技高网
...

【技术保护点】
1.一种回声消除方法,其特征在于,所述方法包括:获取音箱数据和麦克风数据;若所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。

【技术特征摘要】
1.一种回声消除方法,其特征在于,所述方法包括:获取音箱数据和麦克风数据;若所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。2.根据权利要求1所述的方法,其特征在于,所述分类器为神经网络。3.根据权利要求2所述的方法,其特征在于,所述神经网络的输入参数还包括AEC数据,所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据;所述种类判断模型的输入参数还包括新AEC数据,所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。4.根据权利要求2所述的方法,其特征在于,所述神经网络的输入参数还包括深瓶颈特征,所述深瓶颈特征是对AEC数据进行静音/非静音判断时,提取的用于表征AEC数据的特征数据;所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据;所述种类判断模型的输入数据还包括新深瓶颈特征,所述新深瓶颈特征是对新AEC数据进行静音/非静音判断时,提取的用于表征新AEC数据的特征数据;所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。5.根据权利要求2所述的方法,其特征在于,所述种类判断模型的生成步骤包括:以音箱样本数据、麦克风样本数据作为神经网络的输入参数,并以AEC数据作为神经网络的回归学习目标,预先训练生成降噪网络,所述AEC数据是将输入神经网络的音箱样本数据和麦克风样本数据进行AEC处理后获得的数据;将音箱样本数据和麦克风样本数据输入所述降噪网络,将所述降噪网络的输出结果作为用于分类的神经网络的输入参数,并以所述麦克风样本数据的种类作为用于分类的神经网络的分类目标,联合训练降噪网络和用于分类的神经网络,生成种类判断模型。6.根据权利要求1所述的方法,其特征在于,所述麦克风样本数据基于麦克风采集的回音样本数据、语音样本数据、环境噪声样本数据中至少一种数据生成,所述语音样本数据与所述回音样本数据由麦克风在同一个场景下录制生成;双讲型的麦克风样本数据由回音样本数据、语音样本数据和环境噪声样本数据以不同的信噪比进行线性叠加生成。7.根据权利要求6所述的方法,其特征在于,所述回音样本数据由麦克风直接录制音箱播放音箱样本数据获得;或,所述回音样本数据由冲激响应与音箱样本数据卷积处理生成,所述冲激响应是反演麦克风设备在目标场景下的冲激响应,所述冲激响应包括环境冲激响应和麦克风信道冲激响应。8.根据权利要求6所述的方法,其特征在于,所述语音样本数据由冲激响应与近讲语音数据卷积处理生成,所述冲激响应是反演麦克风设备在目标场景下的冲激响应,所述冲激响应包括环境冲激响应和麦克风信道冲激响应,所述近讲语音数据是近距离采集用户说话声的语音数据。9.一种音频识别方法,其特征在于,所述方法包括:获取音箱数据和麦克风数据;将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类,所述种类包括双讲型和非双讲型;所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。10.一种回声消除装置,其特征在于,所述装置包括:数据获取模块,用于获取音箱数据和麦克风数据;种类判断模块,用于在所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;回声消除模块,用于在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。11.根据...

【专利技术属性】
技术研发人员:薛少飞田彪
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1