【技术实现步骤摘要】
音频识别、回声消除方法、装置及设备
本申请涉及语音交互
,尤其涉及音频识别、回声消除方法、装置及设备。
技术介绍
在电话会议系统、车载系统、IP电话等语音交互系统中,经常会出现扬声器播放的声音经过多种路径传播后被麦克风拾取,并传回到系统形成回声现象。以即时通讯为例进行说明,在进行双方或多方的实时语音交流时,通常采用外置音箱放音,当甲方说话后,通过乙方的音箱放音,声音经过信道传播后连同乙方的话音被乙方的麦克风采集并回传给甲方,从而导致甲方能听到自己的声音。如果不对回音进行处理,将会影响通话质量和用户体验,严重时还会形成震荡,产生啸叫。为了避免回声带来的不利影响,可以采用回声消除器(AcousticEchoCanceller,AEC)将本地音箱播放出来的声音从麦克风采集的麦克风数据中消除,使得麦克风录制的声音只有本地用户说话的声音。通常采用自适应滤波器模拟回声路径,并将估计的回声数据从麦克风拾取的麦克风数据中消除。自适应滤波器是以输入数据和输出数据的统计特性的估计为依据,采取特定算法自动地调整滤波器系数,使其达到最佳滤波特性的一种算法。其中,输入数据为音箱播报的音箱数据,可以称为参考信号;输出数据为由音箱数据产生的回音数据,可以称为期望信号。自适应滤波器收敛阶段,回音数据是由音箱数据产生的回音数据,回音数据中不能有用户说话的语音数据,在没有语音数据的阶段中,自适应滤波器的滤波器系数不断迭代收敛,而一旦有用户语音进入,则需要固定滤波器系数,以便利用自适应滤波器进行回声消除。基于此,准确判断麦克风数据的种类,是合理调整滤波器系数的关键。输入数据中包括麦克风数 ...
【技术保护点】
1.一种回声消除方法,其特征在于,所述方法包括:获取音箱数据和麦克风数据;若所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。
【技术特征摘要】
1.一种回声消除方法,其特征在于,所述方法包括:获取音箱数据和麦克风数据;若所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。2.根据权利要求1所述的方法,其特征在于,所述分类器为神经网络。3.根据权利要求2所述的方法,其特征在于,所述神经网络的输入参数还包括AEC数据,所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据;所述种类判断模型的输入参数还包括新AEC数据,所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。4.根据权利要求2所述的方法,其特征在于,所述神经网络的输入参数还包括深瓶颈特征,所述深瓶颈特征是对AEC数据进行静音/非静音判断时,提取的用于表征AEC数据的特征数据;所述AEC数据是上一次输入神经网络的音箱样本数据和麦克风样本数据经过AEC处理后获得的数据;所述种类判断模型的输入数据还包括新深瓶颈特征,所述新深瓶颈特征是对新AEC数据进行静音/非静音判断时,提取的用于表征新AEC数据的特征数据;所述新AEC数据是上一次输入种类判断模型的音箱数据和麦克风数据经过AEC处理后获得的数据。5.根据权利要求2所述的方法,其特征在于,所述种类判断模型的生成步骤包括:以音箱样本数据、麦克风样本数据作为神经网络的输入参数,并以AEC数据作为神经网络的回归学习目标,预先训练生成降噪网络,所述AEC数据是将输入神经网络的音箱样本数据和麦克风样本数据进行AEC处理后获得的数据;将音箱样本数据和麦克风样本数据输入所述降噪网络,将所述降噪网络的输出结果作为用于分类的神经网络的输入参数,并以所述麦克风样本数据的种类作为用于分类的神经网络的分类目标,联合训练降噪网络和用于分类的神经网络,生成种类判断模型。6.根据权利要求1所述的方法,其特征在于,所述麦克风样本数据基于麦克风采集的回音样本数据、语音样本数据、环境噪声样本数据中至少一种数据生成,所述语音样本数据与所述回音样本数据由麦克风在同一个场景下录制生成;双讲型的麦克风样本数据由回音样本数据、语音样本数据和环境噪声样本数据以不同的信噪比进行线性叠加生成。7.根据权利要求6所述的方法,其特征在于,所述回音样本数据由麦克风直接录制音箱播放音箱样本数据获得;或,所述回音样本数据由冲激响应与音箱样本数据卷积处理生成,所述冲激响应是反演麦克风设备在目标场景下的冲激响应,所述冲激响应包括环境冲激响应和麦克风信道冲激响应。8.根据权利要求6所述的方法,其特征在于,所述语音样本数据由冲激响应与近讲语音数据卷积处理生成,所述冲激响应是反演麦克风设备在目标场景下的冲激响应,所述冲激响应包括环境冲激响应和麦克风信道冲激响应,所述近讲语音数据是近距离采集用户说话声的语音数据。9.一种音频识别方法,其特征在于,所述方法包括:获取音箱数据和麦克风数据;将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类,所述种类包括双讲型和非双讲型;所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。10.一种回声消除装置,其特征在于,所述装置包括:数据获取模块,用于获取音箱数据和麦克风数据;种类判断模块,用于在所述音箱数据不为空时,将所述音箱数据和所述麦克风数据输入预先生成的种类判断模型,根据判断结果确定所述麦克风数据的种类;回声消除模块,用于在种类为非双讲型时,调整滤波器系数;在种类为双讲型时,固定滤波器系数,并对所述麦克风数据进行回声消除;其中,所述种类判断模型以音箱样本数据、麦克风样本数据作为分类器的输入参数,并以麦克风样本数据的种类作为分类器的分类目标训练生成,所述麦克风样本数据基于音箱样本数据生成。11.根据...
【专利技术属性】
技术研发人员:薛少飞,田彪,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。