一种双麦克风下的定向拾音方法及相关装置制造方法及图纸

技术编号:26175269 阅读:39 留言:0更新日期:2020-10-31 14:07
本申请提供了一种双麦克风下的定向拾音方法及相关装置,其中,方法包括:依据双麦克风的采样语音信号,确定预设的字典矩阵中用于代表待拾音方向的原子为目标原子,基于字典矩阵中的目标原子,构建频域滤波器,以拾取采样语音信号中待拾音方向的语音信号。由于频域滤波器反映的是采样语音信号中待拾音方向的语音的频率分布,因此,依据频域滤波器对采样语音信号滤波得到的语音信号是待拾音方向的语音信号,即滤波得到的语音信号不包含其他方向的语音信号,进而,本申请提供的方案实现的定向拾音的抗干扰能力得到提高。

【技术实现步骤摘要】
一种双麦克风下的定向拾音方法及相关装置
本申请涉及语音识别领域,尤其涉及一种双麦克风下的定向拾音方法及相关装置。
技术介绍
随着语音交互技术的发展,传统的仅支持主驾声源的语音识别系统已经不能满足需求。目前需要同时支持主副驾声源的语音识别的功能,即需要能够拾取主驾声源和副驾声源的语音识别系统。由于车载场景中,语音识别通常会受到路噪、风噪、胎噪等环境噪声以及音乐、人声等干扰的影响,造成语音识别效果的严重下降。因此,针对双麦克风的车载场景下的定向拾音,在车内多人同时说话时,需要分离出主副驾声源,同时抑制后排乘客的干扰,以便语音识别系统依据拾取的主副驾声源,准确识别主副驾声源包含的指令。对于双麦克风的车载场景下的定向拾音,传统的拾音方法为波束形成方法,例如,最小方差无失真响应波束形成、线形约束最小方差波束形成,以及广义旁瓣抑制等。但是,传统的拾音方法应用于车内双麦克风的车载场景下,存在抗干扰能力差的问题,即拾取的主副驾声源中残留有较多的干扰语音、音乐等噪声等。
技术实现思路
本申请提供了一种双麦克风下的定向拾音方法及相关装置,目的在于解决传统的波束形成方法拾取主副驾声源的抗干扰能力差的问题。为了实现上述目的,本申请提供了以下技术方案:本申请提供了一种双麦克风下的定向拾音方法,包括:依据双麦克风的采样语音信号的频域信号,计算预设的字典矩阵的各个原子的时延;所述各个原子的时延表示所述采样语音信号下该原子表示的预设语音成分到达双麦克风的时间差;将所述字典矩阵的原子中,时延与待拾音方向的语音的时延间的差值属于预设的拾音波束范围的原子,作为目标原子;分别计算所述字典矩阵的各个频率下目标原子的频率幅度值之和与该频率下全部原子的频率幅度值之和的比值,将各个频率与对应的比值组成于表征所述语音信号中,所述待拾音方向的语音的频率分布的频域滤波器依据所述频域信号和所述频域滤波器,确定所述采样语音信号中所述待拾音方向的语音信号。可选的,所述依据所述频域信号和所述频域滤波器,确定所述采样语音信号中所述待拾音方向的语音信号,包括:采用所述频域滤波器对所述频域信号进行滤波,得到滤波后的频域信号;对所述滤波后的频域信号分别进行时频逆变换,得到所述采样语音信号中所述待拾音方向的语音信号。可选的,所述频域信号包括:第一频域信号和第二频域信号;所述依据双麦克风的采样语音信号的频域信号,计算预设的字典矩阵的各个原子的时延,包括:依据所述第一频域信号和所述第二频域信号,计算每个原子的时延函数;其中,f表示频率,d表示原子,Wfd表示所述字典矩阵;d表示时延;Xlf与Xrf分别表示第一频域信号和第二频域信号;Fdτ表示计算得到的原子的时延函数;分别针对每个原子的时延函数,将时延函数的取极大值情况下的时延,作为原子的时延,得到所述字典矩阵的各个原子的时延。可选的,所述分别计算所述字典矩阵中的各个频率下目标原子的频率幅度值之和与该频率下全部原子的频率幅度值之和的比值,将各个频率与对应的比值组成用于表征所述采样语音信号中,所述待拾音方向的语音的频率分布的频域滤波器,包括:如果所述字典矩阵的原子的时延与所述待拾音方向的语音的时延之间的差值的绝对值小于预设阈值,则原子的二值取值为1,否则二值取值为0;分别计算所述字典矩阵的各个频率下全部原子的频率幅度值与对应二值取值的加权和,与,该频率下全部原子的频率幅度值之和的比值;将各个频率与对应的比值,组成用于表征所述采样语音信号中,所述待拾音方向的语音的频率分布的频域滤波器。可选的,所述预设的字典矩阵的生成过程,包括:将双麦克风分别对应的预设训练数据,分别进行时频变换并取绝对值,得到两个非负的幅度谱矩阵;通过非负矩阵分解算法,将所述幅度谱矩阵分解为目标字典矩阵和系数矩阵;依据预设的目标函数,迭代更新目标字典矩阵和系数矩阵,直至将在所述目标函数收敛的情况下得到的目标字典矩阵作为所述预设的字典矩阵。本申请还提供了一种双麦克风下的定向拾音装置,包括:第一计算模块,用于依据双麦克风的采样语音信号的频域信号,计算预设的字典矩阵中各个原子的时延;所述各个原子的时延表示所述采样语音信号下该原子表示的预设语音成分到达双麦克风的时间差;第一确定模块,用于将所述字典矩阵的原子中,时延与待拾音方向的语音的时延间的差值属于预设的拾音波束范围的原子,作为目标原子;第二计算模块,用于分别计算所述字典矩阵各个频率下目标原子的频率幅度值之和与该频率下全部原子的频率幅度值之和的比值,将各个频率与对应的比值组成用于表征所述语音信号中,所述待拾音方向的语音的频率分布的频域滤波器;第二确定模块,用于依据所述频域信号和所述频域滤波器,确定所述采样语音信号中所述待拾音方向的语音信号。可选的,所述第二确定模块,用于依据所述频域信号和所述频域滤波器,确定所述采样语音信号中所述待拾音方向的语音信号,包括:所述第二确定模块,具体用于采用所述频域滤波器对所述频域信号进行滤波,得到滤波后的频域信号;对所述滤波后的频域信号分别进行时频逆变换,得到所述采样语音信号中所述待拾音方向的语音信号。可选的,所述频域信号包括:第一频域信号和第二频域信号;所述第一计算模块,用于依据双麦克风的采样语音信号的频域信号,计算预设的字典矩阵中各个原子的时延,包括:所述第一计算模块,具体用于依据所述第一频域信号和所述第二频域信号,计算每个原子的时延函数;其中,f表示频率,d表示原子,Wfd表示所述字典矩阵;d表示时延;Xlf与Xrf分别表示第一频域信号和第二频域信号;Fdτ表示计算得到的原子的时延函数;分别针对每个原子的时延函数,将时延函数的取极大值情况下的时延,作为原子的时延,得到所述字典矩阵的各个原子的时延。可选的,所述第二计算模块,用于分别计算所述字典矩阵中的各个频率下目标原子的频率幅度值之和与该频率下全部原子的频率幅度值之和的比值,将各个频率与对应的比值组成用于表征所述采样语音信号中,所述待拾音方向的语音的频率分布的频域滤波器,包括:所述第二计算模块,具体用于如果所述字典矩阵的原子的时延与所述待拾音方向的语音的时延之间的差值的绝对值小于预设阈值,则原子的二值取值为1,否则二值取值为0;分别计算所述字典矩阵的各个频率下全部原子的频率幅度值与对应二值取值的加权和,与,该频率下全部原子的频率幅度值之和的比值,将各个频率与对应的比值,组成用于表征所述采样语音信号中,所述待拾音方向的语音的频率分布的频域滤波器。本申请还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一种所述的双麦克风下的定向拾音方法。本申请所述的双麦克风下的定向拾音方法及相关装置,依据双麦克风的采样语音信号的频域信号,计算预设的字典矩阵的各个原子的时延;其中,计算得到的各个原子的时延表示采样语音信号下该原子表示的预设语音成分到达双麦克风的时本文档来自技高网...

【技术保护点】
1.一种双麦克风下的定向拾音方法,其特征在于,包括:/n依据双麦克风的采样语音信号的频域信号,计算预设的字典矩阵的各个原子的时延;所述各个原子的时延表示所述采样语音信号下该原子表示的预设语音成分到达双麦克风的时间差;/n将所述字典矩阵的原子中,时延与待拾音方向的语音的时延间的差值属于预设的拾音波束范围的原子,作为目标原子;/n分别计算所述字典矩阵的各个频率下目标原子的频率幅度值之和与该频率下全部原子的频率幅度值之和的比值,将各个频率与对应的比值组成用于表征所述采样语音信号中,所述待拾音方向的语音的频率分布的频域滤波器;/n依据所述频域信号和所述频域滤波器,确定所述采样语音信号中所述待拾音方向的语音信号。/n

【技术特征摘要】
1.一种双麦克风下的定向拾音方法,其特征在于,包括:
依据双麦克风的采样语音信号的频域信号,计算预设的字典矩阵的各个原子的时延;所述各个原子的时延表示所述采样语音信号下该原子表示的预设语音成分到达双麦克风的时间差;
将所述字典矩阵的原子中,时延与待拾音方向的语音的时延间的差值属于预设的拾音波束范围的原子,作为目标原子;
分别计算所述字典矩阵的各个频率下目标原子的频率幅度值之和与该频率下全部原子的频率幅度值之和的比值,将各个频率与对应的比值组成用于表征所述采样语音信号中,所述待拾音方向的语音的频率分布的频域滤波器;
依据所述频域信号和所述频域滤波器,确定所述采样语音信号中所述待拾音方向的语音信号。


2.根据权利要求1所述的方法,其特征在于,所述依据所述频域信号和所述频域滤波器,确定所述采样语音信号中所述待拾音方向的语音信号,包括:
采用所述频域滤波器对所述频域信号进行滤波,得到滤波后的频域信号;
对所述滤波后的频域信号分别进行时频逆变换,得到所述采样语音信号中所述待拾音方向的语音信号。


3.根据权利要求1所述的方法,其特征在于,所述频域信号包括:第一频域信号和第二频域信号;
所述依据双麦克风的采样语音信号的频域信号,计算预设的字典矩阵的各个原子的时延,包括:
依据所述第一频域信号和所述第二频域信号,计算每个原子的时延函数;其中,f表示频率,d表示原子,Wfd表示所述字典矩阵;d表示时延;Xlf与Xrf分别表示第一频域信号和第二频域信号;Fdτ表示计算得到的原子的时延函数;
分别针对每个原子的时延函数,将时延函数的取极大值情况下的时延,作为原子的时延,得到所述字典矩阵的各个原子的时延。


4.根据权利要求1所述的方法,其特征在于,所述分别计算所述字典矩阵中的各个频率下目标原子的频率幅度值之和与该频率下全部原子的频率幅度值之和的比值,将各个频率与对应的比值组成用于表征所述采样语音信号中,所述待拾音方向的语音的频率分布的频域滤波器,包括:
如果所述字典矩阵的原子的时延与所述待拾音方向的语音的时延之间的差值的绝对值小于预设阈值,则原子的二值取值为1,否则二值取值为0;
分别计算所述字典矩阵的各个频率下全部原子的频率幅度值与对应二值取值的加权和,与,该频率下全部原子的频率幅度值之和的比值;
将各个频率与对应的比值,组成用于表征所述采样语音信号中,所述待拾音方向的语音的频率分布的频域滤波器。


5.根据权利要求1所述的方法,其特征在于,所述预设的字典矩阵的生成过程,包括:
将双麦克风分别对应的预设训练数据,分别进行时频变换并取绝对值,得到两个非负的幅度谱矩阵;
通过非负矩阵分解算法,将所述幅度谱矩阵分解为目标字典矩阵和系数矩阵;
依据预设的目标函数,迭代更新目标字典矩阵和系数矩阵,直至将在所述目标函数收敛的情况下得到的目标字典矩阵作...

【专利技术属性】
技术研发人员:郭颖金忠孝
申请(专利权)人:上海汽车集团股份有限公司上海汽车工业集团总公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1