一种语音交互中多路语音的白化方法及其装置制造方法及图纸

技术编号:25443440 阅读:28 留言:0更新日期:2020-08-28 22:30
本发明专利技术提供了一种语音交互中多路语音的白化方法及其装置,包括:将输入多路语音数据转换到频域,获取语音频域数据;将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵;重复迭代执行上述步骤,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。

【技术实现步骤摘要】
一种语音交互中多路语音的白化方法及其装置
本专利技术涉及语音交互
,特别涉及一种语音交互中多路语音的白化方法及其装置。
技术介绍
目前,在语音交互中,通常需要先唤醒设备,唤醒设备后通过唤醒词对应的语音数据可以计算出空间滤波器系数,对后继信号做空域滤波可提高语音质量,提高语音交互成功率。多通道信号可以通过计算信号、噪声协方差阵估计空间滤波器,但信号和噪声通常是混叠的,需要通过估计方法估计时频点归属,通过白化处理,可以增强不同方向信号的可分性,从而提高信号、噪声协方差计算准确性,提高空间滤波器性能。白化通常做法是拿到足够的信号、噪声数据,全局处理,往往数据越多白化矩阵越稳定,效果越好,但这种做法最大的缺点是延迟较大,瞬间计算量大,且需缓存大量数据,工程应用并不方便。
技术实现思路
本专利技术提供一种语音交互中多路语音的白化方法及其装置,用以解决白化累积数据多,计算量大,造成延迟的情况。一种语音交互中多路语音的白化方法,其特征在于,包括:步骤1:将输入多路语音数据转换到频域,获取语音频域数据;步骤2:将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;步骤3:继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对缓存的语音频域数据进行白化处理;步骤4:重复迭代执行步骤1至步骤3,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。作为本专利技术的一种实施例:所述将输入多路语音数据转换到频域,获取语音频域数据,包括:通过所述唤醒设备采集所述多路语音;将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。作为本专利技术的一种实施例所述使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,包括:获取缓存的时间数据T1;按照下式(1)计算频带协方差矩阵:其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yHf,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。作为本专利技术的一种实施例:所述当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,包括:基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;其中,所述表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,所述U对应Y-1f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。作为本专利技术的一种实施例:所述当检测到所述唤醒设备处于唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据,包括:步骤10:获取唤醒设备的实际状态特征;步骤11:根据所述实际状态特征与预设的状态参数进行匹配,获取匹配结果;步骤12:根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一;步骤13:当所述唤醒设备处于休眠状态,转换为监测模式,持续监测所述唤醒设备的状态特征,并重复步骤10和步骤11;当所述唤醒设备处于唤醒状态,用最后一次迭代获得的白化矩阵处理剩余的白化数据。一种语音交互中多路语音的白化装置,其特征在于,包括:第一获取模块:用于将输入多路语音数据转换到频域,获取语音频域数据;第一处理模块:用于将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;第二处理模块:用于继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对缓存的语音频域数据进行白化处理;第三处理模块:用于重复迭代上述模块的执行操作,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。作为本专利技术的一种实施例,所述第一获取模块包括:第一采集单元:用于通过所述唤醒设备采集所述多路语音;第一确定单元:用于将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。作为本专利技术的一种实施例,所述第一处理单元包括:第一获取单元:用于获取缓存的时间数据T1;第一处理单元:用于按照下式(1)计算频带协方差矩阵:其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yHf,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。作为本专利技术的一种实施例,所述第二处理模块包括:第二处理单元:用于基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;其中,所述表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,所述U对应Y-1f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。步骤10:获取唤醒设备的实际状态特征;步骤11:根据所述实际状态特征与预设的状态参数进行匹配,获取匹配结果;步骤12:根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一;步骤13:当所述唤醒设备处于休眠状态,转换为监测模式,持续监测所述唤醒设备的状态特征,并重复步骤10和步骤11;当所述唤醒设备处于唤醒状态,用最后一次迭代获得的白化矩阵处理剩余的白化数据。本专利技术的有益效果在于:本专利通过不断迭代更新的方式求解白化矩阵,避免了最后一次性估计白化矩阵,解决了瞬态计算峰值问题,并且包含了累积的数据信息,相比全局求解方法保持了良好的性能。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例中一种语音交互中多路语音的白化方法的方法流程图;图2为本专利技术实施例中一种语音交互中多路语音的白化本文档来自技高网...

【技术保护点】
1.一种语音交互中多路语音的白化方法,其特征在于,包括:/n步骤1:将输入唤醒设备的多路语音数据转换到频域,获取语音频域数据;/n步骤2:将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;/n步骤3:继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对新缓存的语音频域数据进行白化处理;/n步骤4:重复迭代执行步骤1至步骤3,当检测到所述唤醒设备处于唤醒状态时,使用最后一次迭代获得的白化矩阵对剩余数据进行白化处理。/n

【技术特征摘要】
1.一种语音交互中多路语音的白化方法,其特征在于,包括:
步骤1:将输入唤醒设备的多路语音数据转换到频域,获取语音频域数据;
步骤2:将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;
步骤3:继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对新缓存的语音频域数据进行白化处理;
步骤4:重复迭代执行步骤1至步骤3,当检测到所述唤醒设备处于唤醒状态时,使用最后一次迭代获得的白化矩阵对剩余数据进行白化处理。


2.根据权利要求1所述的一种语音交互中多路语音的白化方法,其特征在于,所述将输入唤醒设备的多路语音数据转换到频域,获取语音频域数据,包括:
通过所述唤醒设备采集所述多路语音;
将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。


3.根据权利要求1所述的一种语音交互中多路语音的白化方法,其特征在于,所述使用所缓存的T1时长对应的语音频域数据计算各频带的协方差矩阵,包括:
获取缓存的时间数据T1;
按照下式(1)计算频带协方差矩阵:



其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yHf,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。


4.根据权利要求1所述的一种语音交互中多路语音的白化方法,其特征在于,所述继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对缓存的语音频域数据进行白化处理,包括:
基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;



其中,所述表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;
根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,
所述U对应Y-1f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。


5.根据权利要求1所述的一种语音交互中多路语音的白化方法,其特征在于,所述当检测到所述唤醒设备处于唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据,包括:
步骤10:获取唤醒设备的实际状态特征;
步骤11:根据所述实际状态特征与预设的状态参数进行匹配,获取匹配结果;
步骤12:根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一;
步骤13:当所述唤醒设备处于休眠状态,转换为监测模式,持续监测所述唤醒设备的状态特征,并重复步...

【专利技术属性】
技术研发人员:关海欣
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1