双麦语音特征提取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24253117 阅读:36 留言:0更新日期:2020-05-23 00:24
本发明专利技术涉及语音活动检测的技术领域,提供了一种双麦语音特征提取方法、装置、计算机设备和存储介质,其中方法包括:基于双麦克风采集双通道的语音信号;对所述双通道的语音信号进行复相干函数的计算;根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。本发明专利技术中基于复相干函数,采用多种不同的方式计算得到多种不同的VAD特征,并对多个VAD特征进行融合,使得对噪声的适应性增强,而且计算过程简单,有利于降低系统资源占用。

The method, device, computer equipment and storage medium of feature extraction of dual microphone speech

【技术实现步骤摘要】
双麦语音特征提取方法、装置、计算机设备和存储介质
本专利技术涉及语音活动检测的
,特别涉及一种双麦语音特征提取方法、装置、计算机设备和存储介质。
技术介绍
随着智能语音的兴起,利用麦克风阵列技术实现精准语音活动检测成为了当前热门的技术之一,传统的有过零率统计、能量判断、基音检测等检测方法;近年来开始有一些基于深度学习的检测方法,其使用海量数据训练模型来实现噪声语音分类。现有的一些解决方案,比如传统的过零率统计、能量判断、基音检测等方法对不同噪声敏感,在信噪比低时效果较差。基于深度学习模型的方法能实现较好的效果,但是系统消耗资源过大,不利于设备集成。基于阵列的方法需要进行声源方向判断,逻辑复杂不利于不同场景的适配。
技术实现思路
本专利技术的主要目的为提供一种双麦语音特征提取方法、装置、计算机设备和存储介质,旨在克服目前语音活动检测时系统资源消耗大、噪声适应性差的缺陷。为实现上述目的,本专利技术提供了一种双麦语音特征提取方法,包括以下步骤:基于双麦克风采集双通道的语音信号;对所述双通道的语音信号进行复相干函数的计算;根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。进一步地,所述对所述双通道的语音信号进行复相干函数的计算的步骤,包括:对所述双通道的语音信号分别进行分帧、加窗,并进行傅里叶变换得到双通道的频域信号;对所述双通道的频域信号分别进行梅尔滤波,得到双通道的梅尔频域信号;对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度;根据所述自谱密度以及互谱密度,计算所述复相干函数。进一步地,所述自谱密度的计算公式为:;所述互谱密度的计算公式为:;其中,、分别为双麦克风在帧、k频率点处的Mel短时谱,表示功率谱密度函数,为平滑系数;所述复相干函数的计算公式为:。进一步地,所述VAD特征包括三个,分别为第一VAD特征、第二VAD特征以及第三VAD特征。进一步地,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:计算所述复相干函数的相位值,并计算所述相位的方差;对所述方差进行归一化处理,得到所述第一VAD特征。进一步地,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:基于所述复相干函数,计算波达方向无关的CDR无偏估计值;对所述波达方向无关的CDR无偏估计值进行频域加权求和,并进行归一化处理,得到所述第二VAD特征。进一步地,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:基于所述复相干函数、自谱密度以及互谱密度,计算噪声功率谱;根据所述噪声功率谱以及任一通道的梅尔频域信号,计算当前帧的后验信噪比;根据当前帧的后验信噪比和上一帧的语音存在概率,得到当前帧的先验信噪比;根据所述当前帧的先验信噪比,计算得到语音存在概率;对所述语音存在概率进行频域加权求和,并进行归一化处理,得到第三VAD特征。进一步地,所述对得到的多种VAD特征进行加权求和计算,得到目标VAD特征的步骤之后,包括:将所述目标VAD特征与预设阈值进行对比,根据对比结果,输出对应的VAD标签。本专利技术还提供了一种双麦语音特征提取装置,包括:采集单元,用于基于双麦克风采集双通道的语音信号;第一计算单元,用于对所述双通道的语音信号进行复相干函数的计算;第二计算单元,用于根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;第三计算单元,用于对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。本专利技术提供的双麦语音特征提取方法、装置、计算机设备和存储介质,包括:基于双麦克风采集双通道的语音信号;对所述双通道的语音信号进行复相干函数的计算;根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。本专利技术中基于复相干函数,采用多种不同的方式计算得到多种不同的VAD特征,并对多个VAD特征进行融合,使得对噪声的适应性增强,而且计算过程简单,有利于降低系统资源占用。附图说明图1是本专利技术一实施例中双麦语音特征提取方法步骤示意图;图2是本专利技术一实施例中步骤S2的具体步骤示意图;图3是本专利技术一实施例中双麦语音特征提取装置结构框图;图4为本专利技术一实施例的计算机设备的结构示意框图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。参照图1,本专利技术一实施例中提供了一种双麦语音特征提取方法,包括以下步骤:步骤S1,基于双麦克风采集双通道的语音信号;步骤S2,对所述双通道的语音信号进行复相干函数的计算;步骤S3,根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;步骤S4,对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。在本实施例中,基于双麦克风结构,该双麦克风采集音频时,通过双通道分别采集语音信号。上述双麦克风结构的体积小,设计方便,硬件成本低。由于上述双麦克风分别采集对应通道的语音信息,因此,可以根据两个通道的语音信号进行复相干函数的计算。上述复相干函数指的是上述两个通道中的语音信号之间的相干关系。在本实施例中,计算得到上述复相干函数之后,采用多种不同的预设方式分别计算得到对应的VAD(VoiceActivityDetection,语音活动检测)特征;利用复相干函数导出各个VAD特征,计算量小,对象系统资源的消耗低,方便部署到嵌入式移动设备中。进而,对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。由于不同方式所计算得到VAD特征具有不同的特点,将其进行加权求和计算以便进行特征融合,以便最终得到的目标VAD特征中携带有各个VAD特征的特性,从而使得其可以对不同信噪比的噪声敏感,提升语音活动检测的检测效果。在本实施例中,将上述双麦结构及上述双麦语音特征提取方法应用于录音笔、翻译机、智能音箱、智能电视等产品上,本文档来自技高网...

【技术保护点】
1.一种双麦语音特征提取方法,其特征在于,包括以下步骤:/n基于双麦克风采集双通道的语音信号;/n对所述双通道的语音信号进行复相干函数的计算;/n根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;/n对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。/n

【技术特征摘要】
1.一种双麦语音特征提取方法,其特征在于,包括以下步骤:
基于双麦克风采集双通道的语音信号;
对所述双通道的语音信号进行复相干函数的计算;
根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征;
对得到的多种VAD特征进行加权求和计算,得到目标VAD特征。


2.根据权利要求1所述的双麦语音特征提取方法,其特征在于,所述对所述双通道的语音信号进行复相干函数的计算的步骤,包括:
对所述双通道的语音信号分别进行分帧、加窗,并进行傅里叶变换得到双通道的频域信号;
对所述双通道的频域信号分别进行梅尔滤波,得到双通道的梅尔频域信号;
对所述双通道的梅尔频域信号分别进行一阶递归平滑计算得到双通道分别对应的自谱密度以及互谱密度;
根据所述自谱密度以及互谱密度,计算所述复相干函数。


3.根据权利要求2所述的双麦语音特征提取方法,其特征在于,所述自谱密度的计算公式为:


所述互谱密度的计算公式为:


其中,、分别为双麦克风在帧、k频率点处的Mel短时谱,表示功率谱密度函数,为平滑系数;
所述复相干函数的计算公式为:




4.根据权利要求2所述的双麦语音特征提取方法,其特征在于,所述VAD特征包括三个,分别为第一VAD特征、第二VAD特征以及第三VAD特征。


5.根据权利要求4所述的双麦语音特征提取方法,其特征在于,所述根据所述复相干函数,采用多种不同的预设方式分别计算得到对应的VAD特征的步骤,至少包括:
计算所述复相干函数的相位值,并计算所述相位的方差;
对所述方差进行归一化处理,得到所述第一VAD特征。


6.根...

【专利技术属性】
技术研发人员:王维王广新杨汉丹
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1