目标语音检测方法及装置制造方法及图纸

技术编号:17443124 阅读:25 留言:0更新日期:2018-03-10 16:10
本发明专利技术公开了一种目标语音检测方法及装置,该方法包括:接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;根据所述模型输出结果得到当前帧对应的目标语音的检测结果。利用本发明专利技术,可以提高检测结果的准确性。

【技术实现步骤摘要】
目标语音检测方法及装置
本专利技术涉及语音信号处理领域,具体涉及一种目标语音检测方法及装置。
技术介绍
语音作为最自然、方便快捷的交互方式之一,已在人们的日常生活和工作中得到了广泛的应用。语音信号的处理,如语音编码、降噪等,也一直是相关领域研究人员研究的热点。以语音降噪为例,目标语音检测作为降噪中最重要的步骤之一,其检测的准确性直接影响降噪的效果,如果目标语音检测不准确,在降噪过程中有效语音会失真较严重,因而目标语音的准确检测有着重要的意义。现有的目标语音检测方法主要有以下两大类:1、基于强度差的目标语音检测比如,先对主麦克风信号做降噪,然后利用降噪后主麦克风信号与副麦克风信号强度差来进行语音检测;或者基于语音参考信号和噪声参考信号能量差进行目标语音检测。这类方法是基于主麦克风拾取的目标信号强度大于副麦克风接收目标信号,噪声信号在两个麦克风中的强度相同的假设。比如,当信噪比高时,主、副麦克能量比大于1,当信噪比低时,能量比小于1。这种基于强度差的目标语音检测方法的使用场景具有局限性,即目标信号到达主、副麦克风强度差必须达到一定阈值(如3db以上)才能有效。而且,在噪声较大、信噪比比较低的情况下,目标语音检出概率较低。2、基于机器学习的目标语音检测比如,将单通道带噪信号作为输入,将理想二值掩模(IdealBinaryMask,IBM)或者理想比值掩模(IdealRatioMask,IRM)作为输出,其输出值即可作为目标语音存在的依据;或者利用多通道数据,先将多个通道合成一个通道作为输入,进而来获得掩模。现有的基于机器学习的目标语音检测方法存在以下问题:只利用单通道信息,信息未充分利用,目标语音检测效果不佳;即使利用多通道信息,但每个神经网络仍然只处理一路原始信号或者一路混合信号,未很好地利用多通道的空间信息,如果噪声中存在其他方向的人声干扰,该类方法效果就会急剧下降。
技术实现思路
本专利技术实施例提供一种目标语音检测装置及方法,以解决传统目标语音检测方法存在的应用场景受限、低信噪比环境下检测、信息利用不充分导致检测效果不佳中的一个或多个问题。为此,本专利技术提供如下技术方案:一种目标语音检测方法,所述方法包括:接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;基于所述声音信号和所述不同方向波束逐帧提取检测特征;将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;根据所述模型输出结果得到当前帧对应的目标语音的检测结果。优选地,按以下方式构建所述目标语音检测模型:确定目标语音检测模型的拓扑结构;利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;提取所述训练数据的检测特征;基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。优选地,所述目标语音检测模型为分类模型或回归模型,所述目标语音检测模型的输出为当前帧每个频点的理想二进制掩码或理想比例掩码。优选地,所述检测特征包括:空间维度信息、频率维度信息、时间维度信息。优选地,所述基于所述声音信号和所述不同方向波束逐帧提取检测特征包括:在每帧的每个频点上将各个波束信号与麦克风阵列采集的声音信号依次拼接,得到多维空间向量;对所述多维空间向量中每个元素分别求模,然后将每帧所有频点的模进行拼接,得到包含了空间信息的多维频率向量;对所述包含了空间信息的多维频率向量进行帧扩展,得到包含了空间及频率信息的多维时间向量。优选地,所述方法还包括:基于强度差进行目标语音检测,得到基于强度差的检测结果;所述根据所述模型输出结果确定当前帧是否为目标语音帧包括:融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。优选地,所述基于强度差进行目标语音检测,得到基于强度差的检测结果包括:根据所述不同方向的波束得到语音参考信号和噪声参考信号;分别计算所述语音参考信号和噪声参考信号的功率;计算语音参考信号和噪声参考信号的功率比值;根据所述功率比值得到基于强度差的检测结果。一种目标语音检测装置,所述装置包括:信号接收模块,波束形成模块,检测特征提取模块,第一检测模块,检测结果输出模块;其中:所述信号接收模块,用于接收基于麦克风阵列采集的声音信号,并将所述声音信号输出给所述波束形成模块;所述波束形成模块,用于对输入的所述声音信号进行波束成形处理,得到不同方向波束;所述检测特征提取模块,其输入分别连接所述信号接收模块和所述波束形成模块的输出,用于分别基于所述声音信号和所述不同方向波束逐帧提取检测特征,并将提取的检测特征输出给所述第一检测模块;所述第一检测模块,用于将所述检测特征提取模块提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果,并将所述模型输出结果发送给所述检测结果输出模块;所述检测结果输出模块,用于根据所述模型输出结果得到当前帧对应的目标语音的检测结果。优选地,所述装置还包括:模型构建模块,用于构建所述目标语音检测模型;所述模型构建模块包括:结构设计单元,用于确定目标语音检测模型的拓扑结构;训练数据处理单元,用于利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;特征提取单元,用于提取所述训练数据的检测特征;训练单元,用于基于所述检测特征及标注信息,训练得到所述目标语音检测模型的参数。优选地,所述目标语音检测模型为分类模型或回归模型。优选地,所述装置还包括:第二检测模块,其输入与所述波束形成模块的输出相连,用于基于强度差进行目标语音检测,得到基于强度差的检测结果,并将所述基于强度差的检测结果发送给所述检测结果输出模块;所述检测结果输出模块融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。优选地,所述第二检测模块包括:参考信号获取单元,用于根据所述不同方向的波束得到语音参考信号和噪声参考信号;计算单元,用于分别计算所述语音参考信号和噪声参考信号的功率,计算语音参考信号和噪声参考信号的功率比值;检测结果单元,用于根据所述功率比值得到基于强度差的检测结果。一种计算机可读存储介质,包括计算机程序代码,该计算机程序代码由一个计算机单元执行,使得该计算机单元执行如前述任一项所述的人机交互应用方法中的步骤。本专利技术实施例提供的目标语音检测方法检测方法及装置,接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;分别基于所述声音信号和所述不同方向波束逐帧提取检测特征;利用预先构建的目标语音检测模型及多通道的信息,检测目标语音,从而有效地提高了目标语音检测的准确性,而且不存在应用场景受限的问题,即使在信噪比较低的环境下,也能够得到准确的检测结果。进一步地,结合基于强度差的检测结果,即融合基于强度差的检测结果和基于模型的检测结果,得到当前帧对应的目标语音的检测结果,进一步提高了检测结果的准确性。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本专利技术实施例目标语音检测方法的一种流程图;图2是本专利技术实施例中目标语本文档来自技高网
...
目标语音检测方法及装置

【技术保护点】
一种目标语音检测方法,其特征在于,所述方法包括:接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;基于所述声音信号和所述不同方向波束逐帧提取检测特征;将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;根据所述模型输出结果得到当前帧对应的目标语音的检测结果。

【技术特征摘要】
1.一种目标语音检测方法,其特征在于,所述方法包括:接收基于麦克风阵列采集的声音信号;对所述声音信号进行波束成形处理,得到不同方向波束;基于所述声音信号和所述不同方向波束逐帧提取检测特征;将提取的当前帧的检测特征输入预先构建的目标语音检测模型,得到模型输出结果;根据所述模型输出结果得到当前帧对应的目标语音的检测结果。2.根据权利要求1所述的方法,其特征在于,按以下方式构建所述目标语音检测模型:确定目标语音检测模型的拓扑结构;利用干净语音及模拟噪声生成训练数据,并对所述训练数据进行目标语音信息标注;提取所述训练数据的检测特征;基于所述检测持征及标注信息,训练得到所述目标语音检测模型的参数。3.根据权利要求1所述的方法,其特征在于,所述目标语音检测模型为分类模型或回归模型,所述目标语音检测模型的输出为当前帧每个频点的理想二进制掩码或理想比例掩码。4.根据权利要求1至3任一项所述的方法,其特征在于,所述检测特征包括:空间维度信息、频率维度信息、时间维度信息。5.根据权利要求1所述的方法,其特征在于,所述基于所述声音信号和所述不同方向波束逐帧提取检测特征包括:在每帧的每个频点上将各个波束信号与麦克风阵列采集的声音信号依次拼接,得到多维空间向量;对所述多维空间向量中每个元素分别求模,然后将每帧所有频点的模进行拼接,得到包含了空间信息的多维频率向量;对所述包含了空间信息的多维频率向量进行帧扩展,得到包含了空间及频率信息的多维时间向量。6.根据权利要求1至3、5任一项所述的方法,其特征在于,所述方法还包括:基于强度差进行目标语音检测,得到基于强度差的检测结果;所述根据所述模型输出结果确定当前帧是否为目标语音帧包括:融合所述基于强度差的检测结果和所述模型输出结果,得到当前帧对应的目标语音的检测结果。7.根据权利要求6所述的方法,其特征在于,所述基于强度差进行目标语音检测,得到基于强度差的检测结果包括:根据所述不同方向的波束得到语音参考信号和噪声参考信号;分别计算所述语音参考信号和噪声参考信号的功率;计算语音参考信号和噪声参考信号的功率比值;根据所述功率比值得到基于强度差的检测结果。8.一种目标语音检测装置,其特征在于,所述装置包括:信号接收模块,波束形成模块,检测特征提取模块,第一检测模块,检测结果...

【专利技术属性】
技术研发人员:马峰王海坤王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1