声音信号识别方法及装置制造方法及图纸

技术编号:29102038 阅读:14 留言:0更新日期:2021-06-30 10:15
本公开是关于一种声音信号识别方法及装置。涉及智能语音交互技术,解决了强干扰低信噪比场景下声源信号识别准确率低的问题。该方法包括:获取至少两个采集点分别对至少两个声源采集的原始观测数据;对所述原始观测数据进行第一级降噪处理,得到观测信号估计数据;根据所述观测信号估计数据,得到各个声源的定位信息和观测信号数据;根据所述定位信息对所述观测信号数据进行第二级降噪处理,得到波束增强输出信号;根据所述波束增强输出信号,得到各个声源的信噪比增强的时域声源信号。本公开提供的技术方案适用于语音互动设备,实现了高质量、低噪声的语音信号识别。低噪声的语音信号识别。低噪声的语音信号识别。

【技术实现步骤摘要】
声音信号识别方法及装置


[0001]本公开涉及智能语音交互技术,尤其涉及一种声音信号识别方法及装置。

技术介绍

[0002]在物联网、AI时代,智能语音作为人工智能核心技术之一,丰富了人机交互的模式,大大提高智能产品使用的便捷性。
[0003]智能产品设备拾音多采用多个麦克风构成的麦克风阵列,应用麦克风波束形成技术或盲源分离技术抑制环境干扰,提高语音信号处理质量,以提高真实环境下的语音识别率。
[0004]麦克风波束形成技术需要估计声源方向,另外为了赋予更强的智能性和感知性,一般智能设备会配备指示灯,当与用户交互时将指示灯准确指向用户而非干扰,让用户感觉在与智能设备面对面对话,增强用户的交互体验。基于此,在存在干扰音源的环境中,准确估计用户(也即声源)的方向十分重要。
[0005]声源寻向算法一般直接利用麦克风采集得到的数据,使用基于相位变换加权的可控响应功率的声源定位算法(Steered Response Power

Phase Transform,简称SRP

PHAT)等算法进行寻向估计。但这种算法依赖信号的信噪比,在低信噪比下准确率不够高,极容易寻各到干扰音源的方向上,无法准确对有效声源进行定位。

技术实现思路

[0006]为克服相关技术中存在的问题,本公开提供一种声音信号识别方法及装置。
[0007]根据本公开实施例的第一方面,提供一种声音信号识别方法,包括:
[0008]获取至少两个采集点分别对至少两个声源采集的原始观测数据;
[0009]对所述原始观测数据进行第一级降噪处理,得到观测信号估计数据;
[0010]根据所述观测信号估计数据,得到各个声源的定位信息和观测信号数据;
[0011]根据所述定位信息对所述观测信号数据进行第二级降噪处理,得到波束增强输出信号;
[0012]根据所述波束增强输出信号,得到各个声源的信噪比增强的时域声源信号。
[0013]进一步的,所述对所述原始观测数据进行第一级降噪处理,得到观测信号估计数据的步骤包括:
[0014]初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵,所述分离矩阵的行数和列数均为声源的数量;
[0015]求取各个采集点处的时域信号,并根据所述时域信号对应的频域信号构建观测信号矩阵;
[0016]根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计;
[0017]根据所述先验频域估计更新所述加权协方差矩阵;
[0018]根据更新后的所述加权协方差矩阵,更新所述分离矩阵;
[0019]对更新后的所述分离矩阵去模糊;
[0020]根据去模糊后的所述分离矩阵,对所述原始观测数据进行分离,将分离得到的后验域估计数据作为所述观测信号估计数据。
[0021]进一步的,根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计的步骤包括:
[0022]根据上一帧的分离矩阵对所述观测信号矩阵进行分离,得到当前帧各个声源的先验频域估计。
[0023]进一步的,根据所述先验频域估计更新所述加权协方差矩阵的步骤包括:
[0024]根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵,更新所述加权协方差矩阵。
[0025]进一步的,根据更新后的所述加权协方差矩阵,更新所述分离矩阵的步骤包括:
[0026]根据各个声源的加权协方差矩阵,分别更新各个声源的分离矩阵;
[0027]更新所述分离矩阵为各个声源的分离矩阵合并后的共轭转置矩阵。
[0028]进一步的,对更新后的所述分离矩阵去模糊的步骤包括:
[0029]采用最小畸变准则对所述分离矩阵进行幅度去模糊处理。
[0030]进一步的,所述根据所述观测信号估计数据,得到各个声源的定位信息和观测信号数据的步骤包括:
[0031]根据所述观测信号估计数据,得到各个采集点处各个声源的所述观测信号数据;
[0032]根据各个采集点处各个声源的所述观测信号数据,分别估算各个声源的方位,得到各个声源的定位信息。
[0033]进一步的,根据各个采集点处各个声源的所述观测信号数据,分别估算各个声源的方位,得到各个声源的定位信息的步骤包括:
[0034]分别对各个声源进行如下估算,获取各个声源的方位:
[0035]使用同一声源在不同采集点处的所述观测信号数据构成采集点的观测数据,通过寻向算法对所述声源进行定位,得到各个声源的定位信息。
[0036]进一步的,所述声源的定位信息包含所述声源的方位坐标,对所述定位信息进行第二级降噪处理,得到波束增强输出信号的步骤包括:
[0037]根据各个声源的方位坐标和各个采集点的方位坐标,分别计算各个声源的传播时延差值,所述传播时延差值为声源发出的声音传输至各个采集点的时间差值;
[0038]使用各个声源的所述观测信号数据,分别对各个声源通过波束延迟求和波束成形处理进行第二级降噪,得到各个声源的所述波束增强输出信号。
[0039]进一步的,根据所述波束增强输出信号,得到各个声源的信噪比增强的时域声源信号的步骤包括:
[0040]对所述各个声源的波束增强输出信号进行短时傅立叶逆变换后重叠相加,得到各个声源的信噪比增强的时域声源信号。
[0041]根据本公开实施例的第二方面,提供一种声音信号识别装置包括:
[0042]原始数据采集模块,用于获取至少两个采集点分别对至少两个声源采集的原始观测数据;
[0043]第一降噪模块,用于对所述原始观测数据进行第一级降噪处理,得到观测信号估计数据;
[0044]定位模块,用于根据所述观测信号估计数据,得到各个声源的定位信息和观测信号数据;
[0045]第二降噪模块,用于根据所述定位信息对所述观测信号数据进行第二级降噪处理,得到波束增强输出信号;
[0046]增强信号输出模块,用于根据所述波束增强输出信号,得到各个声源的信噪比增强的时域声源信号。
[0047]进一步的,所述第一降噪模块包括:
[0048]矩阵初始化子模块,用于初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵,所述分离矩阵的行数和列数均为声源的数量;
[0049]频域数据获取子模块,用于求取各个采集点处的时域信号,并根据所述时域信号对应的频域信号构建观测信号矩阵;
[0050]先验频域估计子模块,用于根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计;
[0051]协方差矩阵更新子模块,用于根据所述先验频域估计更新所述加权协方差矩阵;
[0052]分离矩阵更新子模块,用于根据更新后的所述加权协方差矩阵,更新所述分离矩阵;
[0053]去模糊子模块,用于对更新后的所述分离矩阵去模糊;
[0054]后验域估计子模块,用于根据去模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声音信号识别方法,其特征在于,包括:获取至少两个采集点分别对至少两个声源采集的原始观测数据;对所述原始观测数据进行第一级降噪处理,得到观测信号估计数据;根据所述观测信号估计数据,得到各个声源的定位信息和观测信号数据;根据所述定位信息对所述观测信号数据进行第二级降噪处理,得到波束增强输出信号;根据所述波束增强输出信号,得到各个声源的信噪比增强的时域声源信号。2.根据权利要求1所述的声音信号识别方法,其特征在于,所述对所述原始观测数据进行第一级降噪处理,得到观测信号估计数据的步骤包括:初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵,所述分离矩阵的行数和列数均为声源的数量;求取各个采集点处的时域信号,并根据所述时域信号对应的频域信号构建观测信号矩阵;根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计;根据所述先验频域估计更新所述加权协方差矩阵;根据更新后的所述加权协方差矩阵,更新所述分离矩阵;对更新后的所述分离矩阵去模糊;根据去模糊后的所述分离矩阵,对所述原始观测数据进行分离,将分离得到的后验域估计数据作为所述观测信号估计数据。3.根据权利要求2所述的声音信号识别方法,其特征在于,根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计的步骤包括:根据上一帧的分离矩阵对所述观测信号矩阵进行分离,得到当前帧各个声源的先验频域估计。4.根据权利要求2所述的声音信号识别方法,其特征在于,根据所述先验频域估计更新所述加权协方差矩阵的步骤包括:根据所述观测信号矩阵及所述观测信号矩阵的共轭转置矩阵,更新所述加权协方差矩阵。5.根据权利要求2所述的声音信号识别方法,其特征在于,根据更新后的所述加权协方差矩阵,更新所述分离矩阵的步骤包括:根据各个声源的加权协方差矩阵,分别更新各个声源的分离矩阵;更新所述分离矩阵为各个声源的分离矩阵合并后的共轭转置矩阵。6.根据权利要求2所述的声音信号识别方法,其特征在于,对更新后的所述分离矩阵去模糊的步骤包括:采用最小畸变准则对所述分离矩阵进行幅度去模糊处理。7.根据权利要求1所述的声音信号识别方法,其特征在于,所述根据所述观测信号估计数据,得到各个声源的定位信息和观测信号数据的步骤包括:根据所述观测信号估计数据,得到各个采集点处各个声源的所述观测信号数据;根据各个采集点处各个声源的所述观测信号数据,分别估算各个声源的方位,得到各个声源的定位信息。
8.根据权利要求7所述的声音信号识别方法,其特征在于,根据各个采集点处各个声源的所述观测信号数据,分别估算各个声源的方位,得到各个声源的定位信息的步骤包括:分别对各个声源进行如下估算,获取各个声源的方位:使用同一声源在不同采集点处的所述观测信号数据构成采集点的观测数据,通过寻向算法对所述声源进行定位,得到各个声源的定位信息。9.根据权利要求7所述的声音信号识别方法,其特征在于,所述声源的定位信息包含所述声源的方位坐标,对所述定位信息进行第二级降噪处理,得到波束增强输出信号的步骤包括:根据各个声源的方位坐标和各个采集点的方位坐标,分别计算各个声源的传播时延差值,所述传播时延差值为声源发出的声音传输至各个采集点的时间差值;使用各个声源的所述观测信号数据,分别对各个声源通过波束延迟求和波束成形处理进行第二级降噪,得到各个声源的所述波束增强输出信号。10.根据权利要求9所述的声音信号识别方法,其特征在于,根据所述波束增强输出信号,得到各个声源的信噪比增强的时域声源信号的步骤包括:对所述各个声源的波束增强输出信号进行短时傅立叶逆变换后重叠相加,得到各个声源的信噪比增强的时域声源信号。11.一种声音信号识别装置,其特征在于,包括:原始数据采集模块,用于获取至少两个采集点分别对至少两个声源采集的原始观测数据;第一降噪模块,用于对所述原始观测数据进行第一级降噪处理,得到观测信号估计数据;定位模块,用于根据所述观测信号估计数据,得到各个声源的定位信息和观测信号数据;第二降噪模块,用于根据所述定位信息对所述观测信号数据进行第二级降噪处理,得到波束增强输出信号;增强信号输出模块,用于根据所述波束增强输出信号,得到各个声源的信噪比增强的时域声源信...

【专利技术属性】
技术研发人员:侯海宁
申请(专利权)人:北京小米松果电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1