一种短时语音信号处理的方法、装置、设备及存储介质制造方法及图纸

技术编号：19242793 阅读：40 留言：0更新日期：2018-10-24 05:26

本发明专利技术实施例公开了一种短时语音信号处理的方法、装置、设备及存储介质。其中，该方法包括：获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号；确定与近端时域信号匹配的音频采集状态，音频采集状态包括：单讲状态或者双讲状态；根据远端时域信号、误差时域信号以及音频采集状态确定与近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；根据残留回声幅度谱、环境噪声幅度谱以及误差时域信号，生成与近端时域信号匹配的输出时域信号。本发明专利技术实施例的技术方案可以在回声场景下，有效抑制语音信号中的残留回声和环境噪声，提高语音信号清晰度。

全部详细技术资料下载

【技术实现步骤摘要】
一种短时语音信号处理的方法、装置、设备及存储介质
本专利技术实施例涉及音频处理技术，尤其涉及一种短时语音信号处理的方法、装置、设备及存储介质。
技术介绍
随着终端的不断发展，越来越多的终端具备音频输入与音频输出的功能，并由于输出音频再次被音频输入设备拾取，形成回声。例如，具有扬声器和麦克风的智能设备。回声信号的存在会对音频信号的质量造成影响。现有技术中，对终端的回声的处理一般是采用自适应滤波器构造回声消除器，来对回声进行消除。从麦克风拾取的近端音频信号中减去自适应滤波器输出估计回声信号，其相减结果称之为误差信号。理想情况下认为误差信号是使用者的有效语音信号。现有技术存在以下缺陷：在终端同时使用音频输入与音频输出功能的情况下，例如，智能设备的扬声器和麦克风同时工作时，经过预处理的声音信号中的回声信号消除不干净，仍包含残留回声和环境噪声。在终端的短时语音信号处理系统中，短时的语音信号中的残留回声和环境噪声会降低语音信号清晰度，会对系统的正常工作造成影响。例如，在语音短消息应用场景中，残留回声和环境噪声会影响语音质量；对于小词量的语音识别系统，残留回声和环境噪声会影响识别率。
技术实现思路
本专利技术提供一种短时语音信号处理的方法、装置、设备及存储介质，以实现在回声场景下，有效抑制语音信号中的残留回声和环境噪声，提高语音信号清晰度。第一方面，本专利技术实施例提供了一种短时语音信号处理的方法，包括：获取近端时域信号，并确定与近端时域信号匹配的远端时域信号以及误差时域信号；根据与近端时域信号、远端时域信号以及误差时域信号分别对应的频域信号，确定与近端时域信号匹配的音频采...

【技术保护点】
1.一种短时语音信号处理的方法，其特征在于，包括：获取近端时域信号，并确定与所述近端时域信号匹配的远端时域信号以及误差时域信号；根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号，确定与所述近端时域信号匹配的音频采集状态，所述音频采集状态包括：单讲状态或者双讲状态；根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号，生成与所述近端时域信号匹配的输出时域信号。

【技术特征摘要】
1.一种短时语音信号处理的方法，其特征在于，包括：获取近端时域信号，并确定与所述近端时域信号匹配的远端时域信号以及误差时域信号；根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号，确定与所述近端时域信号匹配的音频采集状态，所述音频采集状态包括：单讲状态或者双讲状态；根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱；根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号，生成与所述近端时域信号匹配的输出时域信号。2.根据权利要求1所述的方法，其特征在于，根据与所述近端时域信号、所述远端时域信号以及所述误差时域信号分别对应的频域信号，确定与所述近端时域信号匹配的音频采集状态，所述音频采集状态包括：单讲状态或者双讲状态，包括：获取当前帧的近端频域信号、远端频域信号和误差频域信号，其中，所述近端频域信号、所述远端频域信号和所述误差频域信号为与所述近端时域信号、所述远端时域语音信号以及所述误差时域信号分别对应的频域信号；根据所述近端频域信号、所述远端频域信号和所述误差频域信号确定所述近端频域信号与所述误差频域信号的第一相干系数和所述远端频域信号与所述误差频域信号的第二相干系数；根据所述第一相干系数与所述第二相干系数确定当前帧的相干性差值和差值跟踪值，其中，当前帧的差值跟踪值根据当前帧的相干性差值和前一帧的差值跟踪值确定；根据当前帧的所述相干性差值与所述差值跟踪值确定双讲概率；若所述双讲概率大于概率判决阈值，则确定所述当前帧的音频采集状态为双讲状态；若所述双讲概率小于等于所述概率判决阈值，则确定所述当前帧的音频采集状态为单讲状态。3.根据权利要求1所述的方法，其特征在于，根据所述远端时域信号、所述误差时域信号以及所述音频采集状态确定与所述近端时域信号对应的残留回声幅度谱和环境噪声幅度谱，包括：根据所述误差时域信号和所述音频采集状态确定所述误差时域信号的噪声阈值，其中，所述噪声包括残留回声和环境噪声；根据所述误差时域信号、所述远端时域信号、所述音频采集状态以及所述噪声阈值确定所述残留回声幅度谱；根据所述误差时域信号、所述音频采集状态以及所述噪声阈值确定所述环境噪声幅度谱。4.根据权利要求1所述的方法，其特征在于，根据所述残留回声幅度谱、所述环境噪声幅度谱以及所述误差时域信号，生成与所述近端时域信号匹配的输出时域信号，包括：对所述误差时域信号进行短时傅里叶变换，得到误差频域信号；根据以下公式，计算与所述近端时域信号匹配的输出频域信号：S(f,i)＝E(f,i)-N(f,i)-Y(f,i)，其中，S(f,i)为所述输出频域信号，E(f,i)为所述误差频域信号，N(f,i)为所述环境噪声幅度谱，Y(f,i)为所述残留回声幅度谱；对所述输出频域信号进行短时傅里叶逆变换，得到输出时域信...

【专利技术属性】
技术研发人员：陈超，邓滨，宋晨枫，
申请(专利权)人：北京小鱼在家科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人