时延估计方法、装置及电子设备制造方法及图纸

技术编号：21062714 阅读：18 留言：0更新日期：2019-05-08 08:23

本公开涉及了一种时延估计方法、装置及电子设备，其中，所述时延估计方法包括：获取麦克风采集到的声音信号和扬声器输出的远端语音信号；以所述声音信号和远端语音信号分别作为指纹输入信号，对指纹输入信号进行音频能量的动态变化特征提取，得到所述声音信号的音频指纹和所述远端语音信号的音频指纹；将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对，获得时延估计结果。采用本公开能够提高时延估计的响应速度，避免回声消除在时延变化期间无法正常工作而导致漏回声的问题。

Time Delay Estimation Method, Device and Electronic Equipment

全部详细技术资料下载

【技术实现步骤摘要】
时延估计方法、装置及电子设备
本公开涉及通信
，尤其涉及一种时延估计方法、装置及电子设备。
技术介绍
随着通信技术的发展，越来越多应用场景涉及通话过程，例如，用户利用智能手机进行视频/语音通话，或者，用户通过视频会议系统进行电话会议时的通话，又或者，由聊天机器人参与的会话系统所涉及的会话。通话过程中，其中一通话方所在客户端首先接收扬声器输出的远端语音信号，进而由麦克风对声音信号进行采集，最后将采集得到的声音信号输出，以供另一通话方所在客户端接收。如果麦克风采集到的声音信号除了近端语音信号(通话过程中用户说话产生)，还包括远端语音信号，将使得通话过程中受到回声干扰，进而直接影响通话质量。为此，现有技术提出了回声消除方法，即首先找到声音信号相对于远端语音信号的时延，再利用时延消除声音信号中的远端语音信号。然而，在许多电子设备中，即使同一次通话过程里时延也是实时变化的，如果对时延变化的响应速度太慢，回声消除在时延变化期间将无法正常工作而导致漏回声，因此，如何提高对时延变化的响应速度亟待解决。
技术实现思路
为了解决上述技术问题，本公开的一个目的在于提供一种时延估计方法、装置及电子设备。其中，本公开所采用的技术方案为：一方面，一种时延估计方法，包括：获取麦克风采集到的声音信号和扬声器输出的远端语音信号；以所述声音信号和远端语音信号分别作为指纹输入信号，对指纹输入信号进行音频能量的动态变化特征提取，得到所述声音信号的音频指纹和所述远端语音信号的音频指纹；将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对，获得时延估计结果。另一方面，一种时延估计装置，包括...

【技术保护点】
1.一种时延估计方法，其特征在于，包括：获取麦克风采集到的声音信号和扬声器输出的远端语音信号；以所述声音信号和远端语音信号分别作为指纹输入信号，对指纹输入信号进行音频能量的动态变化特征提取，得到所述声音信号的音频指纹和所述远端语音信号的音频指纹；将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对，获得时延估计结果。

【技术特征摘要】
1.一种时延估计方法，其特征在于，包括：获取麦克风采集到的声音信号和扬声器输出的远端语音信号；以所述声音信号和远端语音信号分别作为指纹输入信号，对指纹输入信号进行音频能量的动态变化特征提取，得到所述声音信号的音频指纹和所述远端语音信号的音频指纹；将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对，获得时延估计结果。2.如权利要求1所述的方法，其特征在于，所述以所述声音信号和远端语音信号分别作为指纹输入信号，对指纹输入信号进行音频能量的动态变化特征提取，得到所述声音信号的音频指纹和所述远端语音信号的音频指纹之前，所述方法还包括：对所述远端语音信号进行随机噪声预处理；以预处理后的远端语音信号作为指纹输入信号，跳转执行所述以所述声音信号和远端语音信号分别作为指纹输入信号，对指纹输入信号进行音频能量的动态变化特征提取，得到所述声音信号的音频指纹和所述远端语音信号的音频指纹步骤。3.如权利要求1或2所述的方法，其特征在于，对指纹输入信号进行音频能量的动态变化特征提取，得到音频指纹，包括：对所述指纹输入信号进行时频变换得到多帧频域数据；针对当前帧频域数据进行频带划分得到多个频带，并分别计算多个所述频带的音频能量；针对多个所述频带，根据频带及其相邻频带的音频能量差值与前一帧频域数据中对应位置处频带的音频能量差值之间变化规律，得到多个音频能量变化特征值；根据多个所述音频能量变化特征值生成所述当前帧频域数据对应的子音频指纹；将指定帧数频域数据对应的子音频指纹作为所述音频指纹。4.如权利要求3所述的方法，其特征在于，所述将指定帧数频域数据对应的子音频指纹作为所述音频指纹之前，所述方法还包括：计算所述指纹输入信号的音频能量；根据所述指纹输入信号的音频能量和信号能量阈值动态调整所述指定帧数。5.如权利要求3所述的方法，其特征在于，所述将所述声音信号的音频指纹与所述远端语音信号的音频指纹进行指纹比对，获得时延估计结果，包括：比较所述声音信号的音频指纹与所述远端语音信号的音频指纹，得到音频指纹相似度；当音频指纹相似度超过相似度阈值时，获取所述远端语音信号中与声音信号最相似的音频指纹位置；将所述最相似的音频指纹位置指示的帧时刻作为第一相似时间，并将所述声音信号被采集的当前帧时刻作为第二相似时间；将所述第一相似时间与第二相似时间的时间差更新为所述时延估计结果。6.如权利要求5所述的方法，其特征在于，所述当音频指纹相似度超过相似度阈值时，获取所述远端语音信号中与声音信号最相似的音频指纹位置，包括：比较所述声音信号中当前帧频域数据对应的子音频指纹与所述远端语音信号中前若干帧频域数据对应的子音频指纹，得到若干子音频指纹相似度；根据所述若干子音频指纹相似度确定所述远端语音信号中最大相似度子音频指纹；将所述最大相似度子音频指纹所对应频域数据作为所述最相似的音频指纹位置。7.如权利要求5所述的方法，其特征在于，所述将所述第一相似时间与第二相似时间的时间差更新...

【专利技术属性】
技术研发人员：王天宝，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人