时延估计方法、装置及电子设备制造方法及图纸

技术编号:21062714 阅读:18 留言:0更新日期:2019-05-08 08:23
本公开涉及了一种时延估计方法、装置及电子设备,其中,所述时延估计方法包括:获取麦克风采集到的声音信号和扬声器输出的远端语音信号;以所述声音信号和远端语音信号分别作为指纹输入信号,对指纹输入信号进行音频能量的动态变化特征提取,得到所述声音信号的音频指纹和所述远端语音信号的音频指纹;将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对,获得时延估计结果。采用本公开能够提高时延估计的响应速度,避免回声消除在时延变化期间无法正常工作而导致漏回声的问题。

Time Delay Estimation Method, Device and Electronic Equipment

【技术实现步骤摘要】
时延估计方法、装置及电子设备
本公开涉及通信
,尤其涉及一种时延估计方法、装置及电子设备。
技术介绍
随着通信技术的发展,越来越多应用场景涉及通话过程,例如,用户利用智能手机进行视频/语音通话,或者,用户通过视频会议系统进行电话会议时的通话,又或者,由聊天机器人参与的会话系统所涉及的会话。通话过程中,其中一通话方所在客户端首先接收扬声器输出的远端语音信号,进而由麦克风对声音信号进行采集,最后将采集得到的声音信号输出,以供另一通话方所在客户端接收。如果麦克风采集到的声音信号除了近端语音信号(通话过程中用户说话产生),还包括远端语音信号,将使得通话过程中受到回声干扰,进而直接影响通话质量。为此,现有技术提出了回声消除方法,即首先找到声音信号相对于远端语音信号的时延,再利用时延消除声音信号中的远端语音信号。然而,在许多电子设备中,即使同一次通话过程里时延也是实时变化的,如果对时延变化的响应速度太慢,回声消除在时延变化期间将无法正常工作而导致漏回声,因此,如何提高对时延变化的响应速度亟待解决。
技术实现思路
为了解决上述技术问题,本公开的一个目的在于提供一种时延估计方法、装置及电子设备。其中,本公开所采用的技术方案为:一方面,一种时延估计方法,包括:获取麦克风采集到的声音信号和扬声器输出的远端语音信号;以所述声音信号和远端语音信号分别作为指纹输入信号,对指纹输入信号进行音频能量的动态变化特征提取,得到所述声音信号的音频指纹和所述远端语音信号的音频指纹;将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对,获得时延估计结果。另一方面,一种时延估计装置,包括:信号采集模块,用于获取麦克风采集到的声音信号和扬声器输出的远端语音信号;特征提取模块,用于以所述声音信号和远端语音信号分别作为指纹输入信号,对指纹输入信号进行音频能量的动态变化特征提取,得到所述声音信号的音频指纹和所述远端语音信号的音频指纹;指纹比对模块,用于将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对,获得时延估计结果。另一方面,一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的时延估计方法。另一方面,一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的时延估计方法。与现有技术相比,本公开具有以下有益效果:通过对麦克风采集的声音信号进行音频能量的动态变化特征提取,得到声音信号的音频指纹,以及对扬声器输出的远端语音进行音频能量的动态变化特征提取,得到远端语音信号的音频指纹,并将声音信号的音频指纹和远端语音信号的音频指纹进行指纹比对获得时延估计结果,进而便能够根据时延估计结果进行通过过程中的回声消除。由于音频指纹表示了信号所具有音频能量的动态变化特征,通过指纹比对能够实时地反映出声音信号与远端语音信号的相似之处的时间差,即实时地反映出声音信号相对于远端语音信号的时延,一旦该时延发生了变化,声音信号与远端语音信号的相似之处的时间差也随之发生变化,由此便能够及时地对时延变化进行响应,从而有效地提高了时延估计的响应速度,避免了回声消除在时延变化期间无法正常工作而导致漏回声的问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种电子设备的硬件结构框图。图2是根据一示例性实施例示出的一种时延估计方法的流程图。图3是根据一示例性实施例示出的另一种时延估计方法的流程图。图4是图2或者图3对应实施例中对指纹输入信号进行音频能量的动态变化特征提取,得到音频指纹步骤在一个实施例的流程图。图5是根据一示例性实施例示出的另一种时延估计方法的流程图。图6是图2对应实施例中步骤250在一个实施例的流程图。图7是图6对应实施例中步骤255在一个实施例的流程图。图8是一应用场景中一种时延估计方法的具体实现流程图。图9是根据一示例性实施例示出的一种时延估计装置的框图。图10是根据一示例性实施例示出的另一种时延估计装置的框图。图11是图9对应实施例中特征提取模块730在一个实施例的框图。图12是根据一示例性实施例示出的另一种时延估计装置的框图。图13是图9对应实施例中指纹比对模块750在一个实施例的框图。图14是图12对应实施例中结果更新单元757在一个实施例的框图。通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。具体实施方式这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。目前,为了消除声音信号中的远端语音信号,时延估计方法通常包括两种:时间戳方法和二进制谱线方法。其中,时间戳方法利用给信号添加时间戳来得到时延,即麦克风采集的声音信号滞后于扬声器输出的远端语音信号,则根据声音信号的时间戳与远端语音信号的时间戳之间的差值,便能够得到声音信号相对于远端语音信号的时延。该种方法仅适用于PC(PersonalComputer,个人计算机)设备,而无法应用在其他可进行通话的电子设备中,通用性较差,且时延估计的准确性不高。二进制谱线方法利用信号特征来估计时延,但是该种方法受限于算法自身的设计,当时延变化时需要经过很长一段时间才能够重新估计出新时延,在时延重新估计期间回声消除将按照旧时延进行而导致漏回声。为此,本公开特提出了一种时延估计方法,该时延估计方法适用于电子设备,例如,电子设备可以是智能手机、台式电脑、笔记本电脑、平板电脑或者其他可进行通话的电子设备,在此并不进行限定。通过该时延估计方法能够及时地对同一次通话过程里的时延变化进行响应,使得时延估计结果随之立即更新,不仅能够提高时延估计的响应速度,同时具有较高的时延估计准确性,从而有利于消除回声提高通话质量。请参阅图1,图1是根据一示例性实施例示出的一种电子设备的框图。需要说明的是,该电子设备100只是一个适配于本公开的示例,不能认为是提供了对本公开的使用范围的任何限制。该电子设备100也不能解释为需要依赖于或者必须具有图1中示出的示例性的电子设备100中的一个或者多个组件。如图1所示,电子设备100包括存储器101、存储控制器103、一个或多个(图中仅示出一个)处理器105、外设接口107、射频模块109、定位模块111、摄像模块113、音频模块115、触控屏幕117以及按键模块119。这些组件通过一条或多条通讯总线/信号线121相互通讯。其中,存储器101可用于存储软件程序以及模块,如本公开示例性实施例中的时延估计方法及装置对应的程序指令及模块,处理器105通过运行存储在存储器101内的程序指令,从而执行各种功能以及数据处理,即实现上述时延估本文档来自技高网...

【技术保护点】
1.一种时延估计方法,其特征在于,包括:获取麦克风采集到的声音信号和扬声器输出的远端语音信号;以所述声音信号和远端语音信号分别作为指纹输入信号,对指纹输入信号进行音频能量的动态变化特征提取,得到所述声音信号的音频指纹和所述远端语音信号的音频指纹;将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对,获得时延估计结果。

【技术特征摘要】
1.一种时延估计方法,其特征在于,包括:获取麦克风采集到的声音信号和扬声器输出的远端语音信号;以所述声音信号和远端语音信号分别作为指纹输入信号,对指纹输入信号进行音频能量的动态变化特征提取,得到所述声音信号的音频指纹和所述远端语音信号的音频指纹;将所述声音信号的音频指纹与远端语音信号的音频指纹进行指纹比对,获得时延估计结果。2.如权利要求1所述的方法,其特征在于,所述以所述声音信号和远端语音信号分别作为指纹输入信号,对指纹输入信号进行音频能量的动态变化特征提取,得到所述声音信号的音频指纹和所述远端语音信号的音频指纹之前,所述方法还包括:对所述远端语音信号进行随机噪声预处理;以预处理后的远端语音信号作为指纹输入信号,跳转执行所述以所述声音信号和远端语音信号分别作为指纹输入信号,对指纹输入信号进行音频能量的动态变化特征提取,得到所述声音信号的音频指纹和所述远端语音信号的音频指纹步骤。3.如权利要求1或2所述的方法,其特征在于,对指纹输入信号进行音频能量的动态变化特征提取,得到音频指纹,包括:对所述指纹输入信号进行时频变换得到多帧频域数据;针对当前帧频域数据进行频带划分得到多个频带,并分别计算多个所述频带的音频能量;针对多个所述频带,根据频带及其相邻频带的音频能量差值与前一帧频域数据中对应位置处频带的音频能量差值之间变化规律,得到多个音频能量变化特征值;根据多个所述音频能量变化特征值生成所述当前帧频域数据对应的子音频指纹;将指定帧数频域数据对应的子音频指纹作为所述音频指纹。4.如权利要求3所述的方法,其特征在于,所述将指定帧数频域数据对应的子音频指纹作为所述音频指纹之前,所述方法还包括:计算所述指纹输入信号的音频能量;根据所述指纹输入信号的音频能量和信号能量阈值动态调整所述指定帧数。5.如权利要求3所述的方法,其特征在于,所述将所述声音信号的音频指纹与所述远端语音信号的音频指纹进行指纹比对,获得时延估计结果,包括:比较所述声音信号的音频指纹与所述远端语音信号的音频指纹,得到音频指纹相似度;当音频指纹相似度超过相似度阈值时,获取所述远端语音信号中与声音信号最相似的音频指纹位置;将所述最相似的音频指纹位置指示的帧时刻作为第一相似时间,并将所述声音信号被采集的当前帧时刻作为第二相似时间;将所述第一相似时间与第二相似时间的时间差更新为所述时延估计结果。6.如权利要求5所述的方法,其特征在于,所述当音频指纹相似度超过相似度阈值时,获取所述远端语音信号中与声音信号最相似的音频指纹位置,包括:比较所述声音信号中当前帧频域数据对应的子音频指纹与所述远端语音信号中前若干帧频域数据对应的子音频指纹,得到若干子音频指纹相似度;根据所述若干子音频指纹相似度确定所述远端语音信号中最大相似度子音频指纹;将所述最大相似度子音频指纹所对应频域数据作为所述最相似的音频指纹位置。7.如权利要求5所述的方法,其特征在于,所述将所述第一相似时间与第二相似时间的时间差更新...

【专利技术属性】
技术研发人员:王天宝
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1