回音检测方法、存储介质和电子设备技术

技术编号:19550179 阅读:31 留言:0更新日期:2018-11-24 21:44
公开了一种回音检测方法、存储介质和电子设备。本发明专利技术实施例通过获取在实时通信过程中录制的第一方的音轨数据和第二方的音轨数据,对其中之一进行分段获取至少一个参考语音片段,并计算参考语音片段与第二方的音轨数据的相似度系数,并根据相似度系数分类。由此,快速对第二方的音轨数据中是否存在第一方的回音进行检测分类。由此,可以快速地进行回音检测。

Echo Detection Method, Storage Media and Electronic Equipment

An echo detection method, a storage medium and an electronic device are disclosed. The embodiment of the present invention obtains the first party's track data and the second party's track data recorded in the process of real-time communication, obtains at least one reference voice segment from one of them, calculates the similarity coefficient between the reference voice segment and the second party's track data, and classifies them according to the similarity coefficient. Therefore, the echo of the first party can be detected and classified quickly in the second party's track data. Thus, echo detection can be performed quickly.

【技术实现步骤摘要】
回音检测方法、存储介质和电子设备
本专利技术涉及信号处理技术,具体涉及一种回音检测方法、存储介质和电子设备。
技术介绍
随着互联网技术的不断发展,基于网络连接的在线音频、视频通信得到越来越广泛的应用。在在线音视频通信的场景下,第一方的音频数据会经由网络传输到第二方的终端设备,并通过终端设备的扬声器播放。同时,第二方的终端会通过麦克风持续地进行音频采集。在这种情况下,由扬声器播放的声音也会被麦克风采集,并传输回第一方的终端设备,形成回音。另一方面,第二方的终端设备的扬声器的电信号也可能对采集的音频信号构成干扰,并形成回音。现有技术通常会对双方传输的音频信号进行回音消除处理,以在实时通信的场景下消除回音。但是,回音消除处理的效果如何,无法进行快速检测和评估。
技术实现思路
有鉴于此,本专利技术实施例提出一种回音检测方法、存储介质和电子设备,以对录制的音频数据进行回音(也即,回声)检测判断,为改进回音抑制算法和快速进行效果评估提供数据支持。根据本专利技术实施例的第一方面,提供一种回音检测方法,其中,所述方法包括:获取第一音频数据和第二音频数据,所述第一音频数据和所述第二音频数据分别对应于通过网络进行音频对话第一方的音轨数据和第二方的音轨数据;在所述第一音频数据中截取至少一个音频数据片段作为参考语音片段;对于每个参考语音片段,根据所述参考语音片段的时间戳从所述第二音频数据中截取多个具有不同时间偏移量的检测语音片段;对于每个参考语音片段,计算所述参考语音片段与对应的各检测语音片段的相似度系数;根据所述相似度系数对第二音频数据进行回音检测分类。根据本专利技术实施例的第二方面,提供一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。根据本专利技术实施例的第三方面,提供一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。本专利技术实施例通过获取在实时通信过程中录制的第一方的音轨数据和第二方的音轨数据,对其中之一进行分段获取至少一个参考语音片段,并计算参考语音片段与第二方的音轨数据的相似度系数,并根据相似度系数分类。由此,快速对第二方的音轨数据中是否存在第一方的回音进行检测分类。由此,可以快速地进行回音检测,为改进回音抑制算法和快速进行效果评估提供数据支持。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是本专利技术实施例的回音检测方法的流程图;图2是本专利技术实施例的方法获取参考语音片段的流程图;图3是本专利技术实施例的方法对第二音频数据进行回音检测分类的流程图;图4是本专利技术实施例的采用有监督的分类器对最大相似度系数分类的方法的流程图;图5是本专利技术实施例的电子设备的示意图。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。在本专利技术的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本专利技术的描述中,除非另有说明,“多个”的含义是两个或两个以上。图1是本专利技术实施例的回音检测方法的流程图。在本实施例中,以对于分音轨的音频文件进行回音检测的过程为例进行说明,所述音频文件在音频对话过程中录制,并将不同的通话方的音频数据分音轨存储。应理解,所述不同的通话方至少为两个,也可以为多个。如果回音抑制不完全,在线音频对话过程中会出现回音问题。对于音频对话的双方的两组音频数据,第一方的音轨数据(也即第一音频数据)可能会在第二方的音轨数据(也即第二音频数据)形成回音,第二方的音轨数据也可能会在第一方的音轨数据形成回音。在本专利技术实施例中,以检测第一方的音轨数据在第二方的音轨数据中形成回音的情况为例进行说明。对于通话方为两方的场景,可以将本实施例的方法更换处理对象后执行两次,就可以进行较为全面的回音检测。如图1所示,本实施例的方法包括如下步骤:步骤S100、获取第一音频数据和第二音频数据。其中,所述第一音频数据和所述第二音频数据分别对应于通过网络进行音频对话第一方的音轨数据和第二方的音轨数据。如上所述,步骤S100处理的第一音频数据和第二音频数据中包含对应的对话方的语音信息,并且可能包含对方的语音信息(也即由于语音导致的回音)。当然,音频数据中还可能包括对应的对话方所在环境的环境噪声,以及,对方环境噪声导致的回音。对于本实施例,后续通过第一音频数据和第二音频数据的处理和对比来判断第二音频数据中是否存在回音。步骤S200、在所述第一音频数据中截取至少一个音频数据片段作为参考语音片段。具体地,截取的音频数据片段总长度要小于原来的第一音频数据。因此,可以大大减少后续数据处理的计算负担,加快回音检测的速度。这一操作使得可以快速地对大量的音频数据来进行回音检测,保证音频数据的后续回放质量。例如,在在线教学的应用场景下,每一次教学的音频和视频文件均会被保存。由于网络状况和终端设备状况存在较大的差异,因此,在线实时进行的回音抑制处理可能不能完全抑制实时通信过程中产生的回音。为了改善后续回放音频和视频的用户体验,需要对于录制保存的音频文件进行回音检测,以评估录制的音频文件的质量以及当前的回音抑制处理的效果。应理解,在本步骤中截取作为参考语音片段的音频数据片段越多(也即,参考语音片段的数量越多),得到的计算结果越准确,回声检测的评估结果也越准确,但是对应的计算量越大。参考语音片段的数量和/或长度越小,计算量越小,结果的准确度则会降低。因此,本领域技术人员可以根据所配置的计算能力和所期望获得的检测准确度来设定参考语音片段的数量和长度。图2是本专利技术实施例的方法获取参考语音片段的流程图。如图2所示,步骤S200可以包括:步骤S210、去除第一音频数据中无语音信号的部分,获取包含连续的语音信息的多个音频数据片段。在本步骤中,通过检测是否有连续的语音信号来实现对于音频数据片段的划分。在对话过程中,对话双方会交替地发声,从而使得一方的语音根据通话的内容被自然地分成多个片段。通过语音信号检测则可以将第一音频数据划分为对应的多个音频数据片段。这些片段的长度与对话双方的语速相适配,并且具有相对完整的内容和信息,不会过长或者过短,因此,通过这种方式划分获得的音频数据片段作为参考语音片段可以获得较高的回音检测准确度。具体地,去除无语音信号部分的操作,可以通过计算音频数据的能量谱以及进行端点检测来进行。应理解,在其它的可选方式中,也可以进一步按照时间长度将包含连续语音信息的片段进一步划分成多个音频数据片段以获得较短的音频数据片段。还可以直接按照预定的周期对第本文档来自技高网...

【技术保护点】
1.一种回音检测方法,其特征在于,所述方法包括:获取第一音频数据和第二音频数据,所述第一音频数据和所述第二音频数据分别对应于通过网络进行音频对话第一方的音轨数据和第二方的音轨数据;在所述第一音频数据中截取至少一个音频数据片段作为参考语音片段;对于每个参考语音片段,根据所述参考语音片段的时间戳从所述第二音频数据中截取多个具有不同时间轴偏移量的检测语音片段;对于每个参考语音片段,计算所述参考语音片段与对应的各检测语音片段的相似度系数;根据所述相似度系数对第二音频数据进行回音检测分类。

【技术特征摘要】
1.一种回音检测方法,其特征在于,所述方法包括:获取第一音频数据和第二音频数据,所述第一音频数据和所述第二音频数据分别对应于通过网络进行音频对话第一方的音轨数据和第二方的音轨数据;在所述第一音频数据中截取至少一个音频数据片段作为参考语音片段;对于每个参考语音片段,根据所述参考语音片段的时间戳从所述第二音频数据中截取多个具有不同时间轴偏移量的检测语音片段;对于每个参考语音片段,计算所述参考语音片段与对应的各检测语音片段的相似度系数;根据所述相似度系数对第二音频数据进行回音检测分类。2.根据权利要求1所述的方法,其特征在于,所述在所述第一音频数据中截取至少一个音频数据片段作为参考语音片段包括:去除第一音频数据中无语音信号的部分,获取包含连续的语音信息的多个音频数据片段;选取满足预定条件的至少一个音频数据片段作为所述参考语音片段。3.根据权利要求2所述的方法,其特征在于,所述选取满足预定条件的至少一个音频数据片段作为所述参考语音片段包括:计算每个音频数据片段的信号功率;选取信号功率最大的至少一个音频数据片段作为所述参考语音片段。4.根据权利要求1所述的方法,其特征在于,所述检测语音片段的时间长度与所述参考语音片段的时间长度相同。5.根据权利要求1所述的方法,其特征在于,所述根据所述相似度系数对第二音频数据进...

【专利技术属性】
技术研发人员:王正博沈亮
申请(专利权)人:北京大米科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1