音频处理方法、装置、设备和存储介质制造方法及图纸

技术编号:32915110 阅读:22 留言:0更新日期:2022-04-07 12:06
本公开提供了一种音频处理方法、装置、设备和存储介质,涉及人工智能领域,尤其涉及语音技术领域。具体实现方案为:在接收到待处理音频时,确定待处理音频对应的目标发声方向;根据所述目标发声方向对应方向感重建滤波器,对所述待处理音频进行方向感重建,得到目标音频;输出所述目标音频。本公开实施例为线上参与方提供了线上沉浸式的沟通体验。与方提供了线上沉浸式的沟通体验。与方提供了线上沉浸式的沟通体验。

【技术实现步骤摘要】
音频处理方法、装置、设备和存储介质


[0001]本公开涉及人工智能
,尤其涉及语音
,具体涉及一种音频处理方法、装置、设备和存储介质。

技术介绍

[0002]在互联网高速发展的今天,越来越多的社会活动通过线上的方式进行举办,给广大用户提供了便捷。线上沟通作为一种新颖的交流方式被越来越多的用户所使用。将画面和参与方的发声通过外设反馈给用户,用户便可以从线上沟通中获取信息。

技术实现思路

[0003]本公开提供了一种音频处理方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种音频处理方法,包括:
[0005]在接收到待处理音频时,确定所述待处理音频对应的目标发声方向;
[0006]根据所述目标发声方向对应方向感重建滤波器,对所述待处理音频进行方向感重建,得到目标音频;
[0007]输出所述目标音频。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:
[0009]至少一个处理器;以及
[0010]与所述至少一个处理器通信连接的存储器;其中,
[0011]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例提供的任意一种音频处理方法。
[0012]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开实施例提供的任意一种音频处理方法。
[0013]本公开实施例为线上参与方提供了沉浸式的沟通体验。
[0014]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0015]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0016]图1是本公开实施例提供的一种音频处理方法的示意图;
[0017]图2是本公开实施例提供的另一种音频处理方法的示意图;
[0018]图3是本公开实施例提供的又一种音频处理方法的示意图;
[0019]图4A是本公开实施例提供的又一种音频处理方法的示意图;
[0020]图4B是本公开实施例提供的一种空间感测试结果对照图;
[0021]图4C是本公开实施例提供的一种个人偏好测试结果对照图;
[0022]图4D是本公开实施例提供的一种模式切换情况下适用缓存方式前后的音质频谱示意图;
[0023]图5是本公开实施例提供的一种音频处理装置的结构图;
[0024]图6是用来实现本公开实施例的音频处理方法的电子设备的框图。
具体实施方式
[0025]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0026]本公开提供的各音频处理方法和音频处理装置,适用于在线上沟通(如线上会议或群聊)的情况下,对参与方进行音频处理的情况。本公开提供的各音频处理方法可以由音频处理装置执行,该装置可以硬件和/或软件的方式来实现,可配置于电子设备中。
[0027]为了便于理解,首先对各音频处理方法进行详细说明。
[0028]参考图1所示的音频处理方法,包括:
[0029]S110、在接收到待处理音频时,确定待处理音频对应的目标发声方向。
[0030]其中,待处理音频可以是目标参与方的待处理音频。所谓目标参与方,可以是参加线上沟通的登录账号或设备等。待处理音频可以是目标参与方在沟通中输出的音频信息。目标发声方向可以是目标参与方在线上沟通中被赋予的模拟声源方向。其中,待处理音频、目标参与方以及目标发声方向具备对应关系,通常为一一对应。
[0031]示例性的,在实际情况中,为了使目标参与方之外的其他参与方,能够在线上沟通过程中感知目标参与方的位置,在接收到目标参与方的待处理音频后,对该待处理音频赋予一个模拟声源方向。可以根据音频的能量确定是否接收到包含人声的待处理音频,进而确定待处理音频对应的目标参与方。由于不同声音的能量不同,可以通过设定声音的能量阈值对可识别的声音信息进行筛选,过滤掉背景噪音等,从而将包含人声的音频信息作为待处理音频,以供后续处理。
[0032]S120、根据目标发声方向对应方向感重建滤波器,对待处理音频进行方向感重建,得到目标音频。
[0033]其中,方向感重建滤波器可以是对目标参与方的待处理音频进行滤波处理的滤波器,该滤波器可以通过软件和/或硬件方式来实现,例如可以是HRTF(Head Related Transfer Functions,头相关传输函数)滤波器。目标音频则可以是对待处理音频赋予了方向感的音频信息。
[0034]其中,HRTF模拟了声波从声源到双耳的传输过程。它是人的生理结构(如头、耳廓以及躯干等)对声波进行综合滤波的结果。因为HRTF包含了有关声源定位的信息,所以可以用于对声音进行方向感重建;在实际应用中,利用耳机或扬声器播放用HRTF处理过的声音信号,可以虚拟出各种不同的空间听觉效果。
[0035]示例性的,可以在确定了目标参与方的发声方向后,对属于该目标参与方的待处理音频进行滤波,为待处理音频赋予方向感,得到方向感重建后的音频信息。
[0036]S130、输出目标音频。
[0037]示例性的,可以向参加线上沟通的各参与方输出目标音频。通常情况下,仅需向其他参与方输出目标音频即可,以减少不必要传输资源的浪费。
[0038]其中,其他参与方可以是参加线上沟通的各参与方中除目标参与方之外的参与方。在获得了方向感重建后的目标音频信息之后,将这些具有方向感信息的目标音频发送给其他参与方,以供接听。
[0039]本公开实施例的技术方案,通过确定目标参与方的发声方向,为该音频进行方向感重建,使得其他参与方听到的目标音频具有方向感,从而达到模拟线下沟通的效果,提高了线上沉浸式的沟通体验。
[0040]上述音频处理方法,由于需要目标发声方向的确定以及方向感重建,因此在音频输出过程中存在一定的时延和内存资源的占用。为了便于用户自主选择是否需要体验沉浸式沟通,可以预先设置包括沉浸模式和普通模式的通话模式,以供选取。
[0041]示例性的,若选取沉浸模式,则采用沉浸模式下的音频输出机制:采用本公开所提供的各音频处理方法,将目标参与方的待处理音频转化为目标音频,并将目标音频作为待输出音频以供输出;若选取普通模式,则采用普通模式下的音频输出机制:直接将目标参与方的待处理音频作为待输出音频,以供输出。
[0042]在实际使用的过程中,存在进行模式切换的情况,也即从沉浸模式切换至普通模式,或者本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频处理方法,包括:在接收到待处理音频时,确定所述待处理音频对应的目标发声方向;根据所述目标发声方向对应方向感重建滤波器,对所述待处理音频进行方向感重建,得到目标音频;输出所述目标音频。2.根据权利要求1所述的方法,其中,所述目标发声方向对应方向感重建滤波器的目标滤波系数,采用以下方式确定:获取所述目标发声方向下的至少一个初始滤波系数;根据至少一个所述初始滤波系数,确定目标滤波系数。3.根据权利要求2所述的方法,其中,所述根据至少一个所述初始滤波系数,确定目标滤波系数,包括:对至少一个所述初始滤波系数进行加权,得到基准滤波系数;根据所述基准滤波系数,确定所述目标滤波系数。4.根据权利要求3所述的方法,其中,所述根据所述基准滤波系数,确定所述目标滤波系数,包括:根据所述基准滤波系数对应方向感重建滤波器的频谱数据,调整所述基准滤波系数,得到所述目标滤波系数。5.根据权利要求1

4任一项所述的方法,其中,所述在接收到待处理音频时,确定所述待处理音频对应的目标发声方向,包括:在接收到待处理音频时,根据所述待处理音频对应目标参与方的标识信息,确定所述目标发声方向。6.根据权利要求5所述的方法,其中,所述根据所述待处理音频对应目标参与方的标识信息,确定所述目标发声方向,包括:根据所述待处理音频对应目标参与方的标识信息,判断所述目标参与方是否已分配发声方向;若否,则根据待分配发声方向的存在情况,向所述目标参与方分配所述目标发声方向。7.根据权利要求6所述的方法,其中,所述根据待分配发声方向的存在情况,向所述目标参与方分配所述目标发声方向,包括:若不存在待分配发声方向,则根据所述目标参与方的标识信息,从各已分配发声方向中选取所述目标发声方向。8.根据权利要求6所述的方法,其中,所述根据待分配发声方向的存在情况,向所述目标参与方分配所述目标发声方向,包括:若存在待分配发声方向,则根据所述目标参与方的发声顺序,从所述待分配发声方向中选取所述目标发声方向。9.根据权利要求7所述的方法,其中,所述根据所述目标参与方的标识信息,从各已分配发声方向中选取所述目标发声方向,包括:确定所述目标参与方的标识信息的哈希值;对所述哈希值进行数值转换,得到分配参考数据;根据所述分配参考数据和预设发声方向数量,确定目标发声方向的标识信息。
10.根据权利要求1

9任一项所述的方法,还包括:在预设缓存区域缓存待输出音频;其中,所述待输出音频为沉浸模式下的目标音频,或者普通模式下的待处理音频;响应于模式切换操作,输出所述预设缓存区域中的待输出音频。11.根据权利要求1

10任一项所述的方法,在所述输出所述目标音频之前,所述方法还包括:对所述目标音频进行房间混响,以更新所述目标音频。12.一种音频处理装置,包括:方向确定模块,用于在接收到待处理音频时,确定所述待处理音频对应的目标发声方向;方向感重建模块,用于根据所述目标发声方向对应方向感重建滤波器,对所述待处理音频进行方向感重建,得到目标音频;音频输出模块,用于输出所述目标音频。13.根据权利要求12所述的装置,其中,所述装置还包括目标滤波系数确定模块,用于确定所述目标发声方向对应方向感重建滤波器的目标滤波系数,具体包括:初始滤波系数获取单元,...

【专利技术属性】
技术研发人员:卿睿魏建强
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1