识别音频数据声音来源的方法、存储介质和电子设备技术

技术编号:36188154 阅读:19 留言:0更新日期:2022-12-31 20:57
本发明专利技术公开了一种识别音频数据声音来源的方法、存储介质和电子设备。其中,该方法包括:接收来自于预设虚拟空间内多个第一虚拟形象的音频数据和第一位置数据,其中,多个第一虚拟形象的当前身份为说话人身份;利用第一位置数据和第二位置数据确定空间位置关系,其中,第二位置数据为第二虚拟形象的位置数据,第二虚拟形象的当前身份为收听人身份,空间位置关系用于确定第二虚拟形象与多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系;基于空间位置关系识别音频数据的声音来源。本发明专利技术解决了虚拟空间中出现多位说话人同时发言的情况下音源混杂、用户体验差的技术问题。言的情况下音源混杂、用户体验差的技术问题。言的情况下音源混杂、用户体验差的技术问题。

【技术实现步骤摘要】
识别音频数据声音来源的方法、存储介质和电子设备


[0001]本专利技术涉及计算机
,具体而言,涉及一种识别音频数据声音来源的方法、存储介质和电子设备。

技术介绍

[0002]远程会议是一种常用的会议形式。在传统的远程会议中,由于展示与会人的画面,确定当前说话人的方式可以是:通过在远程会议产品设计中采用改变画面布局、设置画面高亮等方式标注当前说话人;或者根据与会人的画面,通过动作、口型等信息快速分辨当前说话人。
[0003]近年来,远程会议场景中出现越来越多的虚拟会议室,在虚拟会议室中,与会人的画面被与会人对应的虚拟形象代替,虚拟会议室的场景布局和与会人的虚拟形象绑定。此时,产品设计中难以通过改变场景布局标注当前说话人,虚拟会议室的听众也难以快速分辨当前说话人。
[0004]此外,在虚拟会议室中,可能出现多位与会人同时发言的情况,此时会议语音较为混杂,听众难以清晰地分辨语音,导致用户体验感差。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种识别音频数据声音来源的方法、存储介质和电子设备,以至少解决虚拟空间中出现多位说话人同时发言的情况下音源混杂、用户体验差的技术问题。
[0007]根据本专利技术实施例的一个方面,提供了一种识别音频数据声音来源的方法,包括:接收来自于预设虚拟空间内多个第一虚拟形象的音频数据和第一位置数据,其中,多个第一虚拟形象的当前身份为说话人身份;利用第一位置数据和第二位置数据确定空间位置关系,其中,第二位置数据为第二虚拟形象的位置数据,第二虚拟形象的当前身份为收听人身份,空间位置关系用于确定第二虚拟形象与多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系;基于空间位置关系识别音频数据的声音来源。
[0008]根据本专利技术实施例的另一方面,还提供了一种识别音频数据声音来源的方法,包括:接收来自于虚拟会议室内多个第一虚拟形象的音频数据和第一位置数据,其中,多个第一虚拟形象的当前身份为会议发言者身份;利用第一位置数据和第二位置数据确定空间位置关系,其中,第二位置数据为第二虚拟形象的位置数据,第二虚拟形象的当前身份为会议收听者身份,空间位置关系用于确定第二虚拟形象与多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系;基于空间位置关系识别音频数据在虚拟会议室内的声音来源。
[0009]根据本专利技术实施例的另一方面,还提供了一种识别音频数据声音来源的方法,包括:接收来自于虚拟课堂内多个第一虚拟形象的音频数据和第一位置数据,其中,多个第一虚拟形象的当前身份为课堂发言者身份;利用第一位置数据和第二位置数据确定空间位置
关系,其中,第二位置数据为第二虚拟形象的位置数据,第二虚拟形象的当前身份为课堂收听者身份,空间位置关系用于确定第二虚拟形象与多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系;基于空间位置关系识别音频数据在虚拟课堂内的声音来源。
[0010]根据本专利技术实施例的另一方面,还提供了一种计算机可读存储介质,上述计算机可读存储介质包括存储的程序,其中,在上述程序运行时控制上述计算机可读存储介质所在设备执行任意一项上述的识别音频数据声音来源的方法。
[0011]根据本专利技术实施例的另一方面,还提供了一种电子设备,包括:处理器;以及存储器,与上述处理器连接,用于为上述处理器提供处理以下处理步骤的指令:接收来自于预设虚拟空间内多个第一虚拟形象的音频数据和第一位置数据,其中,多个第一虚拟形象的当前身份为说话人身份;利用第一位置数据和第二位置数据确定空间位置关系,其中,第二位置数据为第二虚拟形象的位置数据,第二虚拟形象的当前身份为收听人身份,空间位置关系用于确定第二虚拟形象与多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系;基于空间位置关系识别音频数据的声音来源。
[0012]在本专利技术实施例中,接收来自于预设虚拟空间内多个第一虚拟形象的音频数据和第一位置数据,其中,多个第一虚拟形象的当前身份为说话人身份,通过利用第一位置数据和第二位置数据确定空间位置关系,其中,第二位置数据为第二虚拟形象的位置数据,第二虚拟形象的当前身份为收听人身份,空间位置关系用于确定第二虚拟形象与多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系,进一步基于空间位置关系识别音频数据的声音来源。
[0013]容易注意到的是,通过本专利技术实施例,当预设虚拟空间内存在多个当前说话人时,通过多个当前说话人与收听人之间的相对位置关系,识别多个当前说话人的音频数据的声音来源,能够在预设虚拟空间内模拟人类的双耳效应确定说话人的方位,达到了在预设虚拟空间内根据多个说话人虚拟形象和收听人虚拟形象之间的相对位置关系识别多个说话人虚拟形象的音频数据的声音来源的目的,从而实现了在虚拟空间中出现多位说话人同时发言的情况下增强音频数据的辨识度、提高用户体验的技术效果,进而解决了虚拟空间中出现多位说话人同时发言的情况下音源混杂、用户体验差的技术问题。
附图说明
[0014]此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:
[0015]图1示出了一种用于实现识别音频数据声音来源的方法的计算机终端(或移动设备)的硬件结构框图;
[0016]图2是根据本专利技术实施例的一种识别音频数据声音来源的方法的虚拟现实设备的硬件环境的示意图;
[0017]图3是根据本专利技术实施例的一种识别音频数据声音来源的方法的计算环境的结构框图;
[0018]图4是根据本专利技术实施例的一种识别音频数据声音来源的方法的流程图;
[0019]图5是根据本专利技术实施例的一种虚拟会议室的图形用户界面的示意图;
[0020]图6是根据本专利技术实施例的一种信号权重计算方式的示意图;
[0021]图7是根据本专利技术实施例的一种虚拟会议室中音频多声道回放过程的示意图;
[0022]图8是根据本专利技术实施例的一种音频数据双声道回放方式的示意图;
[0023]图9是根据本专利技术实施例的另一种识别音频数据声音来源的方法的流程图;
[0024]图10是根据本专利技术实施例的另一种识别音频数据声音来源的方法的流程图;
[0025]图11是根据本专利技术实施例的一种识别音频数据声音来源的装置的结构示意图;
[0026]图12是根据本专利技术实施例的一种可选的识别音频数据声音来源的装置的结构示意图;
[0027]图13是根据本专利技术实施例的另一种可选的识别音频数据声音来源的装置的结构示意图;
[0028]图14是根据本专利技术实施例的另一种识别音频数据声音来源的装置的结构示意图;
[0029]图15是根据本专利技术实施例的另一种可选的识别音频数据声音来源的装置的结构示意图;
[0030]图16是根据本专利技术实施例的又一种识别音频数据声音来源的装置的结构示意图;
[0031]图17是根据本专利技术实施例的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种识别音频数据声音来源的方法,其特征在于,包括:接收来自于预设虚拟空间内多个第一虚拟形象的音频数据和第一位置数据,其中,所述多个第一虚拟形象的当前身份为说话人身份;利用所述第一位置数据和第二位置数据确定空间位置关系,其中,所述第二位置数据为第二虚拟形象的位置数据,所述第二虚拟形象的当前身份为收听人身份,所述空间位置关系用于确定所述第二虚拟形象与所述多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系;基于所述空间位置关系识别所述音频数据的声音来源。2.根据权利要求1所述的方法,其特征在于,利用所述第一位置数据和所述第二位置数据确定所述空间位置关系包括:利用所述多个第一虚拟形象中每个第一虚拟形象在所述预设虚拟空间内的第一坐标位置与所述第二虚拟形象在所述预设虚拟空间内的第二坐标位置进行差值运算,得到所述空间位置关系,其中,所述空间位置关系包括:所述第二虚拟形象与所述多个第一虚拟形象中每个第一虚拟形象之间的相对方位关系,所述第二虚拟形象与所述多个第一虚拟形象中每个第一虚拟形象之间的相对距离关系。3.根据权利要求1所述的方法,其特征在于,基于所述空间位置关系识别所述音频数据的声音来源包括:利用所述空间位置关系确定所述音频数据在目标回放设备上每个声道分量对应的权重系数,其中,所述目标回放设备为所述第二虚拟形象关联的回放设备并且所述目标回放设备支持多声道的空间音频回放;基于所述目标回放设备上每个声道分量对应的权重系数合成多声道空间音频;通过所述多声道空间音频识别所述音频数据的声音来源。4.根据权利要求3所述的方法,其特征在于,利用所述空间位置关系确定所述音频数据在所述目标回放设备上每个声道分量对应的权重系数包括:利用所述空间位置关系确定目标长度与目标夹角,其中,所述目标长度为所述目标回放设备上每个声道分量对应的收听位置与所述多个第一虚拟形象中每个第一虚拟形象的第一坐标位置形成的目标向量的长度,所述目标夹角为所述目标向量对应的方向与所述目标回放设备上每个声道分量对应的方向之间的夹角;基于所述目标长度计算得到所述目标回放设备上每个声道分量对应的第一衰减系数,以及基于所述目标夹角计算得到所述目标回放设备上每个声道分量对应的第二衰减系数,其中,所述第一衰减系数为距离性衰减系数,所述第二衰减系数为指向性衰减系数;采用所述第一衰减系数和所述第二衰减系数计算得到所述目标回放设备上每个声道分量对应的权重系数。5.根据权利要求4所述的方法,其特征在于,基于所述目标夹角计算得到所述目标回放设备上每个声道分量对应的所述第二衰减系数包括:对所述目标回放设备上每个声道分量对应的所述音频数据进行快速傅里叶变换,得到变换结果;基于所述变换结果,采用所述目标夹角计算得到所述目标回放设备上每个声道分量对应的所述第二衰减系数。
6.根据权利要求4所述的方法,其特征在于,基于所述目标回放设备上每个声道分量对应的权重系数合成所述多声道空间音频包括:基于所述目标回放设备上每个声道分量对应的权重系数以及每个声道分量对应的所述音频数据进行加权求和运算,得到所述多声道空间音频。7.根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述音频数据在目标回放设备上不同声道分量之间的相位差,其中,所述相位差用于辅...

【专利技术属性】
技术研发人员:张帅舸刘成锋
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1