识别音频数据声音来源的方法、存储介质和电子设备技术

技术编号：36188154 阅读：19 留言：0更新日期：2022-12-31 20:57

本发明专利技术公开了一种识别音频数据声音来源的方法、存储介质和电子设备。其中，该方法包括：接收来自于预设虚拟空间内多个第一虚拟形象的音频数据和第一位置数据，其中，多个第一虚拟形象的当前身份为说话人身份；利用第一位置数据和第二位置数据确定空间位置关系，其中，第二位置数据为第二虚拟形象的位置数据，第二虚拟形象的当前身份为收听人身份，空间位置关系用于确定第二虚拟形象与多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系；基于空间位置关系识别音频数据的声音来源。本发明专利技术解决了虚拟空间中出现多位说话人同时发言的情况下音源混杂、用户体验差的技术问题。言的情况下音源混杂、用户体验差的技术问题。言的情况下音源混杂、用户体验差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
识别音频数据声音来源的方法、存储介质和电子设备

[0001]本专利技术涉及计算机
，具体而言，涉及一种识别音频数据声音来源的方法、存储介质和电子设备。

技术介绍

[0002]远程会议是一种常用的会议形式。在传统的远程会议中，由于展示与会人的画面，确定当前说话人的方式可以是：通过在远程会议产品设计中采用改变画面布局、设置画面高亮等方式标注当前说话人；或者根据与会人的画面，通过动作、口型等信息快速分辨当前说话人。
[0003]近年来，远程会议场景中出现越来越多的虚拟会议室，在虚拟会议室中，与会人的画面被与会人对应的虚拟形象代替，虚拟会议室的场景布局和与会人的虚拟形象绑定。此时，产品设计中难以通过改变场景布局标注当前说话人，虚拟会议室的听众也难以快速分辨当前说话人。
[0004]此外，在虚拟会议室中，可能出现多位与会人同时发言的情况，此时会议语音较为混杂，听众难以清晰地分辨语音，导致用户体验感差。
[0005]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0006]本专利技术实施例提供了一种识别音频数据声音来源的方法、存储介质和电子设备，以至少解决虚拟空间中出现多位说话人同时发言的情况下音源混杂、用户体验差的技术问题。
[0007]根据本专利技术实施例的一个方面，提供了一种识别音频数据声音来源的方法，包括：接收来自于预设虚拟空间内多个第一虚拟形象的音频数据和第一位置数据，其中，多个第一虚拟形象的当前身份为说话人身份；利用第一位置数据和第二位置数据确定空间...

【技术保护点】

【技术特征摘要】
1.一种识别音频数据声音来源的方法，其特征在于，包括：接收来自于预设虚拟空间内多个第一虚拟形象的音频数据和第一位置数据，其中，所述多个第一虚拟形象的当前身份为说话人身份；利用所述第一位置数据和第二位置数据确定空间位置关系，其中，所述第二位置数据为第二虚拟形象的位置数据，所述第二虚拟形象的当前身份为收听人身份，所述空间位置关系用于确定所述第二虚拟形象与所述多个第一虚拟形象中每个第一虚拟形象之间的相对位置关系；基于所述空间位置关系识别所述音频数据的声音来源。2.根据权利要求1所述的方法，其特征在于，利用所述第一位置数据和所述第二位置数据确定所述空间位置关系包括：利用所述多个第一虚拟形象中每个第一虚拟形象在所述预设虚拟空间内的第一坐标位置与所述第二虚拟形象在所述预设虚拟空间内的第二坐标位置进行差值运算，得到所述空间位置关系，其中，所述空间位置关系包括：所述第二虚拟形象与所述多个第一虚拟形象中每个第一虚拟形象之间的相对方位关系，所述第二虚拟形象与所述多个第一虚拟形象中每个第一虚拟形象之间的相对距离关系。3.根据权利要求1所述的方法，其特征在于，基于所述空间位置关系识别所述音频数据的声音来源包括：利用所述空间位置关系确定所述音频数据在目标回放设备上每个声道分量对应的权重系数，其中，所述目标回放设备为所述第二虚拟形象关联的回放设备并且所述目标回放设备支持多声道的空间音频回放；基于所述目标回放设备上每个声道分量对应的权重系数合成多声道空间音频；通过所述多声道空间音频识别所述音频数据的声音来源。4.根据权利要求3所述的方法，其特征在于，利用所述空间位置关系确定所述音频数据在所述目标回放设备上每个声道分量对应的权重系数包括：利用所述空间位置关系确定目标长度与目标夹角，其中，所述目标长度为所述目标回放设备上每个声道分量对应的收听位置与所述多个第一虚拟形象中每个第一虚拟形象的第一坐标位置形成的目标向量的长度，所述目标夹角为所述目标向量对应的方向与所述目标回放设备上每个声道分量对应的方向之间的夹角；基于所述目标长度计算得到所述目标回放设备上每个声道分量对应的第一衰减系数，以及基于所述目标夹角计算得到所述目标回放设备上每个声道分量对应的第二衰减系数，其中，所述第一衰减系数为距离性衰减系数，所述第二衰减系数为指向性衰减系数；采用所述第一衰减系数和所述第二衰减系数计算得到所述目标回放设备上每个声道分量对应的权重系数。5.根据权利要求4所述的方法，其特征在于，基于所述目标夹角计算得到所述目标回放设备上每个声道分量对应的所述第二衰减系数包括：对所述目标回放设备上每个声道分量对应的所述音频数据进行快速傅里叶变换，得到变换结果；基于所述变换结果，采用所述目标夹角计算得到所述目标回放设备上每个声道分量对应的所述第二衰减系数。
6.根据权利要求4所述的方法，其特征在于，基于所述目标回放设备上每个声道分量对应的权重系数合成所述多声道空间音频包括：基于所述目标回放设备上每个声道分量对应的权重系数以及每个声道分量对应的所述音频数据进行加权求和运算，得到所述多声道空间音频。7.根据权利要求3所述的方法，其特征在于，所述方法还包括：获取所述音频数据在目标回放设备上不同声道分量之间的相位差，其中，所述相位差用于辅...

【专利技术属性】
技术研发人员：张帅舸，刘成锋，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人