声音处理方法及相关系统、存储介质技术方案

技术编号：40049174 阅读：3 留言：0更新日期：2024-01-16 20:56

一种声音处理的方法，该方法包括：确定第一音幕范围；根据所述第一音幕范围确定第一拾音区域和第二拾音区域，以使得由所述第一拾音区域和所述第二拾音区域构成的第一目标拾音区域与所述第一音幕范围重叠；根据第一声音信号和第二声音信号得到第一目标声音信号；所述第一声音信号是从所述第一拾音区域中采集到，且所述第一声音信号包含所述第一发言人的声音信号和第一噪声信号，所述第二声音信号是从所述第二拾音区域中采集到，且所述第二声音信号包含所述第一噪声信号，所述第一目标声音信号包含所述第一发言人的声音信号且不包含所述第一噪声信号。采用该手段，可以解决干扰和噪声环境下目标语音听不清的问题，大幅提升远程开会或教学的体验。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及拾音，尤其涉及一种声音处理方法及相关系统、存储介质。

技术介绍

1、伴随着技术进步，线上远程会议和教学愈发受到关注，其可大幅降低不同地域间的沟通成本及实现优质资源共享。其中，拾音是协作会议系统和远程教学系统中不可或缺的模块。然而，实际场景所面临的声学环境复杂。比如，说话人可能处于半开放型会议室中或者教室中。在这类场景中，说话人往往处于半开放型空间中的部分区域(例如教室讲台等)，该空间中可能存在各类干扰、噪声。此时，清晰、准确地拾取目标说话人的语音，且屏蔽干扰和噪声是一个很有挑战同时也是制约远程会议/教学体验的瓶颈问题。

技术实现思路

1、本申请公开了一种声音处理方法及相关系统、存储介质，可以解决干扰和噪声环境下仅拾取目标说话人的语音的问题，从而避免出现拾取的目标说话人的语音听不清的情况，大幅提升远程开会或教学的体验。

2、第一方面，本申请实施例提供一种声音处理方法。该方法包括：终端处理单元确定第一音幕范围。然后，终端处理单元根据该第一音幕范围确定第一拾音区域和第二拾音区域，以使得由该第一拾音区域和该第二拾音区域构成的第一目标拾音区域与该第一音幕范围重叠。其中，该第一拾音区域是第一麦克风阵列在设置第一波束后的声音采集区域。该第二拾音区域是第二麦克风阵列在设置第二波束后的声音采集区域。终端处理单元根据第一声音信号和第二声音信号得到第一目标声音信号。该第一声音信号是从该第一拾音区域中采集到。且该第一声音信号包含第一发言人的声音信号和第一噪声信号。该第二声音信号是从该

3、在上述方案中，通过对从第一拾音区域采集的第一声音信号和从第二拾音区域采集的第二声音信号进行处理，得到位于第一目标拾音区域的、包含第一发言人(例如，目标说话人)的声音信号而不包含噪声信号的第一目标信号；并且，由于第一目标拾音区域是由根据第一音幕范围确定的第一拾音区域和第二拾音区域构成的、且与该第一音幕范围重叠的区域，因此，本方案可以实现仅拾取该第一音幕范围中的第一发言人的声音信号，而不拾取其他噪声信号的功能。也就是说，本方案可以解决干扰和噪声环境下仅拾取目标说话人的语音的问题，从而避免出现拾取的目标说话人的语音听不清的情况，大幅提升远程开会或教学的体验。

4、该第一音幕范围，可以理解为即想要拾取的包含第一发言人的声音的封闭区域。

5、该第一音幕范围可以是任意形状的封闭区域，例如可以是三角形、四边形等多边形，本方案对此不作严格限制。其中，尽管实际空间为三维，但本方案中仅根据平面投影划分拾音区域/音幕范围(区域)，不严格限定声源高度。可选的，在音幕范围内且位于正常高度范围(例如十几厘米到两米间等)内的声源均属于该音幕范围内，其均需要被有效拾取。

6、在一种可能的实现方式中，该第一拾音区域和第二拾音区域具有重叠区域。该重叠区域的声音信号包含该第一噪声信号。该第一目标拾音区域为该第一拾音区域去除该重叠区域后的区域。

7、在一种可能的实现方式中，所述根据第一声音信号和第二声音信号得到第一目标声音信号，包括：将第一声音信号和第二声音信号中的重复信号从第一声音信号中消除，以得到该第一目标声音信号。

8、例如，采用人工智能(artificial intelligence，ai)算法进行抵消处理来实现。该ai算法可以是将所述第一声音信号和所述第二声音信号中的重复信号(即第一噪声信号)从所述第一声音信号中消除，即只保留第一声音信号中与第二声音信号不相同的声音信号，以得到所述第一目标声音信号。需要说明的是，由于第一目标拾音区域与第一音幕范围重叠，第一音幕范围是想要拾取的第一发言人的声音信号的区域。因此，上述得到的第一目标声音信号，也即是位于第一目标拾音区域的信号。

9、上述仅为一种示例，其还可以采用其他处理以得到第一目标声音信号，例如也可以通过谱减法(比较及跟踪两路波束所接收的声音信号的频谱特征，从第一声音信号的声音频谱中剔除第一声音信号的频谱分量)等传统信号处理算法实现。

10、该示例中，通过将第一声音信号和第二声音信号中的重复信号如噪声信号从第一声音信号中消除，进而仅保留第一发言人的声音信号，可以实现仅拾取该第一音幕范围中的第一发言人的声音信号，而不拾取其他噪声信号的功能。

11、在一种可能的实现方式中，所述将所述第一声音信号和所述第二声音信号中的重复信号从所述第一声音信号中消除，以得到所述第一目标声音信号，包括：

12、将所述第一声音信号以及所述第二声音信号输入至预设模型中进行处理，以得到所述第一目标声音信号。

13、通过基于ai抵消处理，即可以将两个声音信号中相同的部分进行抵消，最后得到第一目标声音信号。

14、在一种可能的实现方式中，所述第一目标拾音区域为封闭的区域，且所述第一目标拾音区域的边界由所述第一拾音区域的边界和所述第二拾音区域的边界构成。

15、例如，基于该两个麦克风阵列的位置以及该第一音幕范围可以将该第一发言人所处房间划分为9个区域(即九宫格)。其中，该第一音幕范围可位于其他8个区域的中间。这样设置，即使说话人不靠近墙体，也能够为该说话人形成封闭的音幕范围，进而根据该封闭的音幕范围达到拾取该说话人的声音信号、而不拾取噪声信号的目的。

16、在一种可能的实现方式中，所述根据所述第一音幕范围确定第一拾音区域和第二拾音区域，包括：根据第一音幕范围确定第一麦克风阵列的位置，第二麦克风阵列的位置，第一波束和第二波束。根据第一麦克风阵列的位置和第一波束确定第一拾音区域。根据第二麦克风阵列的位置和第二波束确定第二拾音区域。

17、其中，在根据第一音幕范围确定了各麦克风阵列的位置后，可对各麦克风阵列设置波束参数，以便进行拾音。该波束参数可包括张角。每个波束的张角分别对应一个声音采集区域。这样设计，可以获取到相应的拾音区域的声音信号。

18、在一种可能的实现方式中，所述第一音幕范围为多边形，所述第一麦克风阵列位于所述多边形的第一顶点，所述第二麦克风阵列位于所述多边形的第二顶点。

19、通过将麦克风阵列设置在多边形的顶点，这样可以有助于基于各麦克风阵列在设置波束后所构成的第一目标拾音区域与第一音幕范围更好的重叠，进而可以提高拾取第一发言人的声音信号的准确性。

20、在一种可能的实现方式中，终端处理单元根据第一发言人的位置确定所述第一音幕范围。该第一发言人可以是远程会议或者远程教学中的发言的人员，该发言的人员可以是任意人员。例如，老师处于讲台区域讲话，则该第一音幕范围可以是该讲台区域。学生处于座位上发言，则该第一音幕范围可以是该学生座位形成的封闭区域等。

21、在另一种可能的实现方式中，终端处理单元根据噪声覆盖区域确定所述第一音幕范围。该噪声覆盖区域可以是除第一发言人的声音外的其他声音的覆盖区域。...

【技术保护点】

1.一种声音处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一拾音区域和所述第二拾音区域具有重叠区域，所述重叠区域的声音信号包含所述第一噪声信号，所述第一目标拾音区域为所述第一拾音区域去除所述重叠区域后的区域。

3.根据权利要求2所述的方法，其特征在于，所述根据第一声音信号和第二声音信号得到第一目标声音信号，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一声音信号和所述第二声音信号中的重复信号从所述第一声音信号中消除，以得到所述第一目标声音信号，包括：

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述第一目标拾音区域为封闭的区域，且所述第一目标拾音区域的边界由所述第一拾音区域的边界和所述第二拾音区域的边界构成。

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述根据所述第一音幕范围确定第一拾音区域和第二拾音区域，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一音幕范围为多边形，所述第一麦克风阵列位于所述多边形的第一顶点，所述第二麦克风阵

8.根据权利要求1-7任意一项所述的方法，其特征在于，所述确定第一音幕范围，包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述方法还包括：

11.一种声音处理装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述第一拾音区域和所述第二拾音区域具有重叠区域，所述重叠区域的声音信号包含所述第一噪声信号，所述第一目标拾音区域为所述第一拾音区域去除所述重叠区域后的区域。

13.根据权利要求12所述的装置，其特征在于，所述信号处理模块，用于：

14.根据权利要求13所述的装置，其特征在于，所述信号处理模块，还用于：

15.根据权利要求11-14任意一项所述的装置，其特征在于，所述第一目标拾音区域为封闭的区域，且所述第一目标拾音区域的边界由所述第一拾音区域的边界和所述第二拾音区域的边界构成。

16.根据权利要求11-15任意一项所述的装置，其特征在于，所述第二确定模块，用于：

17.根据权利要求16所述的装置，其特征在于，所述第一音幕范围为多边形，所述第一麦克风阵列位于所述多边形的第一顶点，所述第二麦克风阵列位于所述多边形的第二顶点。

18.根据权利要求11-17任意一项所述的装置，其特征在于，所述第一确定模块，用于：

19.根据权利要求18所述的装置，其特征在于，所述第一确定模块，还用于：

20.根据权利要求11至19任意一项所述的装置，其特征在于，

21.一种声音处理装置，其特征在于，包括处理器和存储器；其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至10任意一项所述的方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至10任意一项所述的方法。

23.一种计算机程序产品，其特征在于，当计算机程序产品在计算机上运行时，使得所述计算机执行如权利要求1至10任意一项所述的方法。

24.一种声音处理系统，其特征在于，包括如权利要求21所述的声音处理装置，第一麦克风阵列，第二麦克风阵列和扬声器；

...

【技术特征摘要】

1.一种声音处理方法，其特征在于，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据第一声音信号和第二声音信号得到第一目标声音信号，包括：

6.根据权利要求1-5任意一项所述的方法，其特征在于，所述根据所述第一音幕范围确定第一拾音区域和第二拾音区域，包括：

7.根据权利要求6所述的方法，其特征在于，所述第一音幕范围为多边形，所述第一麦克风阵列位于所述多边形的第一顶点，所述第二麦克风阵列位于所述多边形的第二顶点。

8.根据权利要求1-7任意一项所述的方法，其特征在于，所述确定第一音幕范围，包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述方法还包括：

11.一种声音处理装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述第一拾音区域和所述第二拾音区域具有重叠区域，所述重叠区域的声音信号包含所述第一噪声信号，所述第一目标拾音区域为所述第一拾音区域去除所述...

【专利技术属性】
技术研发人员：王文侠，张磊，刘智辉，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人