混音方法、装置、设备、系统及可读存储介质制造方法及图纸

技术编号：23772045 阅读：49 留言：0更新日期：2020-04-12 00:41

本发明专利技术公开了两种可分别应用于多点会议控制器和SFU中混音方法、装置、设备、系统及可读存储介质。当采用多点会议控制器进行混音处理时，在静音状态多点会议控制器不进行混音处理，在非静音状态下对音频RTP包进行筛选后进行混音，可大大降低多点会议控制器的混音任务量，在参会方较多的场景下，多点会议控制器也能满足混音需求。当采用终端测进行混音处理时，在静音状态SFU不转发音频数据包，在非静音状态下对音频RTP包的筛选，可大大降低SFU向各个会议终端转发的音频RTP包的数量，即会议终端的混音任务量便可降低。如此，在参会方较多的场景下，终端侧也能满足混音需求。

Mixing method, device, equipment, system and readable storage medium

全部详细技术资料下载

【技术实现步骤摘要】
混音方法、装置、设备、系统及可读存储介质
本专利技术涉及信号处理
，特别是涉及两种混音方法、装置、设备、系统及可读存储介质。
技术介绍
随着在多方视频会议中，每一个接收端都要能够听到其他终端发出的声音，同时不能听到自己发出的声音，因此就需要有混音功能；混音可以在平台做，也可以在终端侧做。在平台做混音时平台就需要接收多有终端发送的音频码流，并进行解码，然后针对不同终端进行混音，使其不包含接收终端发送的声音，最后将混音后的声音进行编码发送给接收端。若终端做混音，则平台接收终端的音频码流，并将其转发给其他终端，终端收到多条音频码流后进行解码，最后进行混音播放。对于上面所述的两种混音方式，在入会方数较少时，平台或者终端的性能能够满足解码播放；但在入户方数较多，甚至上百级别的大方数会议中，平台或者终端的性能完全不能满足大量的音频编解码和音频码流转发的需要。且，在大多数会议中，难以保证所有终端都能够被哑音，这就会导致很多噪声进入混音，导致混音后的声音嘈杂，严重影响声音的效果。综上所述，如何有效地解决入会方数量较多情...

【技术保护点】
1.一种混音方法，其特征在于，应用于多点会议控制器，包括：/n接收各个会议终端发送的音频RTP包，并读取各个所述音频RTP包的扩展头信息；所述扩展头信息包括声音特征信息或静音标记信息；/n利用当前混音时间对应的所述静音标记信息判断当前混音时间是否为静音状态；/n如果是，则生成含有静音标记的音频帧；/n如果否，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，并对所述目标音频RTP包进行解码混音；对混音结果进行编码，得到当前混音时间各个所述会议终端分别对应的混音RTP包，将所述混音RTP包发送至各个所述会议终端，以便所述会议终端利用所述混音RTP包播放会议语音。/n

【技术特征摘要】
1.一种混音方法，其特征在于，应用于多点会议控制器，包括：
接收各个会议终端发送的音频RTP包，并读取各个所述音频RTP包的扩展头信息；所述扩展头信息包括声音特征信息或静音标记信息；
利用当前混音时间对应的所述静音标记信息判断当前混音时间是否为静音状态；
如果是，则生成含有静音标记的音频帧；
如果否，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，并对所述目标音频RTP包进行解码混音；对混音结果进行编码，得到当前混音时间各个所述会议终端分别对应的混音RTP包，将所述混音RTP包发送至各个所述会议终端，以便所述会议终端利用所述混音RTP包播放会议语音。

2.根据权利要求1所述的混音方法，其特征在于，所述声音特征信息包括语音标记、能量值、噪音标记和音乐标记；利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，包括：
判断具有所述声音特征信息的音频RTP包的路数是否小于预设阈值；
如果否，则按所述能量值的大小进行排序，并结合所述音乐标记、所述语音标记和所述噪音标记筛选出所述目标音频RTP包；
如果是，则将具有所述声音特征信息的音频RTP包确定为所述目标音频RTP包。

3.根据权利要求1所述的混音方法，其特征在于，所述对混音结果进行编码，得到混音RTP包，包括：
分别判断各个所述会议终端分别对应的上一帧混音RTP包是否发送给各个所述会议终端；
将未发送的帧数添加至相应的会议终端对应的RTP扩展头中，获得所述混音RTP包。

4.根据权利要求1所述的混音方法，其特征在于，在所述生成含有静音标记的音频帧之后，还包括：
分别判断各个所述会议终端对应的所述音频帧对应的上一个音频帧是否包括所述静音标记；
如果否，则将预设字节数据作为帧数据并将RTP扩展头中添加所述静音标记，将所述含有静音标记的音频帧发送至相应所述会议终端；
如果是，则不发送所述含有静音标记的音频帧。

5.根据权利要求1至4任一项所述的混音方法，其特征在于，在所述接收各个会议终端发送的音频RTP包之前，包括：
各个所述会议终端生成并发送的具有与声音识别结果相匹配的扩展头信息的音频RTP包；其中，所述声音识别结果为所述会议终端利用声音特征识别模型对自身采集得到的声音信号进行识别后获得的；所述声音特征识别模型为利用深度学习训练后获得的模型。

6.一种混音方法，其特征在于，应用于选择性转发单元，包括：
接收各个会议终端发送的音频RTP包，并读取各个所述音频RTP包的扩展头信息；所述扩展头信息包括声音特征信息或静音标记信息；
利用所述静音标记信息判断当前混音时间是否为静音状态；
如果是，则暂停向各个接收终端转发所述音频RTP包；
如果否，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，将所述目标音频RTP包发送至各个所述接收终端，以便所述接收终端利用所述目标音频RTP包进行混音后播放会议语音。

7.根据权利要求6所述的混音方法，其特征在于，所述声音特征信息包括语音标记、能量值、噪音标记和音乐标记；利用所述声音特征信息从各个所...

【专利技术属性】
技术研发人员：王展，胡小鹏，顾振华，
申请(专利权)人：苏州科达科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人