一种提升视频会议系统混音容量的方法技术方案

技术编号：13281841 阅读：96 留言：0更新日期：2016-07-08 23:41

本发明专利技术公开了一种提升视频会议系统混音容量的方法，借助opus码流中嵌入的语音活动状态标识，将压缩语音区分为活动语音和非活动语音，在网络接收阶段直接抛弃非活动语音，从而省掉了后续的解码和混音运算。具体步骤包括：从接收的opus编码语音帧中提取语音活动标记VAD，VAD标记分0、1、2三种值，分别指示非活动语音、活动语音、无法判断三种情况；对判断为非活动语音的opus帧在网络接收层选择性丢弃，同时修改后续的RTP包参数；当混音器输入语音缓冲区出现下溢时，填充静音帧，同时对静音帧的VAD标记和能量参数赋值。采用本发明专利技术方法可简化视频会议系统中混音运算步骤，从而大幅度提高混音容量，同时未给基于opus的互联互通带来不利影响。

全部详细技术资料下载

【技术实现步骤摘要】
一种提升视频会议系统混音容量的方法
本专利技术属于视频会议
，涉及一种混音容量提升方法，具体涉及一种提升视频会议系统混音容量的方法。技术背景多点混音是视频会议系统的一项基本功能。多点混音器通过将物理上分布在不同位置的与会者的声音混合在一起，每个与会者都能听到其他多个发言人的声音，达到模仿真实的会话场景的效果，增加了会议的临场感。但多点混音涉及到复杂的多路话音的编解码、混合运算及其它辅助处理，极大地限制了混音器容量的提升，提高混音器的处理效率成为突破混音容量上限的技术瓶颈。现有主流混音方案无一例外地对所有压缩语音数据全部解码，然后再选择能量高的活动语音来混合。由于所有语音数据都要经过解码及后续的处理，运算量居高不下。由于视频会议中通常只有少数人在讲话，大部分人不发言或很少发言，因此整体上多路语音中的非活动语音时段占绝对比例，对本不需要参与混音的非活动语音执行与活动语音同样的解码操作造成了运算资源的极大浪费。基于这一原理，部分研究者尝试在终端计算声音的能量和活动状态，作为参数与压缩语音一起传送到混音器，混音器只对能量高的活动语音进行处理。这种方式能有效降低计算量，但由于终端添加了本不属于音频标准的附加参数，影响了系统的互联互通性能。
技术实现思路
为了解决上述技术问题，本专利技术提供了一种提升视频会议系统简化混音器的运算过程、大幅度提高混音容量的混音容量的方法。本专利技术所采用的技术方案是：一种提升视频会议系统混音容量的方法，其特征在于，包括以下步骤：步骤1：活动语音标记提取；从接收的opus编码语音帧中提取语音活动标记VAD，VAD标记分0、1、2三种...

【技术保护点】
一种提升视频会议系统混音容量的方法，其特征在于，包括以下步骤：步骤1：活动语音标记提取；从接收的opus编码语音帧中提取语音活动标记VAD，VAD标记分0、1、2三种值，分别指示非活动语音、活动语音、无法判断三种情况；步骤2：非活动语音丢弃；对判断为非活动语音的opus帧在网络接收层选择性丢弃，同时修改后续的RTP包参数；步骤3：静音插入；当混音器输入语音缓冲区出现下溢时，填充静音帧，同时给出静音帧的VAD标记和能量参数的值。

【技术特征摘要】
1.一种提升视频会议系统混音容量的方法，其特征在于，包括以下步骤：步骤1：活动语音标记提取；从接收的opus编码语音帧中提取语音活动标记VAD，VAD标记分0、1、2三种值，分别指示非活动语音、活动语音、无法判断三种情况；步骤2：非活动语音丢弃；对判断为非活动语音的opus帧在网络接收层选择性丢弃，同时修改后续的RTP包参数；步骤2的具体实现包括以下子步骤：步骤2.1：设置非活动语音帧丢弃门限T，如果两次活动语音帧间连续的非活动语音帧数目超过了门限T，则将其间的非活动语音帧全部丢弃；否则保留；步骤2.2：修改后续语音帧RTP包的序列号和时间戳，确保序列号连续、时间戳递增；步骤3：静音插入；当混音器输入语音缓冲区出现下溢时，填充静音帧，同时给出静音帧的VAD标记和能量参数的值。2.根据权利要求1所述的提升视频会议系统混音容量的方法，其特征在于，步骤1的具体实现包括以下子步骤：步骤1.1：解析opus码流中编码模式指示位，将当前语音帧区...

【专利技术属性】
技术研发人员：边学工，唐雪华，王中元，邓亮，汪亚洲，
申请(专利权)人：武汉随锐亿山科技有限公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人