System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种实时连麦环境下的动态声音过滤和分类系统、方法及存储介质技术方案_技高网

一种实时连麦环境下的动态声音过滤和分类系统、方法及存储介质技术方案

技术编号:40542198 阅读:6 留言:0更新日期:2024-03-05 18:58
本发明专利技术提供了一种实时连麦环境下的动态声音过滤和分类系统、方法及存储介质,其系统包括声音输入捕获模块、多通道缓冲模块、音频预处理模块、动态声音分类模块、环境噪音剔除模块、语音识别与优化模块、多用户语音合成模块、音频输出编码模块、实时传输与播放模块以及用户反馈与自适应调整模块。本发明专利技术能够较好地解决现有技术方案在多人实时语音通讯环境中表现出准确性不足、适应性差和计算效率低下等多个方面的缺点,与现有技术相比具有明显优势。

【技术实现步骤摘要】

本专利技术涉及动态声音过滤和分类,主要涉及一种实时连麦环境下的动态声音过滤和分类系统、方法及存储介质


技术介绍

1、实时连麦(real-timeco-broadcasting)技术通常允许多个用户同时进行在线语音或视频通话,这是多人交互直播环境的基础。然而,在这种环境下,背景噪音和多用户声音的混合往往造成识别和交流困难。因此,动态声音过滤(dynamic audio filtering)和声纹识别(voiceprint recognition)的技术应用变得尤为关键。动态声音过滤能实时剔除或降低不需要的背景噪音或其他干扰因素,以优化用户体验。声纹识别则通过分析每个用户的声学特征(acoustic features)进行身份识别和声音分离。

2、目前,现有的解决方案可采用一种多人实时语音通讯系统,该系统主要依赖于高斯混合模型(gaussian mixture model,gmm)和快速傅里叶变换(fast fouriertransform,fft)为核心算法进行操作。在这个系统中,高斯混合模型用于声纹识别,其工作原理是对每个参与者的声音进行特征提取,并通过训练一个高斯混合模型来进行声纹匹配,从而区分不同的语音来源。此外,该系统还使用快速傅里叶变换进行噪声消除,其主要思路是通过在频域对声音信号进行分析,筛选出主要的语音频率,而抑制噪声频率。这一系列操作在一定程度上实现了在多人实时语音通讯环境中对各参与者的声音进行区分和过滤,以便提供一个相对清晰的语音通讯环境。但是,在现有技术体系中,虽然采用了高斯混合模型和快速傅里叶变换以实现多人实时语音通讯环境中的声纹识别和噪声过滤,尽管该方案在基本的应用场景中表现得相对可靠,但它存在几个明显的缺点和局限性:

3、首先,该方案主要依赖于传统的声纹识别和噪声消除算法,对于实时、动态变化的声音环境适应性较弱;特别是在多人连麦、高噪环境或者多声源重叠的情况下,其声纹识别的准确性和噪声过滤的效果都明显受到影响。

4、其次,该方案的计算复杂度相对较高,特别是在需要快速、实时处理的场景下,无法满足性能要求。另外,高斯混合模型对于训练数据的质量和量都有较高的要求,这在多样化和多变的实际应用环境中是一大制约因素。

5、此外,现有方案也没有充分利用现代深度学习或其他先进的机器学习算法,这意味着它在处理复杂语音模式和动态环境时的性能较为有限。例如,现有方案在处理不同口音、语速或者人声混合时,往往会出现识别错误或漏检,影响用户体验。

6、综上所述,现有技术方案在多人实时语音通讯环境中表现出准确性不足、适应性差和计算效率低下等多个方面的缺点。因此,有必要提出一种新的解决方案,通过引入更先进的声学模型和机器学习算法,以提高声纹识别的准确性和系统的整体性能,特别是在复杂和动态变化的声音环境中。

7、需要说明的是,上述内容属于专利技术人的技术认知范畴,由于本领域的
技术实现思路
浩如烟海、过于庞杂,因此本申请的上述内容并不必然构成现有技术。


技术实现思路

1、本专利技术提供一种实时连麦环境下的动态声音过滤和分类系统、方法及存储介质,用以解决现有技术方案在多人实时语音通讯环境中表现出准确性不足、适应性差和计算效率低下等多个方面的缺点。

2、为了实现上述目的,本专利技术采用以下技术方案:本专利技术的一种实时连麦环境下的动态声音过滤和分类系统,包括

3、声音输入捕获模块,用于进行声音捕获,收集音频数据;

4、多通道缓冲模块,用于对收集到的音频数据流进行时间戳标记和缓冲,高效地管理来自多个用户或音频源的音频数据;

5、音频预处理模块,通过综合使用低通、高通和带通滤波器,对进入系统的音频数据进行初步清理,滤除不需要的噪声和干扰;

6、动态声音分类模块,用于识别基础的声音事件并对其进行细分,提供高精度的声音分类;

7、环境噪音剔除模块,通过突出来自目标方向的声音,而减小其他方向的声音和噪音,用于高效地剔除来自多方向的复杂环境噪音;

8、语音识别与优化模块,通过对语音信号的不同频率成分进行不同程度的增强或衰减,有效地提取和增强语音中的关键特性;

9、多用户语音合成模块,用于处理和合成多个语音信号,将多个用户的处理后的音频合成为一个统一的音频流;

10、音频输出编码模块,用于进行音频编码,优化音频流的质量,可在不同网络环境和设备限制下提供最优的音频质量;

11、实时传输与播放模块,通过动态调度和缓冲区优化,用于进行音频传输和播放;

12、用户反馈与自适应调整模块,用于捕捉用户的反馈,系统根据用户反馈和实时环境对自身实时地进行适应化调整。

13、优选的,所述声音输入捕获模块的算法公式如下:

14、

15、其中,ttotal是整个音频捕获和缓冲过程的总时间,n是用户或音频源的数量,tcapture,i是第i个音频源的音频捕获时间,tbuffer,i是第i个音频源的音频缓冲时间;

16、在实时多用户环境下,每个用户端都装备有一套高精度的麦克风阵列和声音捕获单元,这些单元能够以高采样率和高位深进行声音捕获;

17、所述多通道缓冲模块的算法公式如下:

18、

19、其中,balloc是分配给整个缓冲池的总内存大小,binit是初始缓冲区大小,n是音频源数量,ri是第i个音频源的数据流速率,ti是该音频源产生的最长延迟时间;

20、算法首先根据预设参数和实时网络状况动态计算出每个音频源需要的缓冲区大小,并据此初始化循环缓冲池;当音频数据流进入系统后,首先进行时间戳标记和缓冲;然后数据被路由到对应的循环缓冲区中,每当缓冲区达到一定填充程度,缓冲管理算法就会触发,动态重新分配缓冲区空间,以适应的数据峰值或网络波动;

21、所述音频预处理模块的算法公式如下:

22、h(f)=hlpf(f)×hhpf(f)×hbpf(f)

23、其中,h(f)是总的滤波函数,hlpf(f)、hhpf(f)和hbpf(f)分别是低通、高通和带通滤波器的传递函数,这些传递函数的具体形式和参数由音频的实时特性动态调整;

24、算法首先是通过快速傅里叶变换对音频信号进行频谱分析;接下来基于声音场景的先验知识和实时声音特性,算法动态调整每个滤波器的参数;经过参数调整后,音频数据流通过低通、高通和带通滤波器进行处理;最后,处理过的音频数据被送到后续模块进行更进一步的处理。

25、优选的,所述动态声音分类模块采用了一种基于预先训练的深度学习模型的创新算法——“实时声音事件识别和多级分类器”,其算法公式如下:

26、p(y∣x)=softmax(w×relu(h×x+b1)+b2)

27、其中,x为音频特征向量,p(y∣x)是给定输入x时,声音事件y的条件概率,w和h是网络权重矩阵,b1和b2是偏置向量,relu是激活函数本文档来自技高网...

【技术保护点】

1.一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:包括

2.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述声音输入捕获模块的算法公式如下:

3.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述动态声音分类模块采用了一种基于预先训练的深度学习模型的创新算法——“实时声音事件识别和多级分类器”,其算法公式如下:

4.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述环境噪音剔除模块采用了一种先进的自适应降噪算法——“实时复杂环境降噪引擎”,该算法基于波束成形和谱减法,能有效地剔除来自多方向的复杂环境噪音,其算法公式如下:

5.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述语音识别与优化模块采用了一种“语音特性提取与平衡引擎”的先进算法,该算法基于谱分解和动态范围压缩技术,其算法公式如下:

6.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述多用户语音合成模块采用了一种多维自适应权重合成算法,其算法公式如下:

7.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述音频输出编码模块的算法公式如下:

8.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述用户反馈与自适应调整模块采用了一种基于强化学习与模糊逻辑的自适应优化算法——“用户反馈强化自适应机制”,其算法公式如下:

9.一种实时连麦环境下的动态声音过滤和分类方法,其特征在于,所述方法应用于实时连麦环境下的动态声音过滤和分类系统,所述实时连麦环境下的动态声音过滤和分类方法的步骤如下:

10.一种存储介质,所述存储介质上存储有计算机程序,其特征在于,

...

【技术特征摘要】

1.一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:包括

2.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述声音输入捕获模块的算法公式如下:

3.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述动态声音分类模块采用了一种基于预先训练的深度学习模型的创新算法——“实时声音事件识别和多级分类器”,其算法公式如下:

4.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述环境噪音剔除模块采用了一种先进的自适应降噪算法——“实时复杂环境降噪引擎”,该算法基于波束成形和谱减法,能有效地剔除来自多方向的复杂环境噪音,其算法公式如下:

5.根据权利要求1所述的一种实时连麦环境下的动态声音过滤和分类系统,其特征在于:所述语音识别与优化模块采用了一种“语音特性提取与平衡引擎”的先进算法,...

【专利技术属性】
技术研发人员:汪辉赵勇程成周航
申请(专利权)人:安徽未来创想科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1