System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于自适应的AI大模型流式语音识别方法、装置以及设备制造方法及图纸_技高网

基于自适应的AI大模型流式语音识别方法、装置以及设备制造方法及图纸

技术编号:43943864 阅读:19 留言:0更新日期:2025-01-07 21:33
本发明专利技术提供了一种基于自适应的AI大模型流式语音识别方法、装置以及设备,包括:对采集到的流式语音信号进行降噪以及语音增强,得到初步语音信号;对所述初步语音信号进行特征提取,得到语音特征向量;对所述语音特征向量进行多层感知机编码,得到初始编码向量;根据所述语音特征向量的分布变化动态调整聚类算法的聚类中心和聚类数量,以对所述初始编码向量进行聚类,得到聚类后的编码向量;通过自适应调整权重的注意力机制,依据语音上下文信息动态为聚类后的编码向量分配权重,并进行加权处理;将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果。在本发明专利技术中,有效提升语音识别结果的质量。

【技术实现步骤摘要】

本专利技术涉及语音识别的,特别涉及一种基于自适应的ai大模型流式语音识别方法、装置以及设备。


技术介绍

1、语音识别技术在众多领域有着广泛的应用需求,如智能语音助手、语音控制系统、自动语音转录等。

2、在实际应用场景中,在语音识别模型的处理方面,传统的语音识别模型大多是基于固定结构和参数的设计。然而,语音数据本身具有高度的多样性和动态变化性,不同的说话人、口音、语言风格以及语音内容都会导致语音特征的分布发生变化。固定的模型结构和参数无法自适应地应对这些变化,例如在面对新的语音模式或者特殊口音时,模型的识别能力会显著下降。

3、在神经网络解码阶段,传统的神经网络结构无法根据输入的语音数据自适应地生长和调整,不能动态地适应不同的语音特征组合和变化,造成语音识别结果的质量不佳。


技术实现思路

1、本专利技术的主要目的为提供一种基于自适应的ai大模型流式语音识别方法、装置以及设备,旨在克服当前语音识别模型的语音识别结果不佳的缺陷。

2、为实现上述目的,本专利技术提供了一种基于自适应的ai大模型流式语音识别方法,包括以下步骤:

3、对采集到的流式语音信号进行降噪以及语音增强,得到初步语音信号;

4、对所述初步语音信号进行特征提取,得到语音特征向量;

5、将所述语音特征向量输入至自适应的ai大模型中,得到语音识别结果;

6、其中,所述ai大模型具体用于:

7、对所述语音特征向量进行多层感知机编码,得到初始编码向量;

8、根据所述语音特征向量的分布变化动态调整聚类算法的聚类中心和聚类数量,以对所述初始编码向量进行聚类,得到聚类后的编码向量;

9、通过自适应调整权重的注意力机制,依据语音上下文信息动态为聚类后的编码向量分配权重,并进行加权处理;

10、将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果。

11、进一步地,所述将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果,包括:

12、对加权后的编码向量进行特征分布分析,根据特征分布动态调整神经元之间的连接权重;

13、根据语音数据在时间序列上的变化特点,调整神经元之间的连接数量;

14、基于调整后的神经元对加权后的编码向量进行解码,得到所述语音识别结果。

15、进一步地,所述将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果,包括:

16、实时检测加权后的编码向量的信息熵,当信息熵高于预设阈值时,在神经网络的隐藏层中按照预设比例增加神经元数量,新增加的神经元与周围神经元的连接权重根据当前加权编码向量各维度的相关性动态初始化;对原有神经元之间的连接权重通过基于梯度的优化算法进行调整,从而完成解码得到所述语音识别结果。

17、进一步地,所述得到语音识别结果之后,包括:

18、基于语言模型和声学模型对所述语音识别结果进行校正处理,得到流式语音识别校正结果。

19、进一步地,所述对所述语音特征向量进行多层感知机编码,得到初始编码向量,包括:

20、对所述语音特征向量按特征维度进行分组;

21、对于每组语音特征向量,通过第一层感知机基于初始化权重矩阵的线性变换,得到中间特征向量;

22、对所述中间特征向量进行非线性激活,得到激活特征向量;其中,激活函数依输入的中间特征向量的能量水平动态调整斜率参数;

23、将激活特征向量输入第二层感知机,得到初始编码向量;所述第二层感知机的权重矩阵通过反向传播和小批次梯度下降优化,依据激活特征向量在批次中的变化动态调整学习率。

24、进一步地,根据所述语音特征向量的分布变化动态调整聚类算法的聚类中心和聚类数量,以对所述初始编码向量进行聚类,得到聚类后的编码向量,包括:

25、基于核密度估计法分析所述语音特征向量在各维度的概率密度分布,确定出峰值、峰值间距、宽度以及周围向量疏密程度;

26、依据峰值确定聚类算法的聚类中心,根据峰值间距、宽度以及周围向量疏密估算聚类数量;

27、基于k-means算法,将所述初始编码向量分配到最近的聚类,得到聚类后的编码向量。

28、进一步地,所述通过自适应调整权重的注意力机制,依据语音上下文信息动态为聚类后的编码向量分配权重,并进行加权处理,包括:

29、分析语音上下文信息,提取语义关键元素、停顿特征、语调趋势,并转化为上下文特征向量;

30、计算聚类后的编码向量与上下文特征向量的相关性,根据相关性自适应调整聚类后的编码向量对应的注意力权重,将所述注意力权重与聚类后的编码向量进行加权计算。

31、本专利技术还提供了一种基于自适应的ai大模型流式语音识别装置,包括:

32、处理单元,用于对采集到的流式语音信号进行降噪以及语音增强,得到初步语音信号;

33、提取单元,用于对所述初步语音信号进行特征提取,得到语音特征向量;

34、识别单元,用于将所述语音特征向量输入至自适应的ai大模型中,得到语音识别结果;

35、其中,所述ai大模型具体用于:

36、对所述语音特征向量进行多层感知机编码,得到初始编码向量;

37、根据所述语音特征向量的分布变化动态调整聚类算法的聚类中心和聚类数量,以对所述初始编码向量进行聚类,得到聚类后的编码向量;

38、通过自适应调整权重的注意力机制,依据语音上下文信息动态为聚类后的编码向量分配权重,并进行加权处理;

39、将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果。

40、本专利技术还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

41、本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

42、本专利技术提供的基于自适应的ai大模型流式语音识别方法、装置以及设备,包括:对采集到的流式语音信号进行降噪以及语音增强,得到初步语音信号;对所述初步语音信号进行特征提取,得到语音特征向量;将所述语音特征向量输入至自适应的ai大模型中,得到语音识别结果;其中,所述ai大模型具体用于:对所述语音特征向量进行多层感知机编码,得到初始编码向量;根据所述语音特征向量的分布变化动态调整聚类算法的聚类中心和聚类数量,以对所述初始编码向量进行聚类,得到聚类后的编码向量;通过自适应调整权重的注意力机制,依据语音上下文信息动态为聚类后的编码向量分配权重,并进行加权处理;将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果。在本文档来自技高网...

【技术保护点】

1.一种基于自适应的AI大模型流式语音识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于自适应的AI大模型流式语音识别方法,其特征在于,所述将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果,包括:

3.根据权利要求1所述的基于自适应的AI大模型流式语音识别方法,其特征在于,所述将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果,包括:

4.根据权利要求1所述的基于自适应的AI大模型流式语音识别方法,其特征在于,所述得到语音识别结果之后,包括:

5.根据权利要求1所述的基于自适应的AI大模型流式语音识别方法,其特征在于,所述对所述语音特征向量进行多层感知机编码,得到初始编码向量,包括:

6.根据权利要求1所述的基于自适应的AI大模型流式语音识别方法,其特征在于,根据所述语音特征向量的分布变化动态调整聚类算法的聚类中心和聚类数量,以对所述初始编码向量进行聚类,得到聚类后的编码向量,包括:

7.根据权利要求1所述的基于自适应的AI大模型流式语音识别方法,其特征在于,所述通过自适应调整权重的注意力机制,依据语音上下文信息动态为聚类后的编码向量分配权重,并进行加权处理,包括:

8.一种基于自适应的AI大模型流式语音识别装置,其特征在于,包括:

9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种基于自适应的ai大模型流式语音识别方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于自适应的ai大模型流式语音识别方法,其特征在于,所述将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果,包括:

3.根据权利要求1所述的基于自适应的ai大模型流式语音识别方法,其特征在于,所述将加权后的编码向量输入至基于自适应生长结构的神经网络中进行解码,得到所述语音识别结果,包括:

4.根据权利要求1所述的基于自适应的ai大模型流式语音识别方法,其特征在于,所述得到语音识别结果之后,包括:

5.根据权利要求1所述的基于自适应的ai大模型流式语音识别方法,其特征在于,所述对所述语音特征向量进行多层感知机编码,得到初始编码向量,包括:

6.根据权利要求1所述的基于自...

【专利技术属性】
技术研发人员:车建波
申请(专利权)人:深圳市贝铂智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1