System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音识别的,特别涉及一种基于生成式学习模型的多语言语音识别方法以及系统。
技术介绍
1、目前常见的语音识别技术主要依赖于通用的声学模型和语言模型的组合。在编码模型方面,传统的编码方式通常采用单一结构的神经网络,例如简单的前馈神经网络或者基础的循环神经网络。这些网络结构在处理多语言语音数据时,无法有效地整合时间、频率和语义等多个关键维度的信息,导致编码后的向量可能丢失重要特征,影响后续的识别准确性。对于解码过程,现有的方法大多依赖于固定规则的解码算法,缺乏对语音上下文信息和动态变化的有效关注。例如,传统的基于统计模型的解码方法在面对多语言的复杂语法结构和语义多样性时,灵活性不足,难以准确地将编码向量转换为正确的多语言文本序列。
2、因此,当前的多语言语音识别技术在识别准确性上存在缺陷。
技术实现思路
1、本专利技术的主要目的为提供一种基于生成式学习模型的多语言语音识别方法以及系统,旨在克服当前多语言语音识别技术识别不准确的缺陷。
2、为实现上述目的,本专利技术提供了一种基于生成式学习模型的多语言语音识别方法,包括以下步骤:
3、对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量;
4、将所述高维特征向量输入到目标编码模型中进行深度编码处理,得到编码向量;所述目标编码模型为预先训练好的生成式学习模型;
5、基于动态规划算法和注意力机制,对所述编码向量进行解码处理,得到对应的多语言文本序列,作
6、其中,所述生成式学习模型包含多个神经网络层,各层神经网络层之间构建了跨层跳跃连接;每个神经网络层包括三维卷积核以及融合模块,所述三维卷积核为并行的时间卷积核、频率卷积核以及语义关联卷积核;在每一次卷积运算中,三种卷积核同时对输入的数据进行处理,并通过所述融合模块将三种卷积核处理得到的特征信息进行动态融合;融合模块依据各卷积核处理结果的重要性,自动学习并调整融合权重。
7、进一步地,所述跨层跳跃连接是在相邻的奇数神经网络层与偶数神经网络层之间建立的一种具有选择性的信息传递通道;
8、当其中一神经网络层的输入数据经过处理后,根据预设的评估指标判断处理结果对下一层直接传递或是跨越中间层传递到更远层;
9、若评估结果显示跨越传递更有利于模型收敛,则将该层的处理结果通过跨层跳跃连接直接传递到目标层;在传递过程中,采用自适应的信息增强机制,对传递的处理结果根据目标层的需求进行调整,以使得处理结果在不同层之间进行有效传递。
10、进一步地,所述对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量,包括:
11、对采集到的多语言语音数据进行分帧处理,将其划分为多个语音片段,每个片段包含预设时间长度的语音信号,得到多个语音帧;
12、对每个语音帧进行加窗处理,采用汉明窗函数对语音帧的边缘进行平滑处理,得到加窗后的语音帧;
13、对加窗后的语音帧进行快速傅里叶变换,将其从时域转换到频域,得到频域信号;
14、从频域信号中提取梅尔频率倒谱系数特征,将频域信号通过一组梅尔滤波器组,对滤波后的信号进行对数运算和离散余弦变换,得到具有语音信息特征的高维特征向量。
15、进一步地,所述对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量,包括:
16、将采集到的多语言语音数据同时输入梅尔频谱分析器和线性预测编码分析器中进行处理,得到对应的梅尔频谱特征数据和线性预测编码特征数据;
17、根据语言的语音特点以及语音片段在整个语音数据中的位置信息,自动计算出一个梅尔频谱特征的加权系数,将所述梅尔频谱特征数据与加权系数进行相乘运算,得到增强的梅尔频谱特征数据;
18、对线性预测编码特征数据采用k-means聚类算法进行优化,得到优化后的线性预测编码特征数据;
19、对增强的梅尔频谱特征数据以及优化后的线性预测编码特征数据进行融合,得到具有语音信息特征的高维特征向量。
20、进一步地,所述基于动态规划算法和注意力机制,对所述编码向量进行解码处理,得到对应的多语言文本序列,包括:
21、利用预先训练的语义分割模型依据编码向量中的语义信息潜在分布,将编码向量初步划分为若干个具有潜在语义单元的子向量段,得到初步分割后的子向量段集合;
22、对每个子向量段构建以其为节点的搜索图,依据动态规划算法在搜索图中计算从起始子向量段到每个可能的结束子向量段的最优路径,通过搜索找到代价最小的路径组合,得到初步的解码路径序列;
23、基于多头注意力机制对初步的解码路径序列进行优化处理,得到优化后的解码路径序列;
24、将优化后的解码路径序列转换为对应的多语言文本序列。
25、进一步地,所述对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量之前,包括:
26、获取语音识别设备中预存的多语言参考语音,以及当前的编码模型;
27、获取服务器中最新的编码模型;
28、基于所述当前的编码模型以及最新的编码模型,分别对所述多语言参考语音进行编码处理,并得到对应的编码评价效果;
29、将编码评价效果较优的编码模型作为目标编码模型。
30、进一步地,所述获取服务器中最新的编码模型,包括:
31、将语音识别设备的硬件性能参数和当前的编码模型的当前模型参数进行整合编码,生成具有唯一标识的设备状态码,并发送至服务器;
32、服务器对所述设备状态码进行解析,运用预先训练好的自适应模型匹配网络对解析出的硬件性能参数和当前模型参数进行分析;所述自适应模型匹配网络基于深度神经网络构建,用于为语音识别设备定制生成最优化的生成式学习模型配置文件;
33、服务器将生成的配置文件发送至语音识别设备,语音识别设备根据配置文件中的信息对当前编码模型进行更新,得到最新的编码模型。
34、本专利技术还提供了一种基于生成式学习模型的多语言语音识别系统,包括:
35、提取单元,用于对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量;
36、编码单元,用于将所述高维特征向量输入到目标编码模型中进行深度编码处理,得到编码向量;所述目标编码模型为预先训练好的生成式学习模型;
37、识别单元,用于基于动态规划算法和注意力机制,对所述编码向量进行解码处理,得到对应的多语言文本序列,作为多语言语音识别结果;
38、其中,所述生成式学习模型包含多个神经网络层,各层神经网络层之间构建了跨层跳跃连接;每个神经网络层包括三维卷积核以及融合模块,所述三维卷积核为并行的时间卷积核、频率卷积核以及语义关联卷积核;在每一次卷积运算中,三种卷积核同时对输入的数据进行处理,并通过所述融合模块本文档来自技高网...
【技术保护点】
1.一种基于生成式学习模型的多语言语音识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述跨层跳跃连接是在相邻的奇数神经网络层与偶数神经网络层之间建立的一种具有选择性的信息传递通道;
3.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量,包括:
4.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量,包括:
5.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述基于动态规划算法和注意力机制,对所述编码向量进行解码处理,得到对应的多语言文本序列,包括:
6.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量之前,包括:
7.根据权
8.一种基于生成式学习模型的多语言语音识别系统,其特征在于,包括:
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种基于生成式学习模型的多语言语音识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述跨层跳跃连接是在相邻的奇数神经网络层与偶数神经网络层之间建立的一种具有选择性的信息传递通道;
3.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量,包括:
4.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述对采集到的多语言语音数据进行特征提取,得到具有语音信息特征的高维特征向量,包括:
5.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法,其特征在于,所述基于动态规划算法和注意力机制,对所述编码向量进...
【专利技术属性】
技术研发人员:车建波,
申请(专利权)人:深圳市贝铂智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。