基于生成式学习模型的多语言语音识别方法以及系统技术方案

技术编号：43133713 阅读：16 留言：0更新日期：2024-10-29 17:39

本发明专利技术提供了一种基于生成式学习模型的多语言语音识别方法以及系统，包括：对多语言语音数据进行特征提取，得到高维特征向量；输入到目标编码模型中进行深度编码处理，得到编码向量；目标编码模型为预先训练好的生成式学习模型；基于动态规划算法和注意力机制，对编码向量进行解码处理，得到对应的多语言文本序列，作为多语言语音识别结果；其中，生成式学习模型包含多个神经网络层，各层神经网络层之间构建了跨层跳跃连接；每个神经网络层包括三维卷积核以及融合模块，三维卷积核为并行的时间卷积核、频率卷积核以及语义关联卷积核。在本发明专利技术中，全面捕捉时间、频率和语义多维度关键信息，克服当前多语言语音识别技术识别不准确的缺陷。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别的，特别涉及一种基于生成式学习模型的多语言语音识别方法以及系统。

技术介绍

1、目前常见的语音识别技术主要依赖于通用的声学模型和语言模型的组合。在编码模型方面，传统的编码方式通常采用单一结构的神经网络，例如简单的前馈神经网络或者基础的循环神经网络。这些网络结构在处理多语言语音数据时，无法有效地整合时间、频率和语义等多个关键维度的信息，导致编码后的向量可能丢失重要特征，影响后续的识别准确性。对于解码过程，现有的方法大多依赖于固定规则的解码算法，缺乏对语音上下文信息和动态变化的有效关注。例如，传统的基于统计模型的解码方法在面对多语言的复杂语法结构和语义多样性时，灵活性不足，难以准确地将编码向量转换为正确的多语言文本序列。

2、因此，当前的多语言语音识别技术在识别准确性上存在缺陷。

技术实现思路

1、本专利技术的主要目的为提供一种基于生成式学习模型的多语言语音识别方法以及系统，旨在克服当前多语言语音识别技术识别不准确的缺陷。

2、为实现上述目的，本专...

【技术保护点】

1.一种基于生成式学习模型的多语言语音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法，其特征在于，所述跨层跳跃连接是在相邻的奇数神经网络层与偶数神经网络层之间建立的一种具有选择性的信息传递通道；

3.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法，其特征在于，所述对采集到的多语言语音数据进行特征提取，得到具有语音信息特征的高维特征向量，包括：

4.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法，其特征在于，所述对采集到的多语言语音数据进行特征提取，得到具有语音信息特征的高维特...

【技术特征摘要】

1.一种基于生成式学习模型的多语言语音识别方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法，其特征在于，所述对采集到的多语言语音数据进行特征提取，得到具有语音信息特征的高维特征向量，包括：

5.根据权利要求1所述的基于生成式学习模型的多语言语音识别方法，其特征在于，所述基于动态规划算法和注意力机制，对所述编码向量进...

【专利技术属性】
技术研发人员：车建波，
申请(专利权)人：深圳市贝铂智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人