多领域语音识别方法和装置制造方法及图纸

技术编号：42680209 阅读：23 留言：0更新日期：2024-09-10 12:30

公开了一种多领域语音识别方法和装置。该多领域语音识别方法包括：基于通用领域训练数据集对语音识别模型进行训练，以生成预训练语音识别模型；基于特定领域训练数据集和预训练语音识别模型，生成与预训练语音识别模型相对应的特定领域旁路矩阵；以及基于预训练语音识别模型和特定领域旁路矩阵，生成与特定领域语音信号相对应的识别结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，尤其涉及一种多领域语音识别方法和装置。

技术介绍

1、多领域语音识别一直是业界关注的话题。不同领域下可能存在一些特定的词汇、术语、场景，这会导致语音识别系统对这些术语和场景的识别准确率较低。现有的语音识别系统大多是通过利用大规模数据集对深度学习模型进行训练得到的，可以取得较好的识别效果。然而，这些深度学习模型通常具有较大的参数量和计算复杂度。

技术实现思路

1、根据本专利技术实施例的多领域语音识别方法，包括：基于通用领域训练数据集对语音识别模型进行训练，以生成预训练语音识别模型；基于特定领域训练数据集和预训练语音识别模型，生成与预训练语音识别模型相对应的特定领域旁路矩阵；以及基于预训练语音识别模型和特定领域旁路矩阵，生成与特定领域语音信号相对应的识别结果。

2、根据本专利技术实施例的多领域语音识别装置，包括：存储器，被配置为存储计算机可执行指令；处理器，耦合到所述存储器，其中，这些计算机可执行指令在被处理器执行时，使得处理器执行上述多领域语音识别方法中的模型训练处理或语音识别处理。

【技术保护点】

1.一种多领域语音识别方法，包括：

2.根据要求1所述的多领域语音识别方法，其中，所述通用领域训练数据集包括多个通用领域语音样本-文本数据对，并且生成所述预训练语音识别模型的处理包括：

3.根据权利要求2所述的多领域语音识别方法，其中，生成所述预训练语音识别模型的处理还包括：

4.根据权利要求3所述的多领域语音识别方法，其中，生成所述预训练语音识别模型的处理还包括：

5.根据权利要求1所述的多领域语音识别方法，其中，生成所述特定领域旁路矩阵的处理包括：

6.根据权利要求5所述的多领域语音识别方法，其中，使用低秩自适应方法对所述预训练语音识别模型进行微调。

7.根据权利要求5所述的多领域语音识别方法，其中，将所述旁路矩阵参数中的降维矩阵参数初始化为高斯分布的随机数，并将所述旁路矩阵参数中的升维矩阵参数初始化为零。

8.根据权利要求1所述的多领域语音识别方法，还包括：

9.根据权利要求1所述的多领域语音识别方法，其中，生成与所述特定领域语音信号相对应的识别结果的处理包括：

11.一种计算机可读存储介质，其上存储有计算机可执行指令，其中，所述计算机可执行指令在被处理器执行时，使得所述处理器执行权利要求1至9中任一项所述的多领域语音识别方法中的模型训练处理或语音识别处理。

12.一种计算机程序产品，包括计算机可执行指令，其中，所述计算机可执行指令在被处理器执行时，使得所述处理器执行权利要求1至9中任一项所述的多领域语音识别方法中的模型训练处理或语音识别处理。

...

【技术特征摘要】

1.一种多领域语音识别方法，包括：

3.根据权利要求2所述的多领域语音识别方法，其中，生成所述预训练语音识别模型的处理还包括：

4.根据权利要求3所述的多领域语音识别方法，其中，生成所述预训练语音识别模型的处理还包括：

5.根据权利要求1所述的多领域语音识别方法，其中，生成所述特定领域旁路矩阵的处理包括：

6.根据权利要求5所述的多领域语音识别方法，其中，使用低秩自适应方法对所述预训练语音识别模型进行微调。

7.根据权利要求5所述的多领域语音识别方法，其中，将所述旁路矩阵参数中的降维矩阵参数初...

【专利技术属性】
技术研发人员：陈文轩，邓博文，
申请(专利权)人：广州昂宝电子有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人