一种粤汉跨方言语音识别方法、装置及介质制造方法及图纸

技术编号：42017997 阅读：8 留言：0更新日期：2024-07-16 23:11

本发明专利技术公开了一种粤汉跨方言语音识别方法、装置及介质，所述方法包括：获取目标语音数据；通过预设的粤汉跨方言语音识别模型对目标语音数据进行识别，得到识别结果；其中，粤汉跨方言语音识别模型是根据目标识别方向在统一音素集中对应的数据，对第一模型进行定向迁移而得到；第一模型是根据统一音素集，以语音识别任务作为主任务，以语音增强任务作为辅助任务，对预设的多方言模型进行训练而得到。本发明专利技术提出一种粤汉跨方言语音识别方法、装置及介质，通过使用粤汉跨方言语音识别模型对目标语音数据进行识别，即可得到识别结果，该识别方式能够大幅度减少数据处理时间，能够解决现有语音识别方法无法有效地理解和处理多种语言和口音的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，特别是涉及一种粤汉跨方言语音识别方法、装置及介质。

技术介绍

1、语音是人与人之间的交互方式，也是人机交互的重要入口，语音识别技术被应用于大众生活的方方面面，随着科学技术的发展，语音识别模型可以实现将语音转化为文本的功能，传统的智能语音系统对于单语言的语音识别已经取得一定的识别效果。目前，语音识别方法主要是通过模型进行识别，所使用的模型其语音识别性能主要是单一的，专注于单项任务的语音识别模型能有效避免指令调整过程中经常发生的负迁移问题。

2、然而，在多语言社会中，人们经常需要使用多种语言进行交流，因为传统的单一语音识别模型无法有效地理解和处理多种语言和口音，这使得现有方法无法准确地识别多种语音，导致现有语音识别方法在实际应用中受到了极大的限制。

技术实现思路

1、本专利技术提供一种粤汉跨方言语音识别方法、装置及介质，以解决现有语音识别方法无法有效地理解和处理多种语言和口音的问题。

2、为了解决上述问题，本专利技术提供了一种粤汉跨方言语音识别方法，包括：

3、获取所要识别的目标语音数据；

4、通过预设的粤汉跨方言语音识别模型对所述目标语音数据进行识别，得到识别结果；

5、其中，所述粤汉跨方言语音识别模型是根据预设的目标识别方向在统一音素集中对应的数据，对第一模型进行定向迁移而得到；所述第一模型是根据所述统一音素集，以语音识别任务作为主任务，并以语音增强任务作为辅助任务，对预设的多方言模型进行训练而得到；

6、其中，所述统一音素集是根据预先获取的粤语和汉语的语音数据建立而得。

7、本专利技术通过使用预设的粤汉跨方言语音识别模型对目标语音数据进行识别，即可得到识别结果，该识别方式简便快捷。在模型构建过程中，通过双重任务的训练形式，能够增强多方言模型的语音识别能力以及语音理解能力，提高多方言模型在不同汉语与粤语环境下的适应能力以及使用效能，并且通过综合损失函数来平衡语音识别任务和语音增强任务的训练权重，能够在保证这两个任务性能的同时，确保模型训练不偏不倚。此外，通过冻结部分参数，对模型进行定向迁移的方法，能够使得到的粤汉跨方言语音识别模型专注于目标识别方向特定的任务，更好地适应该任务的特点，进而可以提高模型的语音识别准确性和效率，减少模型的复杂性。

8、相比于现有技术，本方案使用预设的粤汉跨方言语音识别模型对目标语音数据进行识别，即可得到识别结果，该识别方式能够大幅度减少数据处理时间，并且提高语音识别的准确性；对于模型而言，通过双重任务的训练形式，可以增强多方言模型的语音识别能力以及语音理解能力；通过对模型进行定向迁移，使得最终得到的模型可以专注于目标识别方向特定的任务，进而提高模型对于语音识别的准确性和效率，在实际应用时能够高效稳定地获取跨语言的语音数据的内在特征，实现不同场景快速适应和实际部署，因此能够解决现有语音识别方法无法有效地理解和处理多种语言和口音的问题。

9、作为优选方案，以语音识别任务作为主任务，并以语音增强任务作为辅助任务，对预设的多方言模型进行训练而得到，具体为：

10、通过预设方法将所述统一音素集中带相同标注的数据输入所述多方言模型和预设的老师模型；其中，所述老师模型是一个提前训练好并拥有大参数量的语音模型；

11、根据所述统一音素集，以所述语音识别任务作为主任务，并以所述语音增强任务作为辅助任务，同时训练所述多方言模型和所述老师模型；其中，所述语音增强任务是指提高语音的质量和可懂度，所述语音识别任务是指识别语音的不同含义，包括词汇、语法、语音和语境；

12、通过所述老师模型在训练时指导所述多方言模型学习两模型之间的近似特征，得到所述第一模型。

13、本优选方案中的模型训练有语音识别和语音增强这两个方面，能够增强多方言模型的语音识别能力以及语音理解能力，提高多方言模型在不同汉语与粤语环境下的适应能力以及使用效能；此外，由于老师模型是一个提前训练好并拥有大参数量的语音模型，因此老师模型往往是单个复杂网络或者是若干网络的集合，拥有良好的性能和泛化能力，所以在训练时，通过老师模型指导多方言模型学习两模型之间的近似特征，可以将老师模型的知识迁移给学习能力相对弱的多方言模型，以此来增强多方言模型的泛化能力、语音识别能力以及语音理解能力。

14、作为优选方案，所述粤汉跨方言语音识别模型是根据预设的目标识别方向在统一音素集中对应的数据，对第一模型进行定向迁移而得到，具体为：

15、获取所述目标识别方向在所述统一音素集中对应的数据，得到低资源方言数据；

16、通过预设的适配器模块，将所述第一模型中除了所述低资源方言数据之外的训练数据冻结；

17、以所述低资源方言数据为目标方向，对所述第一模型进行定向迁移，得到所述粤汉跨方言语音识别模型。

18、本优选方案通过冻结部分参数，对模型进行定向迁移的方法，能够使得到的粤汉跨方言语音识别模型专注于目标识别方向特定的任务，以更好地适应该任务的特点，进而可以提高模型的准确性和效率，减少模型的复杂性，在实际应用时能够高效稳定地获取跨语言的语音数据的内在特征，实现不同场景快速适应和实际部署。

19、作为优选方案，所述统一音素集是根据预先获取的粤语和汉语的语音数据建立而得，具体为：

20、获取粤语和汉语的语音数据，对所述语音数据进行文本标注，将进行文本标注之后的语音数据分为若干单一语言的音素集，由所述若干单一语言的音素集构成所述统一音素集。

21、本优选方案根据进行文本标注之后的语音数据建立统一音素集，使得其中的语音数据变得井然有序，有利于之后使用该统一音素集对模型进行训练以取得良好的训练效果。

22、作为优选方案，获取粤语和汉语的语音数据，具体为：

23、获取粤语和汉语中不同方言变体的所述语音数据；其中，所述语音数据的来源包括各年龄段、不同性别、不同社会背景和不同口音。

24、本优选方案中的语音数据来源的多样性，保证了语音数据样本的广泛性，有助于后续对模型进行训练时使模型学习到更广泛的方言和方言变体，取得良好的训练效果。

25、作为优选方案，所述综合损失函数具体为：

26、lmtl＝λlasr+(1-λ)lse

27、其中，λ为权重超参数，lasr为所述语音识别任务的损失函数，lse为所述语音增强任务的损失函数。

28、本优选方案的综合损失函数是在语音识别任务以及语音增强任务的损失函数上构建的，因此采用该综合损失函数来平衡语音识别任务和所述语音增强任务的训练权重，能够在保证这两个任务的性能的同时，确保模型训练不会偏向一个任务而导致另一个任务被忽视，可以提高模型训练效果。

29、本专利技术还提供了一种粤汉跨方言语音识别装置，包括数据获取模块和识别模块；...

【技术保护点】

1.一种粤汉跨方言语音识别方法，其特征在于，包括：

2.如权利要求1所述的一种粤汉跨方言语音识别方法，其特征在于，所述第一模型是根据所述统一音素集，以语音识别任务作为主任务，并以语音增强任务作为辅助任务，对预设的多方言模型进行训练而得到，具体为：

3.如权利要求1所述的一种粤汉跨方言语音识别方法，其特征在于，所述粤汉跨方言语音识别模型是根据预设的目标识别方向在统一音素集中对应的数据，对第一模型进行定向迁移而得到，具体为：

4.如权利要求1所述的一种粤汉跨方言语音识别方法，其特征在于，所述统一音素集是根据预先获取的粤语和汉语的语音数据建立而得，具体为：

5.如权利要求4所述的一种粤汉跨方言语音识别方法，其特征在于，获取粤语和汉语的语音数据，具体为：

6.如权利要求1所述的一种粤汉跨方言语音识别方法，其特征在于，所述综合损失函数具体为：

7.一种粤汉跨方言语音识别装置，其特征在于，包括数据获取模块和识别模块；

8.如权利要求7所述的一种粤汉跨方言语音识别装置，其特征在于，所述识别模块包括数据输入单元、

9.如权利要求7所述的一种粤汉跨方言语音识别装置，其特征在于，所述识别模块包括数据确定单元、数据冻结单元和定向迁移单元；

10.如权利要求7所述的一种粤汉跨方言语音识别装置，其特征在于，所述识别模块包括音素集构建单元；

11.如权利要求10所述的一种粤汉跨方言语音识别装置，其特征在于，所述识别模块包括数据获取单元；

12.如权利要求7所述的一种粤汉跨方言语音识别装置，其特征在于，所述综合损失函数具体为：

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被计算机调用并执行，实现如上述权利要求1至6任意一种粤汉跨方言语音识别方法。

...

【技术特征摘要】

1.一种粤汉跨方言语音识别方法，其特征在于，包括：

4.如权利要求1所述的一种粤汉跨方言语音识别方法，其特征在于，所述统一音素集是根据预先获取的粤语和汉语的语音数据建立而得，具体为：

5.如权利要求4所述的一种粤汉跨方言语音识别方法，其特征在于，获取粤语和汉语的语音数据，具体为：

6.如权利要求1所述的一种粤汉跨方言语音识别方法，其特征在于，所述综合损失函数具体为：

7.一种...

【专利技术属性】
技术研发人员：康峰，苏立伟，谭火超，刘振华，陈海燕，杨晓东，许睿，李兰芳，杨英勃，曾晓锋，简冬琳，冼文祥，李宗隽，彭若馨，李静，李紫京，
申请(专利权)人：广东电网有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人