System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能,尤其是涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
1、人工智能语音识别技术(automatic speech recognition,asr人工智能语音识别技术),是人工智能的一个重要分支。该技术涉及数字信号处理、人工智能、语言学、数理统计学、声学、情感学及心理学等多个
2、这项技术的基本目标是使智能设备能够理解人类的语音。为实现这一目标,语音识别技术首先捕捉声音信号,然后对这些信号进行分析和转换,最后将其转化为机器可以理解的文字或命令。
3、但,传统的通用语音识别技术在面对特定的垂域场景时常常遇到准确度较低、误识别率高等问题,无法满足用户的需求。
技术实现思路
1、有鉴于此,本申请的目的在于提供一种语音识别方法、装置、电子设备及计算机可读存储介质,以提高识别准确度,降低误识别率。
2、第一方面,本申请实施例提供了一种语音识别方法,包括:
3、获取使用通用训练样本训练得到的通用语音识别模型;
4、使用目标垂域训练样本对通用语音识别模型进行迁移学习,以得到训练完成的垂域语音识别模型;
5、将属于目标垂域的目标语音数据输入到所述训练完成的垂域语音识别模型,并结合目标垂域中的热词,以得到目标语音数据的识别结果。
6、结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,通用语音识别模型是通过如下步骤训练得到的:
7、获取多
8、分别对不同场景下的通用语音数据进行向量化,得到语音向量;
9、同时使用不同场景下的语音向量对通用语音识别模型进行训练;通用语音识别模型包括依次顺序工作的编码器、解码器;编码器用于对输入的语音向量进行特征提取和特征变换;解码器用于基于注意力分布策略,确定语音向量所对应的语义信息。
10、结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述编码器包括多个顺序设置的编码层;每个编码层中均设置有局部自注意力层和前馈神经网络层;
11、局部自注意力层用于计算不同语音向量之间的相关关系;
12、前馈神经网络层用于基于所述相关关系进一步提取语音向量的第一语义特征信息;
13、解码器包括多个顺序设置的解码层;每个解码层中均设置有全局自注意力层、编码-解码注意力层和前馈神经网络层;
14、全局自注意力层用于基于不同语音向量的注意力得分,计算不同语音向量之间的相关关系;
15、编码-解码注意力层用于基于第一语义特征信息,确定每个语音向量的注意力分布情况;
16、前馈神经网络层用于基于所述相关关系和所述注意力分布情况,确定语音向量的语义信息。
17、结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,步骤使用目标垂域训练样本对通用语音识别模型进行迁移学习,以得到训练完成的垂域语音识别模型,包括:
18、对通用语音识别模型中至少部分具有特征提取功能的网络层进行冻结;
19、根据目标垂域的特征信息,对处于未冻结状态的网络层进行调整;
20、使用目标垂域训练样本对通用语音识别模型进行训练;
21、使用目标垂域验证样本对训练完成的通用语音识别模型进行验证,并在验证通过后,得到训练完成的垂域语音识别模型。
22、结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,步骤将属于目标垂域的目标语音数据输入到所述训练完成的垂域语音识别模型,并结合目标垂域中的热词,以得到目标语音数据的识别结果,包括:
23、将属于目标垂域的目标语音数据输入到所述训练完成的垂域语音识别模型的编码器中,以通过编码器提取目标语音数据的第二语义特征信息;
24、通过所述训练完成的垂域语音识别模型的解码器,基于第二语义特征信息和热词库中的参考热词确定目标语音数据的识别结果;所述热词库中的热词是根据使用频率统计得到的目标垂域中的词汇。
25、结合第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,通过所述训练完成的垂域语音识别模型的解码器,基于第二语义特征信息和热词库中的参考热词确定目标语音数据的识别结果,包括:
26、针对每一语音向量,通过所述训练完成的垂域语音识别模型的解码器,寻找该语音向量所对应的至少一个参考结果;所述参考结果是该语音向量所对应的表示其含义的文字;
27、针对每一语音向量,根据该语音向量所对应的参考结果和参考热词的匹配关系,确定该语音向量的候选结果;
28、根据每一语音向量的候选结果,确定目标语音数据的识别结果。
29、结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第六可能的实施方式,其中,步骤获取多个不同场景下的通用语音数据,包括:
30、通过至少一种音频获取途径,获取目标使用场景下的音频数据;目标使用场景包括以下的至少一种:日常对话、人机对话、影视节目、音乐会或舞台剧现场;音频获取途径包括以下的至少一种:麦克风录制、手机录制、电脑录制、网络录制、虚拟现实设备录制、游戏中的语音聊天功能录制、环境监测设备或者智能家居设备录制、社交媒体直播平台或者在线会议工具录制;
31、对所述音频数据进行预处理,以得到通用语音数据;所述预处理包括以下的至少一种:筛选有效片段、数据分割、格式调整、采样率调整、通道数调整。
32、第二方面,本申请实施例还提供一种语音识别方法,包括:
33、获取目标垂域的目标语音数据;
34、将目标语音数据输入到训练完成的垂域语音识别模型,以得到目标语音数据的识别结果;所述垂域语音识别模型是使用目标垂域训练样本对训练完成的通用语音识别模型,进行迁移学习后得到的。
35、第三方面,本申请实施例还提供一种语音识别装置,包括:
36、第一获取模块,用于获取使用通用训练样本训练得到的通用语音识别模型;
37、学习模块,用于使用目标垂域训练样本对通用语音识别模型进行迁移学习,以得到训练完成的垂域语音识别模型;
38、第一识别模块,用于将属于目标垂域的目标语音数据输入到所述训练完成的垂域语音识别模型,并结合目标垂域中的热词,以得到目标语音数据的识别结果。
39、结合第三方面,本申请实施例提供了第三方面的第一种可能的实施方式,其中,还包括训练模块;所述训练模块用于:
40、获取多个不同场景下的通用语音数据;
41、分别对不同场景下的通用语音数据进行向量化,得到语音向量;
42、同时使用不同场景下的语音向量对通用语音识别模型进行训练;通用语音识别模型包括依次顺序工作的编码器、解码器;编本文档来自技高网...
【技术保护点】
1.一种语音识别方法,其特征在于,包括:
2.根据权利要求1所述方法,其特征在于,通用语音识别模型是通过如下步骤训练得到的:
3.根据权利要求2所述方法,其特征在于,所述编码器包括多个顺序设置的编码层;每个编码层中均设置有局部自注意力层和前馈神经网络层;
4.根据权利要求1所述方法,其特征在于,步骤使用目标垂域训练样本对通用语音识别模型进行迁移学习,以得到训练完成的垂域语音识别模型,包括:
5.根据权利要求2所述方法,其特征在于,步骤将属于目标垂域的目标语音数据输入到所述训练完成的垂域语音识别模型,并结合目标垂域中的热词,以得到目标语音数据的识别结果,包括:
6.根据权利要求5所述方法,其特征在于,通过所述训练完成的垂域语音识别模型的解码器,基于第二语义特征信息和热词库中的参考热词确定目标语音数据的识别结果,包括:
7.根据权利要求2所述方法,其特征在于,步骤获取多个不同场景下的通用语音数据,包括:
8.一种语音识别方法,其特征在于,包括:
9.一种语音识别装置,其特征在于,包括:
...【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
2.根据权利要求1所述方法,其特征在于,通用语音识别模型是通过如下步骤训练得到的:
3.根据权利要求2所述方法,其特征在于,所述编码器包括多个顺序设置的编码层;每个编码层中均设置有局部自注意力层和前馈神经网络层;
4.根据权利要求1所述方法,其特征在于,步骤使用目标垂域训练样本对通用语音识别模型进行迁移学习,以得到训练完成的垂域语音识别模型,包括:
5.根据权利要求2所述方法,其特征在于,步骤将属于目标垂域的目标语音数据输入到所述训练完成的垂域语音识别模型,并结合目标垂域中的热词,以得到目标语音数据的识别结果,包括:
6.根据权利要求5所述方法,其特征在于,通过所述训练完成的垂域语音识别模型的解码器,基于第二语义特征信息和热词...
【专利技术属性】
技术研发人员:王建英,苏江,
申请(专利权)人:暗物质北京智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。