System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及语音处理,更具体地说,涉及一种语音处理相关方法、装置、设备及存储介质。
技术介绍
1、自动语音识别(automatic speech recognition,asr)是一种将语音转换为对应文本的语音处理技术,在语音输入法、字幕生成等场景中有广泛的应用。目前,虽然语音识别任务在很多场景中的识别准确率已经达到了95%以上,但仍然会出现异常识别结果,这导致了用户在使用附加语音识别的产品时会感觉产品质量不可靠,损害了用户的体验感。因此,有必要进一步提高语音识别任务的准确性。
技术实现思路
1、有鉴于此,本申请提供了一种语音处理相关方法、装置、设备及存储介质,以提高语音识别任务的准确性。
2、为了实现上述目的,现提出的方案如下:
3、一种语音识别任务训练方法,包括:
4、通过预训练的语音识别模型对语音样本进行识别处理,得到语音识别结果;
5、通过训练好的翻译模型对目标信息进行翻译处理,得到翻译结果;所述目标信息包括:所述预训练的语音识别模型对所述语音样本进行识别处理过程中的目标特征以及所述语音识别结果中的至少一项;
6、以所述语音识别结果趋近于所述语音样本的文本标签,所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标,对所述预训练的语音识别模型的参数进行更新。
7、上述方法,可选的,所述目标特征包括所述预训练的语音识别模型对所述语音样本进行识别处理过程中的隐层特征,以及所述预训练的语音识别模型对
8、上述方法,可选的,通过所述训练好的翻译模型对所述隐层特征进行翻译处理,包括:
9、将所述隐层特征映射为目标维度的特征向量;
10、对所述目标维度的特征向量进行仿射变换,得到目标嵌入特征;
11、将所述目标嵌入特征输入所述训练好的翻译模型的编码网络,得到所述训练好的翻译模型对所述目标嵌入特征进行翻译处理而输出的翻译结果。
12、上述方法,可选的,通过所述训练好的翻译模型对所述输出层特征进行翻译处理,包括:
13、对所述输出层特征进行基于采样的归一化处理,得到归一化处理结果;
14、对所述归一化处理结果进行嵌入特征提取,得到初始嵌入特征;
15、将所述初始嵌入特征映射为目标维度的特征向量;
16、对所述目标维度的特征向量进行仿射变换,得到目标嵌入特征;
17、将所述目标嵌入特征输入所述训练好的翻译模型的编码网络,得到所述训练好的翻译模型对所述目标嵌入特征进行翻译处理而输出的翻译结果。
18、上述方法,可选的,通过所述训练好的翻译模型对所述隐层特征和所述输出层特征进行翻译处理,包括:
19、将所述隐层特征映射为目标维度的第一特征向量;
20、对所述输出层特征进行基于采样的归一化处理,得到归一化处理结果;对所述归一化处理结果进行嵌入特征提取,得到初始嵌入特征;将所述初始嵌入特征映射为目标维度的第二特征向量;
21、将所述第一特征向量和所述第二特征向量融合为目标嵌入特征;
22、将所述目标嵌入特征输入所述训练好的翻译模型的编码网络,得到所述训练好的翻译模型对所述目标嵌入特征进行翻译处理而输出的翻译结果。
23、上述方法,可选的,所述目标信息为所述目标特征;所述以所述语音识别结果趋近于所述语音样本的文本标签,所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标,对所述预训练的语音识别模型的参数进行更新,包括:
24、计算所述语音识别结果与所述文本标签的第一差异,以及所述翻译结果与所述目标语言文本的第二差异;
25、以所述第一差异和所述第二差异的加权和越来越小为目标,对所述预训练的语音识别模型的参数进行更新。
26、上述方法,可选的,通过训练好的翻译模型对所述语音识别结果进行翻译处理,包括:
27、将所述语音识别结果输入所述训练好的翻译模型的嵌入层,得到所述训练好的翻译模型对所述语音识别结果进行翻译处理而输出的翻译结果。
28、上述方法,可选的,所述目标信息为所述语音识别结果;所述以所述语音识别结果趋近于所述语音样本的文本标签,所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标,对所述预训练的语音识别模型的参数进行更新,包括:
29、计算所述语音识别结果与所述文本标签的第一差异,以及所述翻译结果与所述目标语言文本的第二差异;
30、对所述第二差异进行归一化处理,得到归一化差异;
31、以所述第一差异与所述归一化差异的乘积越来越小为目标,对所述预训练的语音识别模型的参数进行更新。
32、上述方法,可选的,通过训练好的翻译模型对所述目标特征和所述语音识别结果进行翻译处理,包括:
33、通过所述训练好的翻译模型对所述目标特征和所述语音识别结果分别进行翻译处理,得到所述目标特征对应的第一翻译结果,以及所述语音识别结果对应的第二翻译结果;
34、所述以所述语音识别结果趋近于所述语音样本的文本标签,所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标,对所述预训练的语音识别模型的参数进行更新,包括:
35、计算所述语音识别结果与所述文本标签的第一差异,所述第一翻译结果与所述目标语言文本的第二差异,以及所述第二翻译结果与所述目标语言文本的第三差异;
36、对所述第三差异进行归一化处理,得到归一化差异;
37、将所述第一差异与所述归一化差异的乘积,与所述第二差异加权求和,得到综合差异;
38、以所述综合差异越来越小为目标,对所述预训练的语音识别模型的参数进行更新。
39、一种语音识别方法,包括:
40、将待识别语音输入语音识别模型,得到所述语音识别模型输出的语音识别结果;
41、所述语音识别模型通过如上任一项所述的语音识别任务训练方法训练得到。
42、一种语音识别任务训练装置,包括:
43、识别模块,用于通过预训练的语音识别模型对语音样本进行识别处理,得到语音识别结果;
44、翻译模块,用于通过训练好的翻译模型对目标信息进行翻译处理,得到翻译结果;所述目标信息包括:所述预训练的语音识别模型对所述语音样本进行识别处理过程中的目标特征以及所述语音识别结果中的至少一项;
45、更新模块,用于以所述语音识别结果趋近于所述语音样本的文本标签,所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标,对所述预训练的语音识别模型的参数进行更新。
46、一种语音识别装置,包括:
47、输入模块,用于将待识别语音输入语音识别模型,得本文档来自技高网...
【技术保护点】
1.一种语音识别任务训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述目标特征包括所述预训练的语音识别模型对所述语音样本进行识别处理过程中的隐层特征,以及所述预训练的语音识别模型对所述语音样本进行识别处理过程中的输出层特征中的至少一项;所述输出层特征用于所述预训练的语音识别模型计算归一化的输出概率。
3.根据权利要求2所述的方法,其特征在于,通过所述训练好的翻译模型对所述隐层特征进行翻译处理,包括:
4.根据权利要求2所述的方法,其特征在于,通过所述训练好的翻译模型对所述输出层特征进行翻译处理,包括:
5.根据权利要求2所述的方法,其特征在于,通过所述训练好的翻译模型对所述隐层特征和所述输出层特征进行翻译处理,包括:
6.根据权利要求1所述的方法,其特征在于,所述目标信息为所述目标特征;所述以所述语音识别结果趋近于所述语音样本的文本标签,所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标,对所述预训练的语音识别模型的参数进行更新,包括:
7.根据权利要求1所述的方法,
8.根据权利要求1所述的方法,其特征在于,所述目标信息为所述语音识别结果;所述以所述语音识别结果趋近于所述语音样本的文本标签,所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标,对所述预训练的语音识别模型的参数进行更新,包括:
9.根据权利要求1所述的方法,其特征在于,通过训练好的翻译模型对所述目标特征和所述语音识别结果进行翻译处理,包括:
10.一种语音识别方法,其特征在于,包括:
11.一种语音识别任务训练装置,其特征在于,包括:
12.一种语音识别装置,其特征在于,包括:
13.一种语音识别任务训练设备,其特征在于,包括:存储器和处理器;
14.一种语音识别设备,其特征在于,包括存储器和处理器;
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-9任一项所述的语音识别任务训练方法的各个步骤,和/或,实现如权利要求10所述的语音识别方法的各个步骤。
...【技术特征摘要】
1.一种语音识别任务训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述目标特征包括所述预训练的语音识别模型对所述语音样本进行识别处理过程中的隐层特征,以及所述预训练的语音识别模型对所述语音样本进行识别处理过程中的输出层特征中的至少一项;所述输出层特征用于所述预训练的语音识别模型计算归一化的输出概率。
3.根据权利要求2所述的方法,其特征在于,通过所述训练好的翻译模型对所述隐层特征进行翻译处理,包括:
4.根据权利要求2所述的方法,其特征在于,通过所述训练好的翻译模型对所述输出层特征进行翻译处理,包括:
5.根据权利要求2所述的方法,其特征在于,通过所述训练好的翻译模型对所述隐层特征和所述输出层特征进行翻译处理,包括:
6.根据权利要求1所述的方法,其特征在于,所述目标信息为所述目标特征;所述以所述语音识别结果趋近于所述语音样本的文本标签,所述翻译结果趋近于以所述文本标签作为源语言文本的目标语言文本为目标,对所述预训练的语音识别模型的参数进行更新,包括:
7.根据权利要求1所述的方法,其特征在...
【专利技术属性】
技术研发人员:茆廷志,万根顺,高建清,潘嘉,刘聪,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。