【技术实现步骤摘要】
一种语音识别模型的训练方法、使用方法及训练系统
[0001]本申请实施例涉及人工智能语音识别领域,尤其涉及一种语音识别模型的训练方法、使用方法及训练系统。
技术介绍
[0002]自动语音识别技术(Automatic Speech Recognition,ASR)是电子设备通过识别和理解过程将人发出的声音、字节或短语转换为相应的文字或符号,或者给出响应的一种信息技术。语音识别技术已经广泛的应用于日常生活中,示例性的,采用语音识别技术,用户可以通过输入语音的方式在电子设备中输入信息。
[0003]传统ASR通常基于词粒度进行建模,由于常见词组有近10万个,对内存和算力的要求非常高,仅适用于在服务器端建模,而端侧ASR通常基于递归神经网络转化器模型基于字粒度进行建模。
[0004]但是,端侧ASR基于字粒度建模的语音识别模型无法接收到词语的规则信息,语音识别结果容易出现词语不匹配的问题。
技术实现思路
[0005]本申请实施例提供了一种语音识别模型的训练方法、使用方法及训练系统,以解决基于字粒度建模 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括:获取训练样本;所述训练样本包括样本音频、以及所述样本音频对应的样本文本;所述样本文本包括至少一个字符;所述字符包括中文字符、英文字符的至少一种;判断所述样本文本的当前字符种类;所述字符种类包括:仅中文字符、仅英文字符以及中英文字符;当所述样本文本的当前字符种类为仅中文字符时,利用预设词库对所述样本文本进行分词,以得到第一分词结果,所述第一分词结果包括多个第一文本单元;所述第一文本单元为所述样本文本中的与所述预设词库中的预设词相匹配的第一目标词,和/或者,所述第一文本单元为所述样本文本中的除所述第一目标词以外的第一非目标词;每个所述第一目标词和每个所述第一非目标词前设置有分隔符;针对所述第一分词结果,在字符长度大于1的所述第一文本单元前插入第一标识符,以及在字符长度等于1的所述第一文本单元前插入第二标识符,得到第二分词结果;针对所述第二分词结果,分别对每个所述第一标识符之后的所述第一文本单元进行按字切分,并在切分后的相邻两个字符之间插入分隔符,得到第一训练文本;根据所述样本音频和所述第一训练文本训练初始语音识别模型,得到训练后的语音识别模型。2.根据权利要求1所述的语音识别模型的训练方法,其特征在于,还包括:当所述样本文本的当前字符种类为仅英文字符时,利用英文子词模型对所述样本文本进行分词,以得到第三分词结果,所述第三分词结果包括多个第二文本单元;所述第二文本单元为所述样本文本中能被所述英文子词模型拆分的第二目标词的子词,和/或者,所述样本文本中不能被所述英文子词模型拆分的第二非目标词;针对所述第三分词结果,在所述子词的个数大于1的所述第二目标词前插入第一标识符,以及在所述子词的个数等于1的所述第二非目标词前插入第二标识符,得到第四分词结果;针对所述第四分词结果,对每个所述第二文本单元进行切分,并在切分后的相邻两个所述第二文本单元之间插入分隔符,得到第二训练文本;根据所述样本音频和所述第二训练文本训练初始语音模型,得到训练后的语音识别模型。3.根据权利要求2所述的语音识别模型的训练方法,其特征在于,还包括:当所述样本文本的当前字符种类为中英文字符时,将所述样本文本拆分为第一子文本以及第二子文本;所述第一子文本用于记录所述样本文本中的所有所述中文字符;所述第二子文本用于记录所述样本文本中的所有所述英文字符;利用所述预设词库对所述第一子文本进行分词,以得到所述第一分词结果;以及利用所述英文子词模型对所述第二子文本进行分词,以得到第三分词结果;针对所述第一分词结果,在字符长度大于1的所述第一文本单元前插入第一标识符,以及在字符长度等于1的所述第一文本单元前插入第二标识符,以得到所述第二分词结果;以及,针对所述第三分词结果,在所述子词的个数大于1的所述第二目标词前插入第一标识符,以及在所述子词的个数等于1的所述第二非目标词前插入第二标识符,得到第四分词结果;
针对所述第二分词结果,分别对每个所述第一标识符之后的所述第一文本单元进行按字切分,并在切分后的相邻两个字符之间插入分隔符,得到所述第一训练文本;以及针对所述第四分词结果,对每个所述第二文本单元进行切分,并在切分后的相邻两个所述第二文本单元前插入分隔符,得到第二训练文本;将所述第一训练文本以及所述第二训练文本拼合为第三训练文本;根据所述样本音频和所述第三训练文本训练初始语音识别模型,得到训练后的语音识别模型。4.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述判断训练样本的当前字符种类之前,还包括:建立所述预设词库,所述预设词库包括至少一个所述预设词,以及建立英文子词模型,所述英文子词模型为字节对编码BPE模型。5.根据权利要求4所述的语音识别模型的训练方法,其特征在于,所述利用预设词库对所述样本文本进行分词,以得到第一分词结果,包括:利用预设词库,确定所述样本文本中的所有与所述预设词匹配的所述第一目标词;分别将每个所述第一目标词切分为所述第一文本单元,将所述样本文本中的除所述第一目标词以外的第一非目标词切分为所述第一文本单元。6.根据权利要求5所述的语音识别模型的训练方法,其特征在于,所述利用预设词库对所述样本文本进行分词,以得到第一分词结果,包括:利用预设词库,确定所述样本文本中的所有与所述预设词不匹配的所述第一非目标词;将所述样本文本中的所有所述第一非目标词切分为所述第一文本单元。7.根据权利要求2所述的语音识别模型的训练方法,其特征在于,所述利用英文子词模型对所述样本文本进行分词,以得到第三分词结果,包括:利用英文子词模型,确定所述样本文本中的所有能被英文子词模型拆分的第二目标词的子词,以及确定所有不能被英文子词模型拆分的所述第二非目标词;分别将每个所述子词以及每个所述第二非目标词切分为所述第二文本单元,并存储在第一列表中。8.根据权利要求1所述的语音识别模型的训练方法,其特征在于,所述初始语音识别模型包括输入层、编码层、预测网络层、联合网络层以及输出层;所述根据所述样本音频和所述第一训练...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。