语种分类方法、装置及计算机可读存储介质制造方法及图纸

技术编号:35101841 阅读:24 留言:0更新日期:2022-10-01 17:09
本申请实施例提供一种语种分类方法、装置及计算机可读存储介质,该方法包括:获取待分类音频的频谱特征;调用训练完成的目标声学模型对频谱特征进行处理,得到待分类音频的音素序列;训练完成的目标声学模型是基于音素词典训练得到的神经网络模型,音素词典用于指示不同语种的字符与音素之间的对应关系;调用训练完成的目标语种分类模型对音素序列进行处理,得到待分类音频所属的语种;训练完成的目标语种分类模型是由多个训练音频的音素序列训练得到,每个训练音频具有标注的预设语种标签,训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。采用本申请实施例,可以提高语种分类的准确率。可以提高语种分类的准确率。可以提高语种分类的准确率。

【技术实现步骤摘要】
语种分类方法、装置及计算机可读存储介质


[0001]本申请涉及人工智能
,尤其涉及一种语种分类方法、装置及计算机可读存储介质。

技术介绍

[0002]语种分类技术,是指通过音频判断出文本所属语种的人工智能技术。在音乐领域中,语种分类技术可以通过音乐识别出歌词的语种类别,该技术可应用于曲库管理、歌曲推荐等,识别出的语种能够为判断听众兴趣等后续操作提供条件。
[0003]传统的语种分类方案采用端到端模型对音频的语种进行分类识别,这种端到端的模型通过接收音频的频谱特征,并在对其进行处理后直接输出音频文本的语种类别。但由于音频录制环境等因素,音频的频谱特征往往受到声调、伴奏等噪声干扰,导致语种分类的准确率不高。

技术实现思路

[0004]本申请实施例提供一种语种分类方法、装置及计算机可读存储介质,可以提高语种分类的准确率。
[0005]第一方面,本申请实施例提供了一种语种分类方法,所述方法包括:
[0006]获取待分类音频的频谱特征;
[0007]调用训练完成的目标声学模型对所述频谱特征进行处理,得到所述待分类音频的音素序列;所述训练完成的目标声学模型是基于音素词典训练得到的神经网络模型,所述音素词典用于指示不同语种的字符与音素之间的对应关系;
[0008]调用训练完成的目标语种分类模型对所述音素序列进行处理,得到所述待分类音频所属的语种;所述训练完成的目标语种分类模型是由多个训练音频的音素序列训练得到,每个所述训练音频具有标注的预设语种标签,所述训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。
[0009]在一种可能实现方式中,所述训练完成的目标语种分类模型包括特征提取子模型和语种确定子模型,所述调用训练完成的目标语种分类模型对所述音素序列进行处理,得到所述待分类音频所属的语种,包括:
[0010]调用所述特征提取子模型对所述音素序列进行处理,得到音素特征向量,所述音素特征向量由所述音素序列的多个音素特征组成,所述音素特征与语种具有对应关系;
[0011]调用所述语种确定子模型对所述音素特征向量进行处理,得到所述待分类音频属于各个语种的概率,并根据所述待分类音频属于各个语种的概率,确定所述待分类音频所属的语种。
[0012]在一种可能实现方式中,所述训练完成的特征提取子模型包括嵌入层、自注意力层以及批标准化层;
[0013]所述调用所述特征提取子模型对所述音素序列进行处理,得到音素特征向量包
括:
[0014]调用所述嵌入层对所述音素序列进行向量编码,得到音素嵌入向量;
[0015]调用所述自注意力层,基于所述音素嵌入向量中每个向量分量之间的关联性,处理所述音素嵌入向量得到初始特征向量;
[0016]调用所述批标准化层对所述初始特征向量进行归一化,得到音素特征向量。
[0017]在一种可能实现方式中,所述调用所述语种确定子模型对所述音素特征向量进行处理,得到所述待分类音频属于各个语种的概率,包括:
[0018]调用所述语种确定子模型中的映射规则,对所述音素特征向量进行映射,得到所述待分类音频属于各个语种的概率。
[0019]在一种可能实现方式中,所述方法还包括:
[0020]获取第一训练音频集,所述第一训练音频集包括至少一种语种的至少一个第一训练音频;
[0021]获取每个第一训练音频的频谱特征以及所述第一训练音频对应的第一字符序列;
[0022]调用初始声学模型对所述每个第一训练音频的频谱特征进行处理,得到所述每个第一训练音频的预测音素序列;
[0023]根据音素词典和所述每个第一训练音频的预测音素序列,得到所述每个第一训练音频的第二字符序列;
[0024]基于所述第一字符序列和所述第二字符序列对所述初始声学模型中的参数进行训练,得到所述训练完成的目标声学模型。
[0025]在一种可能实现方式中,所述方法还包括:
[0026]获取所述每个第一训练音频的待处理音素序列,所述待处理音素序列是调用所述训练完成的目标声学模型对所述每个第一训练音频的频谱特征进行处理得到的;
[0027]获取所述每个第一训练音频所属的预设语种;
[0028]调用初始语种分类模型对所述每个第一训练音频的待处理音素序列进行处理,得到所述每个第一训练音频所属的预测语种;
[0029]基于所述每个第一训练音频所属的预设语种以及预测语种对所述初始语种分类模型中的参数进行训练,得到所述训练完成的目标语种分类模型。
[0030]在一种可能实现方式中,所述方法还包括:
[0031]获取第二训练音频集,所述第二训练音频集包括至少一种语种的至少一个第二训练音频;
[0032]获取所述第二训练音频集中每个第二训练音频的频谱特征以及所属的预设语种;
[0033]依次调用所述目标声学模型、所述目标语种分类模型对所述每个第二训练音频的频谱特征进行处理,得到所述每个第二训练音频所属的预测语种;
[0034]基于所述每个第二训练音频所属的预测语种以及预设语种,更新所述目标声学模型和所述目标语种分类模型。
[0035]在一种可能实现方式中,所述每个第二训练音频所属的预设语种包含于所述第一训练音频集中第一训练音频所属的预设语种;所述第二训练音频集包括的第二训练音频的数量小于或等于所述第一训练音频集包括的第一训练音频的数量。
[0036]在一种可能实现方式中,所述方法还包括:
[0037]获取第三训练音频集,所述第三训练音频集包括至少一种语种的至少一个第三训练音频;所述第三训练音频所属的预设语种与所述第一训练音频所属的预设语种不同;
[0038]获取所述第三训练音频集中每个第三训练音频所属的预设语种;
[0039]依次调用所述目标声学模型、所述目标语种分类模型对所述每个第三训练音频进行处理,得到所述每个第三训练音频的预测语种;基于所述每个第三训练音频所属的预设语种以及预测语种,更新所述目标语种分类模型。
[0040]第二方面,本申请实施例提供了一种语种分类装置,所述装置包括:
[0041]获取单元,用于获取待分类音频的频谱特征;
[0042]处理单元,用于调用训练完成的目标声学模型对所述频谱特征进行处理,得到所述待分类音频的音素序列;所述训练完成的目标声学模型是基于音素词典训练得到的神经网络模型,所述音素词典用于指示不同语种的字符与音素之间的对应关系;
[0043]所述处理单元,还用于调用训练完成的目标语种分类模型对所述音素序列进行处理,得到所述待分类音频所属的语种;所述训练完成的目标语种分类模型是由多个训练音频的音素序列训练得到,每个所述训练音频具有标注的预设语种标签,所述训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。
[0044]在一种可能实现方式中,所述训练完成的目标语种分类模型包括特征提取子模型和语种确定子模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语种分类方法,其特征在于,所述方法包括:获取待分类音频的频谱特征;调用训练完成的目标声学模型对所述频谱特征进行处理,得到所述待分类音频的音素序列;所述目标声学模型是基于音素词典训练得到的神经网络模型,所述音素词典用于指示不同语种的字符与音素之间的对应关系;调用训练完成的目标语种分类模型对所述音素序列进行处理,得到所述待分类音频所属的语种;所述目标语种分类模型是由多个训练音频的音素序列训练得到,每个所述训练音频具有标注的预设语种标签,所述训练完成的目标语种分类模型记录有音频的音素序列与音频所属语种的对应关系。2.根据权利要求1所述的方法,其特征在于,所述目标语种分类模型包括特征提取子模型和语种确定子模型,所述调用训练完成的目标语种分类模型对所述音素序列进行处理,得到所述待分类音频所属的语种,包括:调用所述特征提取子模型对所述音素序列进行处理,得到音素特征向量,所述音素特征向量由所述音素序列的多个音素特征组成,所述音素特征与语种具有对应关系;调用所述语种确定子模型对所述音素特征向量进行处理,得到所述待分类音频属于各个语种的概率,并根据所述待分类音频属于各个语种的概率,确定所述待分类音频所属的语种。3.根据权利要求2所述的方法,其特征在于,所述特征提取子模型包括嵌入层、自注意力层以及批标准化层;所述调用所述特征提取子模型对所述音素序列进行处理,得到音素特征向量包括:调用所述嵌入层对所述音素序列进行向量编码,得到音素嵌入向量;调用所述自注意力层,基于所述音素嵌入向量中每个向量分量之间的关联性,处理所述音素嵌入向量得到初始特征向量;调用所述批标准化层对所述初始特征向量进行归一化,得到音素特征向量。4.根据权利要求2所述的方法,其特征在于,所述调用所述语种确定子模型对所述音素特征向量进行处理,得到所述待分类音频属于各个语种的概率,包括:调用所述语种确定子模型中的映射规则,对所述音素特征向量进行映射,得到所述待分类音频属于各个语种的概率。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取第一训练音频集,所述第一训练音频集包括至少一种语种的至少一个第一训练音频;获取每个第一训练音频的频谱特征以及所述第一训练音频对应的第一字符序列;调用初始声学模型对所述每个第一训练音频的频谱特征进行处理,得到所述每个第一训练音频的预测音素序列;根据音素词典和所述每个第一训练音频的预测音素序列,得到所述每个第一训练音频的第二字符序列;基于所述第一字符序列和所述第二字符序列对所述初始声学模型中的参数进行训练,得到...

【专利技术属性】
技术研发人员:谭志力
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1