【技术实现步骤摘要】
语种识别、语种识别模型训练方法及装置
[0001]本专利技术涉及自然语言处理
,尤其涉及一种语种识别、语种识别模型训练方法及装置。
技术介绍
[0002]语种识别是指机器根据输入的语音数据,自动判断该语音数据所属的语言种类,例如汉语、英语、法语或日语等。
[0003]目前,多基于因子分析的TV(Total variability)语种识别系统对待识别的语音数据进行语种识别。然而,该方法应用于语种数据分布不均衡的场景下时,如在少数类语种的数据分布比例与多数类语种的数据分布比例相差较大时,语种识别精度较低。
技术实现思路
[0004]本专利技术提供一种语种识别、语种识别模型训练方法及装置,用以解决现有技术中语种分布不均衡时,语种识别精度较低的缺陷。
[0005]本专利技术提供一种语种识别方法,包括:
[0006]确定待识别语音数据;
[0007]将所述待识别语音数据输入至语种识别模型,得到所述语种识别模型输出的语种识别结果;
[0008]其中,所述语种识别模型包括语种 ...
【技术保护点】
【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:确定待识别语音数据;将所述待识别语音数据输入至语种识别模型,得到所述语种识别模型输出的语种识别结果;其中,所述语种识别模型包括语种特征提取层和语种分类层,所述语种识别模型是基于如下过程训练得到的:对所述语种特征提取层进行第一训练;固定所述第一训练完成后所述语种特征提取层的参数,基于均衡样本集对所述语种分类层进行第二训练,得到训练完成的语种识别模型,所述均衡样本集中各语种的样本语音的数量规模一致。2.根据权利要求1所述的语种识别方法,其特征在于,所述第一训练以最大化不同语种的样本语音的语种特征之间的差异,和/或,最小化相同语种的样本语音的语种特征之间的差异为目标。3.根据权利要求2所述的语种识别方法,其特征在于,所述对所述语种特征提取层进行第一训练,包括:基于所述语种特征提取层和特征识别层,构建初始网络;将样本语音输入至所述初始网络,得到所述初始网络中所述语种特征提取层输出的样本语音的语种特征,以及所述特征识别层基于所述样本语音的语种特征识别并输出的预测语种;基于不同语种的样本语音的语种特征之间的差异,相同语种的样本语音的语种特征之间的差异,以及所述预测语种与所述样本语音的语种标签之间的差异,对所述初始网络进行参数迭代。4.根据权利要求1所述的语种识别方法,其特征在于,所述基于均衡样本集对所述语种分类层进行第二训练,包括:将所述均衡样本集输入至所述第一训练完成后所述语种特征提取层,得到所述第一训练完成后所述语种特征提取层输出的均衡样本的语种特征;将所述均衡样本的语种特征输入至所述语种分类层,得到所述语种分类层输出的语种预测结果;基于所述语种预测结果与所述均衡样本的语种标签之间的差异,对所述语种分类层进行参数迭代。5.根据权利要求4所述的语种识别方法,其特征在于,所述将所述均衡样本的语种特征输入至所述语种分类层,得到所述语种分类层输出的语种预测结果,包括:将所述均衡样本的语种特征输入至所述语种分类层的注意力层,得到所述注意力层输出的注意力特征;将所述注意力特征输入至所述语种分类层的语种预测层,得到所述语种预测层输出的所述语种预测结果。6.根据权利要求...
【专利技术属性】
技术研发人员:杨军,方磊,张梦,施志强,张胡,方四安,柳林,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。