【技术实现步骤摘要】
语种识别方法、系统、电子设备及存储介质
本专利技术涉及信息识别
,更具体地,涉及语种识别方法、系统、电子设备及存储介质。
技术介绍
语种识别作为较为成熟的语音识别技术,已广泛用于多个领域,例如公共安全与军事侦察、人工智能类的前端系统以及紧急救援等领域。当前,主流的语种识别方法是以高斯混合模型(GaussianMixedModel,GMM)为基本框架,引入区分性模型、因子分析、深度学习等识别技术,如SDC-GSV、SDC-TV、BN-GSV、BN-TV等语音识别系统。这些语种识别方法中,在对应用的模型进行训练时,采用的训练样本中各个语种的数据分布比例大致相当,或者数据较少的少数类语种的数据分布比例不低于10%,如此才可以保证训练得到的模型可以准确地对语种进行识别。但是,对于某些特殊的场景下,采集到的少数类语种的数据分布比例无法满足不低于10%或与数据较多的多数类语种的数据分布相当,即少数类语种的数据分布比例在10%以下,这种情况下通过少数类语种的数据以及多数类语种的数据共同进行训练得到的模型,在进行语种识别时得到的识别结果更偏向于多数类语种,无法准确地对少数类语种进行识别。
技术实现思路
为克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供了一种语种识别方法、系统、电子设备及存储介质。第一方面,本专利技术实施例提供了一种语种识别方法,包括:获取待语种识别的语音文件对应的用于表征语种的后验特征,并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混 ...
【技术保护点】
1.一种语种识别方法,其特征在于,包括:/n获取待语种识别的语音文件对应的用于表征语种的后验特征,并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型,确定所述语音文件对应的均值超矢量;/n将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果;/n其中,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到;/n所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到,所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定,所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。/n
【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:
获取待语种识别的语音文件对应的用于表征语种的后验特征,并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型,确定所述语音文件对应的均值超矢量;
将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果;
其中,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到;
所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到,所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定,所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。
2.根据权利要求1所述的语种识别方法,其特征在于,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到,具体包括:
基于预设的平衡系数,确定所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重;
基于所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重,对所述一类语种高斯混合模型和所述第二类语种高斯混合模型进行融合,得到所述预设高斯混合模型;
其中,所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定。
3.根据权利要求2所述的语种识别方法,其特征在于,所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定,具体包括:
基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量,确定第一类语种语音文件样本和所述第二类语种语音文件样本分别对应的样本数量占比;
基于所述第一类语种语音文件样本对应的样本数量占比的信息熵值,以及所述第二类语种语音文件样本对应的样本数量占比的信息熵值,确定所述平衡系数。
4.根据权利要求1所述的语种识别方法,其特征在于,所述语种识别模型的训练过程,具体包括:
对所述第一类语种语音文件样本的均值超矢量,进行聚类处理确定数个聚类中心;其中,所述聚类中心的个数基于所述第二类语种语音文件样本的数量确定;
将所述第一类语种语音文件样本的均值超矢量替换为各所述聚类中心对应的均值超矢量,并基于带有语种标签的各所述聚类中心对应的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量,对所述语种识别模型进行训练。
5.根据权利要求4所述的语种识别方法,其特征在于,所述聚类中心的个数与所述第二类语种语音文件样本的数量相同。
6.根据权利要求1至5任一所述的语种识别方法,其特征在于,所述语种识别模型包括多个语种识别子模型,且每个所述语...
【专利技术属性】
技术研发人员:柳林,方磊,方四安,
申请(专利权)人:合肥讯飞数码科技有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。