语种识别方法、系统、电子设备及存储介质技术方案

技术编号:25552194 阅读:57 留言:0更新日期:2020-09-08 18:52
本发明专利技术实施例提供了一种语种识别方法、系统、电子设备及存储介质,语种识别方法在模型算法层面,采用集成学习的思想,将第一类语种高斯混合模型和第二类语种高斯混合模型融合得到预设高斯混合模型,并通过预设高斯混合模型来拟合全体语种的数据分布,更有利于突出少数类语种的数据分布拟合,可以有效规避少数类语种数据的分布特性被多数类语种数据平均化,以至于少数类语种数据的分布特性被多数类语种数据掩蔽的现象产生,使得通过预设高斯混合模型确定的语音文件对应的均值超矢量更能体现出语音文件中的语种的分布特性。进一步地,无论语音文件中包含的语种属于多数类语种还是少数类语种,均可以通过语种识别模型得到准确识别。

【技术实现步骤摘要】
语种识别方法、系统、电子设备及存储介质
本专利技术涉及信息识别
,更具体地,涉及语种识别方法、系统、电子设备及存储介质。
技术介绍
语种识别作为较为成熟的语音识别技术,已广泛用于多个领域,例如公共安全与军事侦察、人工智能类的前端系统以及紧急救援等领域。当前,主流的语种识别方法是以高斯混合模型(GaussianMixedModel,GMM)为基本框架,引入区分性模型、因子分析、深度学习等识别技术,如SDC-GSV、SDC-TV、BN-GSV、BN-TV等语音识别系统。这些语种识别方法中,在对应用的模型进行训练时,采用的训练样本中各个语种的数据分布比例大致相当,或者数据较少的少数类语种的数据分布比例不低于10%,如此才可以保证训练得到的模型可以准确地对语种进行识别。但是,对于某些特殊的场景下,采集到的少数类语种的数据分布比例无法满足不低于10%或与数据较多的多数类语种的数据分布相当,即少数类语种的数据分布比例在10%以下,这种情况下通过少数类语种的数据以及多数类语种的数据共同进行训练得到的模型,在进行语种识别时得到的识别结果更偏向于多数类语种,无法准确地对少数类语种进行识别。
技术实现思路
为克服上述问题或者至少部分地解决上述问题,本专利技术实施例提供了一种语种识别方法、系统、电子设备及存储介质。第一方面,本专利技术实施例提供了一种语种识别方法,包括:获取待语种识别的语音文件对应的用于表征语种的后验特征,并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型,确定所述语音文件对应的均值超矢量;将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果;其中,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到;所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到,所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定,所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。优选地,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到,具体包括:基于预设的平衡系数,确定所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重;基于所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重,对所述一类语种高斯混合模型和所述第二类语种高斯混合模型进行融合,得到所述预设高斯混合模型;其中,所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定。优选地,所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定,具体包括:基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量,确定第一类语种语音文件样本和所述第二类语种语音文件样本分别对应的样本数量占比;基于所述第一类语种语音文件样本对应的样本数量占比的信息熵值,以及所述第二类语种语音文件样本对应的样本数量占比的信息熵值,确定所述平衡系数。优选地,所述语种识别模型的训练过程,具体包括:对所述第一类语种语音文件样本的均值超矢量,进行聚类处理确定数个聚类中心;其中,所述聚类中心的个数基于所述第二类语种语音文件样本的数量确定;将所述第一类语种语音文件样本的均值超矢量替换为各所述聚类中心对应的均值超矢量,并基于带有语种标签的各所述聚类中心对应的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量,对所述语种识别模型进行训练。优选地,所述聚类中心的个数与所述第二类语种语音文件样本的数量相同。优选地,所述语种识别模型包括多个语种识别子模型,且每个所述语种识别子模型分别对应一个语种;相应地,所述将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果,具体包括:将所述均值超矢量分别输入至每一个所述语种识别子模型中,并分别获得每个所述语种识别子模型输出的识别结果;根据每个所述语种识别子模型输出的识别结果,得到所述语种识别模型输出的识别结果。优选地,所述根据每个所述语种识别子模型输出的识别结果,得到所述语种识别模型输出的识别结果,具体包括:将每个所述语种识别子模型输出的识别结果,分别与预设阈值进行比较,确定输出的识别结果大于所述预设阈值的语种识别子模型对应的语种为所述语音文件的语种。优选地,所述获取待语种识别的语音文件对应的用于表征语种的后验特征,具体包括:将所述待语种识别的语音文件输入至后验特征提取模型,得到由所述后验特征提取模型输出的待语种识别的语音文件对应的用于表征语种的后验特征;其中,所述后验特征提取模型是基于语音文件样本组,以预设的度量准则目标函数为损失函数,进行训练获得的;所述语音文件样本组包括锚点语音文件样本、正例语音文件样本和反例语音文件样本。优选地,所述损失函数是基于所述语音文件样本组中所述锚点语音文件样本与所述正例语音文件样本之间的相似度,以及所述锚点语音文件样本与所述反例语音文件样本之间的相似度确定的。第二方面,本专利技术实施例提供了一种语种识别系统,包括:获取模块和处理模块。其中,获取模块用于获取待语种识别的语音文件对应的用于表征语种的后验特征,并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型,确定所述语音文件对应的均值超矢量;处理模块用于将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果;其中,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到;所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到,所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定,所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。第三方面,本专利技术实施例提供了一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的语种识别方法的步骤。第四方面,本专利技术实施例提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述的语种识别方法的步骤。本专利技术实施例提供的一种语种识别方法、系统、电子设备及存储介质,语种识别方法在模型算法层面,采用集成学习的思想,将第一类语种高斯混合模型和第二类语种高斯混合模型融合得到预设高斯混合模型,并通本文档来自技高网...

【技术保护点】
1.一种语种识别方法,其特征在于,包括:/n获取待语种识别的语音文件对应的用于表征语种的后验特征,并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型,确定所述语音文件对应的均值超矢量;/n将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果;/n其中,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到;/n所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到,所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定,所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。/n

【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:
获取待语种识别的语音文件对应的用于表征语种的后验特征,并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型,确定所述语音文件对应的均值超矢量;
将所述均值超矢量输入至语种识别模型中,得到所述语种识别模型输出的识别结果;
其中,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到;
所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到,所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定,所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。


2.根据权利要求1所述的语种识别方法,其特征在于,所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到,具体包括:
基于预设的平衡系数,确定所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重;
基于所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重,对所述一类语种高斯混合模型和所述第二类语种高斯混合模型进行融合,得到所述预设高斯混合模型;
其中,所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定。


3.根据权利要求2所述的语种识别方法,其特征在于,所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定,具体包括:
基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量,确定第一类语种语音文件样本和所述第二类语种语音文件样本分别对应的样本数量占比;
基于所述第一类语种语音文件样本对应的样本数量占比的信息熵值,以及所述第二类语种语音文件样本对应的样本数量占比的信息熵值,确定所述平衡系数。


4.根据权利要求1所述的语种识别方法,其特征在于,所述语种识别模型的训练过程,具体包括:
对所述第一类语种语音文件样本的均值超矢量,进行聚类处理确定数个聚类中心;其中,所述聚类中心的个数基于所述第二类语种语音文件样本的数量确定;
将所述第一类语种语音文件样本的均值超矢量替换为各所述聚类中心对应的均值超矢量,并基于带有语种标签的各所述聚类中心对应的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量,对所述语种识别模型进行训练。


5.根据权利要求4所述的语种识别方法,其特征在于,所述聚类中心的个数与所述第二类语种语音文件样本的数量相同。


6.根据权利要求1至5任一所述的语种识别方法,其特征在于,所述语种识别模型包括多个语种识别子模型,且每个所述语...

【专利技术属性】
技术研发人员:柳林方磊方四安
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1