语种识别方法、系统、电子设备及存储介质技术方案

技术编号：25552194 阅读：57 留言：0更新日期：2020-09-08 18:52

本发明专利技术实施例提供了一种语种识别方法、系统、电子设备及存储介质，语种识别方法在模型算法层面，采用集成学习的思想，将第一类语种高斯混合模型和第二类语种高斯混合模型融合得到预设高斯混合模型，并通过预设高斯混合模型来拟合全体语种的数据分布，更有利于突出少数类语种的数据分布拟合，可以有效规避少数类语种数据的分布特性被多数类语种数据平均化，以至于少数类语种数据的分布特性被多数类语种数据掩蔽的现象产生，使得通过预设高斯混合模型确定的语音文件对应的均值超矢量更能体现出语音文件中的语种的分布特性。进一步地，无论语音文件中包含的语种属于多数类语种还是少数类语种，均可以通过语种识别模型得到准确识别。

全部详细技术资料下载

【技术实现步骤摘要】
语种识别方法、系统、电子设备及存储介质
本专利技术涉及信息识别
，更具体地，涉及语种识别方法、系统、电子设备及存储介质。
技术介绍
语种识别作为较为成熟的语音识别技术，已广泛用于多个领域，例如公共安全与军事侦察、人工智能类的前端系统以及紧急救援等领域。当前，主流的语种识别方法是以高斯混合模型(GaussianMixedModel，GMM)为基本框架，引入区分性模型、因子分析、深度学习等识别技术，如SDC-GSV、SDC-TV、BN-GSV、BN-TV等语音识别系统。这些语种识别方法中，在对应用的模型进行训练时，采用的训练样本中各个语种的数据分布比例大致相当，或者数据较少的少数类语种的数据分布比例不低于10％，如此才可以保证训练得到的模型可以准确地对语种进行识别。但是，对于某些特殊的场景下，采集到的少数类语种的数据分布比例无法满足不低于10％或与数据较多的多数类语种的数据分布相当，即少数类语种的数据分布比例在10％以下，这种情况下通过少数类语种的数据以及多数类语种的数据共同进行训练得到的模型，在进行语种识别时得到的识别结果更偏向于多数类语种，无法准确地对少数类语种进行识别。
技术实现思路
为克服上述问题或者至少部分地解决上述问题，本专利技术实施例提供了一种语种识别方法、系统、电子设备及存储介质。第一方面，本专利技术实施例提供了一种语种识别方法，包括：获取待语种识别的语音文件对应的用于表征语种的后验特征，并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混...

【技术保护点】
1.一种语种识别方法，其特征在于，包括：/n获取待语种识别的语音文件对应的用于表征语种的后验特征，并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型，确定所述语音文件对应的均值超矢量；/n将所述均值超矢量输入至语种识别模型中，得到所述语种识别模型输出的识别结果；/n其中，所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到；/n所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到，所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定，所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。/n

【技术特征摘要】
1.一种语种识别方法，其特征在于，包括：
获取待语种识别的语音文件对应的用于表征语种的后验特征，并基于所述语音文件对应的用于表征语种的后验特征以及预设高斯混合模型，确定所述语音文件对应的均值超矢量；
将所述均值超矢量输入至语种识别模型中，得到所述语种识别模型输出的识别结果；
其中，所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到；
所述语种识别模型基于带有语种标签的第一类语种语音文件样本的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量训练得到，所述第一类语种语音文件样本的均值超矢量基于所述第一类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定，所述第二类语种语音文件样本的均值超矢量基于所述第二类语种语音文件样本对应的用于表征语种的后验特征以及所述预设高斯混合模型确定。

2.根据权利要求1所述的语种识别方法，其特征在于，所述预设高斯混合模型是基于第一类语种高斯混合模型和第二类语种高斯混合模型融合得到，具体包括：
基于预设的平衡系数，确定所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重；
基于所述第一类语种高斯混合模型和所述第二类语种高斯混合模型分别对应的权重，对所述一类语种高斯混合模型和所述第二类语种高斯混合模型进行融合，得到所述预设高斯混合模型；
其中，所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定。

3.根据权利要求2所述的语种识别方法，其特征在于，所述平衡系数基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量确定，具体包括：
基于所述第一类语种语音文件样本和所述第二类语种语音文件样本中分别对应的样本数量，确定第一类语种语音文件样本和所述第二类语种语音文件样本分别对应的样本数量占比；
基于所述第一类语种语音文件样本对应的样本数量占比的信息熵值，以及所述第二类语种语音文件样本对应的样本数量占比的信息熵值，确定所述平衡系数。

4.根据权利要求1所述的语种识别方法，其特征在于，所述语种识别模型的训练过程，具体包括：
对所述第一类语种语音文件样本的均值超矢量，进行聚类处理确定数个聚类中心；其中，所述聚类中心的个数基于所述第二类语种语音文件样本的数量确定；
将所述第一类语种语音文件样本的均值超矢量替换为各所述聚类中心对应的均值超矢量，并基于带有语种标签的各所述聚类中心对应的均值超矢量和带有语种标签的第二类语种语音文件样本的均值超矢量，对所述语种识别模型进行训练。

5.根据权利要求4所述的语种识别方法，其特征在于，所述聚类中心的个数与所述第二类语种语音文件样本的数量相同。

6.根据权利要求1至5任一所述的语种识别方法，其特征在于，所述语种识别模型包括多个语种识别子模型，且每个所述语...

【专利技术属性】
技术研发人员：柳林，方磊，方四安，
申请(专利权)人：合肥讯飞数码科技有限公司，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人