语种识别方法、计算机设备、存储介质和计算机程序产品技术

技术编号：36801588 阅读：8 留言：0更新日期：2023-03-08 23:48

本申请涉及一种语种识别方法、计算机设备、存储介质和计算机程序产品。所述方法包括：将待识别音频输入至预先训练的音频特征提取模型，得到待识别音频的音频特征；预先训练的音频特征提取模型通过不同语种的样本音频训练得到；从预先训练的音频特征提取模型所包含的音频码本中，得到与待识别音频的音频特征对应的目标码本特征；音频码本包括不同语种的码本特征向量；根据目标码本特征中各码本特征向量的分布，得到待识别音频的分布特征向量；将样本音频的分布特征向量中，与待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别，确定为待识别音频的语种类别。采用本方法能够提高语种识别准确率。准确率。准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语种识别方法、计算机设备、存储介质和计算机程序产品

[0001]本申请涉及计算机
，特别是涉及一种语种识别方法、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的快速发展和国际化交流的日益紧密，多门语言的音频数据在多个领域中进行使用，对音频数据进行语种识别也成为了各领域的一项重要技术。
[0003]目前，现有的语种识别技术训练得到的模型通常只能识别固定类型的语种，这与模型在训练过程中使用的语种数据集的类型有关，在面对新语种时，需要对模型重新进行训练，使得训练得到的模型对新语种的识别准确率较低。

技术实现思路

[0004]基于此，有必要针对上述技术问题，提供一种能够提高语种识别准确率的语种识别方法、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面，本申请提供了一种语种识别方法。所述方法包括：
[0006]将待识别音频输入至预先训练的音频特征提取模型，得到所述待识别音频的音频特征；所述预先训练的音频特征提取模型通过不同语种的样本音频训练得到；
[0007]从所述预先训练的音频特征提取模型所包含的音频码本中，得到与所述待识别音频的音频特征对应的目标码本特征；所述音频码本包括不同语种的码本特征向量；
[0008]根据所述目标码本特征中各码本特征向量的分布，得到所述待识别音频的分布特征向量；
[0009]将所述样本音频的分布特征向量中，与所述待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量...

【技术保护点】

【技术特征摘要】
1.一种语种识别方法，其特征在于，所述方法包括：将待识别音频输入至预先训练的音频特征提取模型，得到所述待识别音频的音频特征；所述预先训练的音频特征提取模型通过不同语种的样本音频训练得到；从所述预先训练的音频特征提取模型所包含的音频码本中，得到与所述待识别音频的音频特征对应的目标码本特征；所述音频码本包括不同语种的码本特征向量；根据所述目标码本特征中各码本特征向量的分布，得到所述待识别音频的分布特征向量；将所述样本音频的分布特征向量中，与所述待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别，确定为所述待识别音频的语种类别。2.根据权利要求1所述的方法，其特征在于，所述预先训练的音频特征提取模型通过如下方式训练得到：将不同语种的样本音频分别输入至待训练的音频特征提取模型中的音频编码模型和说话人编码模型，得到所述样本音频对应的样本音频特征和说话人特征；从所述待训练的音频特征提取模型所包含的音频码本中，得到与所述样本音频特征对应的样本码本特征；将所述样本码本特征与所述说话人特征进行拼接，将拼接得到的拼接特征输入至所述待训练的音频特征提取模型中的音频解码模型，得到所述样本音频的预测音频特征；根据所述样本音频的预测音频特征和所述样本音频的实际音频特征之间的差异，对所述待训练的音频特征提取模型进行迭代训练，得到所述预先训练的音频特征提取模型。3.根据权利要求2所述的方法，其特征在于，所述样本音频特征通过如下方式处理得到：通过所述待训练的音频特征提取模型中的音频编码模型，对所述样本音频的初始样本特征依次进行卷积处理、批标准化处理和激活处理，得到所述样本音频的处理后样本特征；对所述样本音频的处理后样本特征与所述样本音频的初始样本特征进行融合后得到的融合特征，依次进行卷积处理、批标准化处理和激活处理，得到所述样本音频的编码特征；对所述样本音频的编码特征进行降维处理，得到所述样本音频的降维特征；将所述样本音频的降维特征输入至门控循环网络，得到所述样本音频的样本音频特征。4.根据权利要求2所述的方法，其特征在于，所述说话人特征通过如下方式处理得到：通过所述待训练的音频特征提取模型中的说话人编码模型，对所述样本音频的初始样本特征依次进行卷积处理、批标准化处理和激活处理，得到所述样本音频的处理后特征；对所述样本音频的处理后样本特征与所述样本音频的初始样本特征进行融合后得到的融合特征，依次进行卷积处理、批标准化处理和激活处理...

【专利技术属性】
技术研发人员：庄晓滨，
申请(专利权)人：腾讯音乐娱乐科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人