语种识别方法、计算机设备、存储介质和计算机程序产品技术

技术编号:36801588 阅读:8 留言:0更新日期:2023-03-08 23:48
本申请涉及一种语种识别方法、计算机设备、存储介质和计算机程序产品。所述方法包括:将待识别音频输入至预先训练的音频特征提取模型,得到待识别音频的音频特征;预先训练的音频特征提取模型通过不同语种的样本音频训练得到;从预先训练的音频特征提取模型所包含的音频码本中,得到与待识别音频的音频特征对应的目标码本特征;音频码本包括不同语种的码本特征向量;根据目标码本特征中各码本特征向量的分布,得到待识别音频的分布特征向量;将样本音频的分布特征向量中,与待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别,确定为待识别音频的语种类别。采用本方法能够提高语种识别准确率。准确率。准确率。

【技术实现步骤摘要】
语种识别方法、计算机设备、存储介质和计算机程序产品


[0001]本申请涉及计算机
,特别是涉及一种语种识别方法、计算机设备、存储介质和计算机程序产品。

技术介绍

[0002]随着计算机技术的快速发展和国际化交流的日益紧密,多门语言的音频数据在多个领域中进行使用,对音频数据进行语种识别也成为了各领域的一项重要技术。
[0003]目前,现有的语种识别技术训练得到的模型通常只能识别固定类型的语种,这与模型在训练过程中使用的语种数据集的类型有关,在面对新语种时,需要对模型重新进行训练,使得训练得到的模型对新语种的识别准确率较低。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够提高语种识别准确率的语种识别方法、计算机设备、计算机可读存储介质和计算机程序产品。
[0005]第一方面,本申请提供了一种语种识别方法。所述方法包括:
[0006]将待识别音频输入至预先训练的音频特征提取模型,得到所述待识别音频的音频特征;所述预先训练的音频特征提取模型通过不同语种的样本音频训练得到;
[0007]从所述预先训练的音频特征提取模型所包含的音频码本中,得到与所述待识别音频的音频特征对应的目标码本特征;所述音频码本包括不同语种的码本特征向量;
[0008]根据所述目标码本特征中各码本特征向量的分布,得到所述待识别音频的分布特征向量;
[0009]将所述样本音频的分布特征向量中,与所述待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别,确定为所述待识别音频的语种类别。
[0010]在其中一个实施例中,预先训练的音频特征提取模型通过如下方式训练得到:
[0011]将不同语种的样本音频分别输入至待训练的音频特征提取模型中的音频编码模型和说话人编码模型,得到所述样本音频对应的样本音频特征和说话人特征;
[0012]从所述待训练的音频特征提取模型所包含的音频码本中,得到与所述样本音频特征对应的样本码本特征;
[0013]将所述样本码本特征与所述说话人特征进行拼接,将拼接得到的拼接特征输入至所述待训练的音频特征提取模型中的音频解码模型,得到所述样本音频的预测音频特征;
[0014]根据所述样本音频的预测音频特征和所述样本音频的实际音频特征之间的差异,对所述待训练的音频特征提取模型进行迭代训练,得到所述预先训练的音频特征提取模型。
[0015]在其中一个实施例中,样本音频特征通过如下方式处理得到:
[0016]通过所述待训练的音频特征提取模型中的音频编码模型,对所述样本音频的初始
样本依次进行卷积处理、批标准化处理和激活处理,得到所述样本音频的处理后样本特征;
[0017]对所述样本音频的处理后样本特征与所述样本音频的初始样本特征进行融合后得到的融合特征,依次进行卷积处理、批标准化处理和激活处理,得到所述样本音频的编码特征;
[0018]对所述样本音频的编码特征进行降维处理,得到所述样本音频的降维特征;
[0019]将所述样本音频的降维特征输入至门控循环网络,得到所述样本音频的样本音频特征。
[0020]在其中一个实施例中,说话人特征通过如下方式处理得到:
[0021]通过所述待训练的音频特征提取模型中的说话人编码模型,对所述样本音频的初始样本特征依次进行卷积处理、批标准化处理和激活处理,得到所述样本音频的处理后样本特征;
[0022]对所述样本音频的处理后样本特征与所述每帧样本的初始样本特征进行融合后得到的融合特征,依次进行卷积处理、批标准化处理和激活处理,得到所述样本音频的编码特征;
[0023]对所述样本音频的编码特征进行降维处理,得到所述样本音频的降维特征;
[0024]对所述样本音频的降维特征进行均值处理,得到所述样本音频对应的说话人特征。
[0025]在其中一个实施例中,在将不同语种的样本音频分别输入至待训练的音频特征提取模型中的音频编码模型和说话人编码模型,得到所述样本音频对应的样本音频特征和说话人特征之前,还包括:
[0026]获取不同语种的初始音频;
[0027]对每个语种的初始音频进行语音激活处理,得到所述每个语种的初始音频中的有效音频;
[0028]根据每个语种的有效音频的时长,分别对所述每个语种的有效音频进行变速处理和/或变调处理后得到所述样本音频。
[0029]在其中一个实施例中,根据所述目标码本特征中各码本特征向量的分布,得到所述待识别音频的分布特征向量,包括:
[0030]根据所述目标码本特征中码本特征向量的数量分布,得到所述目标码本特征的直方图;
[0031]对所述目标码本特征的直方图进行归一化处理,得到所述待识别音频的分布特征向量。
[0032]在其中一个实施例中,将所述样本音频的分布特征向量中,与所述待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别,确定为所述待识别音频的语种类别,包括:
[0033]从各个样本音频的分布特征向量中,筛选得到预设数量的与所述待识别音频的分布特征向量之间的距离满足预设第一距离条件的目标分布特征向量;
[0034]从所述目标分布特征向量对应的语种类别中,筛选出语种类别的数量最多的语种类别,作为所述待识别音频的语种类别。
[0035]在其中一个实施例中,从所述预先训练的音频特征提取模型中的音频码本中,得
到与所述待识别音频的音频特征对应的目标码本特征,包括:
[0036]从所述音频码本中的码本特征向量中,筛选得到所述待识别音频的音频特征中各个音频特征向量对应的目标码本特征向量;
[0037]将各个目标码本特征向量组合为所述待识别音频的音频特征对应的目标码本特征。
[0038]第二方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0039]将待识别音频输入至预先训练的音频特征提取模型,得到所述待识别音频的音频特征;所述预先训练的音频特征提取模型通过不同语种的样本音频训练得到;
[0040]从所述预先训练的音频特征提取模型所包含的音频码本中,得到与所述待识别音频的音频特征对应的目标码本特征;所述音频码本包括不同语种的码本特征向量;
[0041]根据所述目标码本特征中各码本特征向量的分布,得到所述待识别音频的分布特征向量;
[0042]将所述样本音频的分布特征向量中,与所述待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别,确定为所述待识别音频的语种类别。
[0043]第三方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0044]将待识别音频输入至预先训练的音频特征提取模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语种识别方法,其特征在于,所述方法包括:将待识别音频输入至预先训练的音频特征提取模型,得到所述待识别音频的音频特征;所述预先训练的音频特征提取模型通过不同语种的样本音频训练得到;从所述预先训练的音频特征提取模型所包含的音频码本中,得到与所述待识别音频的音频特征对应的目标码本特征;所述音频码本包括不同语种的码本特征向量;根据所述目标码本特征中各码本特征向量的分布,得到所述待识别音频的分布特征向量;将所述样本音频的分布特征向量中,与所述待识别音频的分布特征向量之间的距离满足预设距离条件的目标分布特征向量对应的语种类别,确定为所述待识别音频的语种类别。2.根据权利要求1所述的方法,其特征在于,所述预先训练的音频特征提取模型通过如下方式训练得到:将不同语种的样本音频分别输入至待训练的音频特征提取模型中的音频编码模型和说话人编码模型,得到所述样本音频对应的样本音频特征和说话人特征;从所述待训练的音频特征提取模型所包含的音频码本中,得到与所述样本音频特征对应的样本码本特征;将所述样本码本特征与所述说话人特征进行拼接,将拼接得到的拼接特征输入至所述待训练的音频特征提取模型中的音频解码模型,得到所述样本音频的预测音频特征;根据所述样本音频的预测音频特征和所述样本音频的实际音频特征之间的差异,对所述待训练的音频特征提取模型进行迭代训练,得到所述预先训练的音频特征提取模型。3.根据权利要求2所述的方法,其特征在于,所述样本音频特征通过如下方式处理得到:通过所述待训练的音频特征提取模型中的音频编码模型,对所述样本音频的初始样本特征依次进行卷积处理、批标准化处理和激活处理,得到所述样本音频的处理后样本特征;对所述样本音频的处理后样本特征与所述样本音频的初始样本特征进行融合后得到的融合特征,依次进行卷积处理、批标准化处理和激活处理,得到所述样本音频的编码特征;对所述样本音频的编码特征进行降维处理,得到所述样本音频的降维特征;将所述样本音频的降维特征输入至门控循环网络,得到所述样本音频的样本音频特征。4.根据权利要求2所述的方法,其特征在于,所述说话人特征通过如下方式处理得到:通过所述待训练的音频特征提取模型中的说话人编码模型,对所述样本音频的初始样本特征依次进行卷积处理、批标准化处理和激活处理,得到所述样本音频的处理后特征;对所述样本音频的处理后样本特征与所述样本音频的初始样本特征进行融合后得到的融合特征,依次进行卷积处理、批标准化处理和激活处理...

【专利技术属性】
技术研发人员:庄晓滨
申请(专利权)人:腾讯音乐娱乐科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1