一种训练语种识别模型、语种识别的方法及装置制造方法及图纸

技术编号：36229172 阅读：24 留言：0更新日期：2023-01-04 12:28

本说明书实施例提供一种训练语种识别模型、语种识别的方法及装置，语种识别模型包括：提取网络、聚合网络和分类网络，提取网络包括串行设置的预设数量个包括自注意力子层和卷积子层的特征提取层，该方法包括，获得目标语音片段对应的语音特征，目标语音片段具有语种标签；利用预设数量个特征提取层，对语音特征进行预设数量次特征提取，得到帧级别特征向量；特征提取包括，利用自注意力子层进行基于自注意力的特征处理和利用卷积子层进行卷积处理；利用聚合网络，基于自注意力机制和统计机制对帧级别特征向量进行聚合，得到聚合特征向量；利用分类网络处理聚合特征向量，确定目标语音片段的预测语种；根据预测语种和语种标签，更新语种识别模型。更新语种识别模型。更新语种识别模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种训练语种识别模型、语种识别的方法及装置

[0001]本说明书涉及语音识别
，尤其涉及一种训练语种识别模型、利用语种识别模型进行语种识别的方法及装置。

技术介绍

[0002]语种识别，指的是分辨出一段语音所属的语言种类（语种），其在多语种语音处理系统里具有很重要的作用。随着多语种乃至多方言的交流沟通的日益频繁，多语种语音服务面临很大的挑战。由于多语种语音的复杂性，以及词表规模的线性增加，用一个通用语音识别模型对多语种语音进行语音识别的效果不太理想。
[0003]目前，进行语音识别的方案大多为，基于语种识别模型分辨出语种后，再用该语种对应的特定语音识别模型进行语音识别，从而提升语音识别准确率。那么，如何准确地确定出一段语音所属的语种至关重要。

技术实现思路

[0004]本说明书一个或多个实施例提供了一种训练语种识别模型、利用语种识别模型进行语种识别的方法及装置，以实现训练得到可准确识别语音频段所属语种的语种识别模型，为提高语音识别结果的准确性提供基础。
[0005]根据第一方面，提供一种训练语种识别模型的方法，所述语种识别模型包括：提取网络、聚合网络和分类网络，所述提取网络包括串行设置的预设数量个特征提取层，每个特征提取层包括自注意力子层和卷积子层，所述方法包括：获得目标语音片段对应的语音特征，所述目标语音片段具有语种标签；利用所述预设数量个特征提取层，对所述语音特征进行预设数量次特征提取，得到帧级别特征向量；所述特征提取包括，利用所述自注意力子层进行基于自注意力的特征处理，和利...

【技术保护点】

【技术特征摘要】
1.一种训练语种识别模型的方法，所述语种识别模型包括：提取网络、聚合网络和分类网络，所述提取网络包括串行设置的预设数量个特征提取层，每个特征提取层包括自注意力子层和卷积子层，所述方法包括：获得目标语音片段对应的语音特征，所述目标语音片段具有语种标签；利用所述预设数量个特征提取层，对所述语音特征进行预设数量次特征提取，得到帧级别特征向量；所述特征提取包括，利用所述自注意力子层进行基于自注意力的特征处理，和利用所述卷积子层进行卷积处理；利用所述聚合网络，基于自注意力机制和统计机制对所述帧级别特征向量进行聚合，得到聚合特征向量；利用所述分类网络处理所述聚合特征向量，确定所述目标语音片段的预测语种；根据所述预测语种和所述语种标签，更新所述语种识别模型。2.如权利要求1所述的方法，其中，所述语音特征是对所述目标语音片段的频谱特征进行数据增强所得到的特征。3.如权利要求1所述的方法，其中，所述提取网络还包括：采样层；所述对所述语音特征进行预设数量次特征提取，包括：利用所述采样层对所述语音特征进行采样，以得到采样后的语音特征；利用所述预设数量个特征提取层，对所述采样后的语音特征进行预设数量次特征提取。4.如权利要求1所述的方法，其中，所述预设数量个特征提取层包括目标特征提取层，该目标特征提取层还包括第一前馈子层和第二前馈子层；所述对语音特征进行预设数量次特征提取，包括：将当前语音特征输入第一前馈子层，得到第一特征，所述当前语音特征为输入到所述目标特征提取层的语音特征；利用所述第一特征和所述当前语音特征确定第二特征，将其输入所述目标特征提取层的自注意力子层，得到第三特征；利用所述第三特征和所述第二特征确定第四特征，将其输入所述目标特征提取层的卷积子层，得到第五特征；利用所述第四特征和所述第五特征确定第六特征，将其输入所述第二前馈子层，得到第七特征；基于所述第六特征和所述第七特征，确定所述目标特征提取层的输出特征。5.如权利要求1所述的方法，其中，所述利用所述聚合网络，基于自注意力机制和统计机制对所述帧级别特征向量进行聚合，得到聚合特征向量，包括：利用所述聚合网络，确定所述帧级别特征向量中各帧特征向量对应的注意力值，基于各注意力值确定所述帧级别特征向量对应的均值向量和标准差向量；基于所述均值向量和标准差向量，确定所述聚合特征向量。6.如权利要求1所述的方法，其中，所述分类网络包括全连接层、批量归一化层和激活函数；所述利用所述分类网络处理所述聚合特征向量，包括：依次利用所述全连接层和批量归一化层，对所述聚合特征向量进行变换，得到变换特
征；利用所述激活函数，处理所...

【专利技术属性】
技术研发人员：赵闻飙，吕安旗，王志铭，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人