一种基于空洞卷积神经网络的端到端语种识别分类方法技术

技术编号：30413327 阅读：15 留言：0更新日期：2021-10-24 16:14

本发明专利技术公开了一种基于空洞卷积神经网络的端到端语种识别分类方法，包括：待训练语种识别网络接收，并对训练语音中提取的帧级别声学底层特征进行至少一层空洞卷积后，输出训练语音后验概率；将训练语音后验概率与真实类别标签的最小均方误差作为待训练语种识别网络的损失函数，通过减小优化函数的值进行梯度回传并更新待训练语种识别网络的参数，得到训练后语种识别网络；提取测试语音的帧级别声学底层特征；训练后语种识别网络接收测试语音的帧级别声学底层特征，输出测试语音后验概率；根据测试语音后验概率判定测试语音中的至少一个语种类别。在输出特征图的分辨率不变的情况下，不降低单个神经元的感受野，弱化语音中的时间信息丢失问题。时间信息丢失问题。时间信息丢失问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于空洞卷积神经网络的端到端语种识别分类方法

[0001]本专利技术涉及语种识别
，特别涉及一种基于空洞卷积神经网络的端到端语种识别分类方法。

技术介绍

[0002]语种识别(Language Identification,LID)是指自动判定给定的语音片段，从该语音片段的语音信号中提取各语种的差异信息，判断语言种类的过程。语种识别技术在多语种语音处理方面有重要的应用，例如，口语语言翻译系统、多语种语音识别系统、语音文本处理等。
[0003]目前，传统的语种识别技术包括两种方法：第一种方法，基于音素层特征的语种识别技术；其中，基于音素层特征的语种识别技术是将音素层特征作为识别依据。常用的方法有音素识别后接N元文法模型(Phoneme Recognizer followed by Language Model,PRLM)和并行音素识别器后接语言模型(Parallel Phone Recognition followed by Language Modeling,PPRLM)等。第二种方法，基于声学层特征的语种识别技术依赖于声学层特征，主流的语种识别系统有混合高斯模型-全局背景模型(Gaussian Mixture Model-Universal Back-ground Model,GMM-UBM)、高斯超向量-支持向量机(GMM Super Vector-Support Vector Machines,GSV-SVM)和基于全差异空间的(Total Variability,TV)i-vector系统等...

【技术保护点】

【技术特征摘要】
1.一种基于空洞卷积神经网络的端到端语种识别分类方法，其特征在于，包括下列步骤：提取训练语音的帧级别声学底层特征；待训练语种识别网络接收所述训练语音的帧级别声学底层特征，对所述训练语音的帧级别声学底层特征进行至少一层空洞卷积后，输出训练语音后验概率；根据所述训练语音后验概率与真实类别标签，确定所述待训练语种识别网络的损失函数，通过减小优化函数的值进行梯度回传并更新所述待训练语种识别网络的参数，得到训练后语种识别网络；提取测试语音的帧级别声学底层特征；所述训练后语种识别网络接收所述测试语音的帧级别声学底层特征，输出测试语音后验概率；根据所述测试语音后验概率判定测试语音中的至少一个语种类别。2.根据权利要求1所述的方法，其特征在于，所述...

【专利技术属性】
技术研发人员：张鹏远，苗晓晓，王文超，颜永红，
申请(专利权)人：北京中科信利技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人