【技术实现步骤摘要】
一种基于拼接特征的语种识别方法
本专利技术涉及语音识别
,特别涉及一种应用于语种识别的语种特征提取方法。
技术介绍
语种识别是指判定输入语音所属语种类别的技术,作为机器自动翻译系统、语音识别系统的前端处理技术,在国际化服务转接方面具有重要价值。特别是近年来网络巨头公司的国际化、大数据的蓬勃发展,越来越需要用到语种识别来进行分别服务。当前语种识别主流技术包括:基于全差异空间分析方法的i-vector方法、基于语音识别技术的PPRLM(并行音素识别语法模型)方法以及基于神经网络的embedding方法。其中基于语音识别技术的PPRML方法更被认为是最有发展的技术方法。针对现有的语种识别方法,使用PPRLM方法的系统虽然能够提取高层声学特征,在短语音上性能能够超过全差异空间分析方法,但PPRML方法需要训练多个语种的音素识别器,并且在长语音上效果并不比全差异空间分析方法更好。如图1所示,为传统的语种识别方法示意图。该方法具体为一种基于全差异空间分析模型的语种识别方法,首先对待识别的语音数据进行分帧;提取其声学 ...
【技术保护点】
1.一种基于拼接特征的语种识别方法,其特征在于,该方法包括以下步骤:/n步骤1,对接收的输入语音信号进行分帧处理,获得语音信号的帧序列;/n步骤2,计算输入语音信号的帧序列的总数,作为时长特征;/n步骤3,提取语音帧序列的底层声学特征;/n步骤4,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征;/n步骤5,将上下文扩展声学特征输入到训练好的音素识别神经网络中,利用音素识别器进行音素识别,得到音素特征序列;/n步骤6,比较底层声学特征维度N和PLLR特征维度M,选择维度较大者进行PCA降维,然后以底层声学特征为目标进行归一化,再进行拼接, ...
【技术特征摘要】
1.一种基于拼接特征的语种识别方法,其特征在于,该方法包括以下步骤:
步骤1,对接收的输入语音信号进行分帧处理,获得语音信号的帧序列;
步骤2,计算输入语音信号的帧序列的总数,作为时长特征;
步骤3,提取语音帧序列的底层声学特征;
步骤4,将当前帧的前、后多帧底层声学特征与当前帧的底层声学特征进行拼接得到上下文扩展声学特征;
步骤5,将上下文扩展声学特征输入到训练好的音素识别神经网络中,利用音素识别器进行音素识别,得到音素特征序列;
步骤6,比较底层声学特征维度N和PLLR特征维度M,选择维度较大者进行PCA降维,然后以底层声学特征为目标进行归一化,再进行拼接,作为拼接特征;
步骤6,将拼接特征输入到i-vector提取器中,提取得到语音帧序列的i-vector特征表示;其中i-vector提取器更包含UBM模型训练,具体描述如下:
使用GMM模型对全部训练语音拼接特征的概率分布进行建模,通过EM算法迭代训练得到训练数据的通用背景模型分布GMM-UBM模型,使用GMM-UBM模型的所有分量的均值进行拼接得到全部数据的分布均值,将分布平均值进行拼接得到超矢量m;
然后每段语音的语音拼接特征使用MAPadaptation方法对GMM-UBM模型进行线性插值,获得每段语音的分布超矢量M;
每段语音通过全差异子空间模型,计算得到i-vector特征;
GMM模型的公式如下:
其中,P(y|θ)表示GMM概率分布,y表示输入特征,θk表示第k个高斯分量参数,K表示GMM内高斯分量数,φ(y|θk)表示第k个高斯分量概率分布,αk表示每个高斯分量权重;
参数θk的计算公式如下:
θk=(μk,δk)
其中,μk表示高斯分布均值,δk表示高斯分布方差;
MAPadaptation的计算公式如下:
其中,F表示某段语音的帧序列,yf表示该帧特征;
通过最大后验概率找到最佳参数θmax取其均值构成超矢量。
全差异子空间公式如下:
M=m+Tω
其中,M表示某段语音的超矢...
【专利技术属性】
技术研发人员:刘俊南,江海,王化,刘文龙,
申请(专利权)人:因诺微科技天津有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。