【技术实现步骤摘要】
本专利技术属于语音识别领域,具体地说,涉及一种基于语种对的鉴别式模型建立方法,可用于语种识别。
技术介绍
语种识别是指使用计算机从一段语音信号中自动识别出其语言的种类。语种识别技术主要用于多语种人机交互、语音信息侦听以及语音文档检索等系统。 语种识别模型可以分为描述性模型和鉴别性模型两类。描述性模型对各语种的分布进行建模,侧重于使用非参数化或参数化的方法对每个语种进行刻画,如早期的VQ(矢量量化)和后来的G匪(高斯混合模型),以及PPRLM(并行音素识别器后接语言模型)等;而鉴别性模型对各语种的分类面进行建模,侧重于分类,如近期兴起的SVM(支持矢量机)、SVM GSV(基于G匪超矢量的SVM)和PPR-VSM(并行音素识别器后接矢量空间模型)等。在语种识别中,描述性模型一般具有较好的推广能力,特别是对于没有参与训练的集外语种,也不容易出现虚警;而鉴别性模型一般具有更好的分类能力,其识别性能通常高于传统的描述性模型。 后来,学者们陆续采用一些鉴别性的准则对原来的描述性模型进行训练,并通过 模型插值等手段使其兼有描述性模型和鉴别性模型的优点,从而识别性能显著提高 ...
【技术保护点】
基于语种对的鉴别式语种识别模型建立方法,其特征在于,所述方法是在数字集成电路芯片中依次按以下步骤实现的:步骤(1):初始化在所述集成电路中建立以下模块:特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块;步骤(2):对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC,再计算偏移差分倒谱SDC特征向量,其计算公式为:s↓[k](i)=x(um](i)为第l个语种分子项中X↓[r](i)属于第g个高斯分量的后验概率,γ↓[lgr]↑[de ...
【技术特征摘要】
基于语种对的鉴别式语种识别模型建立方法,其特征在于,所述方法是在数字集成电路芯片中依次按以下步骤实现的步骤(1)初始化在所述集成电路中建立以下模块特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块;步骤(2)对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC,再计算偏移差分倒谱SDC特征向量,其计算公式为sk(i)=x(i+3k+1)-x(i+3k-1),k=0,1,...,6其中x(i)表示第i帧MFCC特征向量,k为SDC特征向量的块标号,k=0,1,...,6,共7块,每块7维,连同7维MFCC特征一起拼接成56维的特征向量{x(i),s0(i),s1(i),…,s6(i)};步骤(3)在所述最大似然ML准则训练模块中,用Baum-Welch算法对步骤(2)中得到的数据进行最大似然ML训练,得到所述12个语种高斯混合模型GMM的初始参数,其中第l个语种的参数用λl表示 <mrow><msub> <mi>λ</mi> <mi>l</mi></msub><mo>=</mo><mo>{</mo><msub> <mi>w</mi> <mi>lg</mi></msub><mo>,</mo><msub> <mi>μ</mi> <mi>lg</mi></msub><mo>,</mo><msubsup> <mi>σ</mi> <mi>lg</mi> <mn>2</mn></msubsup><mo>,</mo><mi>g</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>G</mi><mo>}</mo><mo>,</mo> </mrow>l=1,...,L其中下标g表示高斯分量标号,每个语种含G个高斯分量,下标l表示语种标号,l=1,...,L,共L=12个语种,wlg表示第l个语种第g个高斯分量的权重,μlg表示第l个语种第g个高斯分量的均值,σlg2表示第l个语种第g个高斯分量的方差;步骤(4)分别用分子统计量计算模块和分母统计量计算模块计算所述各语种的分子统计量和分母统计量在所述分子统计量中零阶分子统计量 <mrow><msubsup> <mi>θ</mi> <mi>lg</mi> <mi>num</mi></msubsup><mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>r</mi><mo>=</mo><mn>1</mn> </mrow> <mi>R</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <msub><mi>T</mi><mi>r</mi> </msub></munderover><msubsup> <mi>γ</mi> <mi>lgr</mi> <mi>num</mi></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>·</mo><mn>1</mn> </mrow>一阶分子统计量 <mrow><msubsup> <mi>θ</mi> <mi>lg</mi> <mi>num</mi></msubsup><mrow> <mo>(</mo> <mi>χ</mi> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>r</mi><mo>=</mo><mn>1</mn> </mrow> <mi>R</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <msub><mi>T</mi><mi>r</mi> </msub></munderover><msubsup> <mi>γ</mi> <mi>lgr</mi> <mi>num</mi></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>·</mo><msub> <mi>X</mi> <mi>r</mi></msub><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow> </mrow>二阶分子统计量 <mrow><msubsup> <mi>θ</mi> <mi>lg</mi> <mi>num</mi></msubsup><mrow> <mo>(</mo> <msup><mi>χ</mi><mn>2</mn> </msup> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>r</mi><mo>=</mo><mn>1</mn> </mrow> <mi>R</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <msub><mi>T</mi><mi>r</mi> </msub></munderover><msubsup> <mi>γ</mi> <mi>lgr</mi> <mi>num</mi></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>·</mo><msubsup> <mi>X</mi> <mi>r</mi> <mn>2</mn></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow> </mrow>在所述分母统计量中零阶分母统计量 <mrow><msubsup> <mi>θ</mi> <mi>lg</mi> <mi>den</mi></msubsup><mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>r</mi><mo>=</mo><mn>1</mn> </mrow> <mi>R</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <msub><mi>T</mi><mi>r</mi> </msub></munderover><msubsup> <mi>γ</mi> <mi>lgr</mi> <mi>den</mi></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>·</mo><mn>1</mn> </mrow>一阶分母统计量 <mrow><msubsup> <mi>θ</mi> <mi>lg</mi> <mi>den</mi></msubsup><mrow> <mo>(</mo> <mi>χ</mi> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>r</mi><mo>=</mo><mn>1</mn> </mrow> <mi>R</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <msub><mi>T</mi><mi>r</mi> </msub></munderover><msubsup> <mi>γ</mi> <mi>lgr</mi> <mi>den</mi></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>·</mo><msub> <mi>X</mi> <mi>r</mi></msub><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow> </mrow>二阶分母统计量 <mrow><msubsup> <mi>θ</mi> <mi>lg</mi> <mi>den</mi></msubsup><mrow> <mo>(</mo> <msup><mi>χ</mi><mn>2</mn> </msup> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>r</mi><mo>=</mo><mn>1</mn> </mrow> <mi>R</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <msub><mi>T</mi><mi>r</mi> </msub></munderover><msubsup> <mi>γ</mi> <mi>lgr</mi> <mi>den</mi></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>·</mo><msubsup> <mi>X</mi> <mi>r</mi> <mn>2</mn></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow> </mrow>其中上标“num”代表分子项,上标“den”代表分母项,θ(1)、θ(χ)和θ(χ2)分别代表零阶、一阶和二阶统计量,χ为所述特征向量的随机变量,R为总段数,r=1,2,...,R,Tr为第r段语音的帧数,i=1,2,...,Tr,Xr(i)代表第r段语音的第i帧特征向量的取值,γlgrnum(i)为第l个语种分子项中Xr(i)属于第g个高斯分量的后验概率,γlgrden(i)为第l个语种分母项中Xr(i)属于第g个高斯分量的后验概率,其中 <mrow><msubsup> <mi>γ</mi> <mi>lgr</mi> <mi>num</mi></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''> <mtable><mtr> <mtd><msub> <mi>γ</mi> <mi>lgr</mi></msub><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>,</mo> </mtd> <mtd><mi>l</mi><mo>=</mo><msub> <mi>l</mi> <mi>r</mi></msub> </mtd></mtr><mtr> <mtd><mn>0</mn><mo>,</mo> </mtd> <mtd><mi>l</mi><mo>≠</mo><msub> <mi>l</mi> <mi>r</mi></msub> </mtd></mtr> </mtable></mfenced> </mrow> <mrow><msubsup> <mi>γ</mi> <mi>lgr</mi> <mi>den</mi></msubsup><mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo></mrow><mo>=</mo><mfenced open='{' close=''> <mtable><mtr> <mtd><msub> <mi>γ</mi> <mi>lgr</mi></msub>&l...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。