The invention provides a language recognition method and a recognition system, which can improve the performance of the language recognition system. The method comprises the following steps: converting each frame of speech signal into pronunciation attribute features; training the delay neural network by using the pronunciation attribute features, wherein, inputting the pronunciation attribute features into the delay neural network, learning and classifying the input pronunciation attribute features by the delay neural network, and obtaining the distribution of each language in the pronunciation attribute feature space, i.e. language model; In the process of language recognition, the pronunciation attributes of the speech to be recognized are input into the trained delay neural network. The output result of the delay neural network is the similarity between the speech to be recognized and each language model. The language model with the largest similarity is the language category of the speech to be recognized. The invention relates to the technical field of speech recognition.
【技术实现步骤摘要】
一种语种识别方法及识别系统
本专利技术涉及语音识别
,特别是指一种语种识别方法及识别系统。
技术介绍
语种识别是指利用计算机自动辨别或者确认语音片段所属语言种类的过程。一个有效的语种识别系统可以被广泛的应用于多语言的语音识别系统和自动翻译系统的前端之中。可以用来区分语种的特征有很多,包括:声学特征、韵律特征、音位结构特征、词法形态、句法特征等。现有的语种识别方法根据使用的特征不同可以分为两类:①基于频谱的语种识别方法。②基于标识(token)的语种识别方法。基于频谱的语种识别方法利用的是不同语种的频谱特征在声学空间中分布的差异。目前最先进的语种识别模型,比如:全变量因子(i-vector)和x-vector方法,其中,x-vector系统包含一个前向深度神经网络,该神经网络将变长的语音段映射到一个定长的嵌入层,从该嵌入层中提取出的特征向量就称为x-vector,i-vector和x-vector方法都是将声学频谱参数投射到语种相关的高维空间,然后识别语种。基于标识的语种识别方法通常使用音位结构学(phonotactic)的信息,这种信息是用来描述一个语言中的音素是如何排列、组合的。应用这种方法的一个著名的例子就是音素识别器结合语言模型方法,这种方法首先通过音素识别器将语音信号转换为音素序列,然后根据音素序列提取N元统计量(N-gram)作为特征,最后根据这些统计特征建立每个语种的语言模型,通过语言模型为每条测试语音生成一个语种相关的可能性分数,依此来识别语种。相比于基于标识的语种识别方法,基于频 ...
【技术保护点】
1.一种语种识别方法,其特征在于,包括:/n将每帧语音信号转换成发音属性特征;/n利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;/n进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。/n
【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:
将每帧语音信号转换成发音属性特征;
利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;
进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。
2.根据权利要求1所述的语种识别方法,其特征在于,在将每帧语音信号转换成发音属性特征之前,所述方法还包括:
确定基于帧级别特征的用于识别发音属性的发音属性提取器。
3.根据权利要求2所述的语种识别方法,其特征在于,所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括:
依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集;
利用所述训练集训练所述特征提取模块;
其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征,其中,Q表示M种发音属性包含的属性类的数目。
4.根据权利要求3所述的语种识别方法,其特征在于,所述将每帧语音信号转换成发音属性特征包括:
通过M个发音属性提取器,将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。
5.根据权利要求1所述的语种识别方法,其特征在于,时延神经网络中softmax层的节点个数与待分类的语种个数相同,其中,softmax表示多分类;
softmax层每个节点的最后输出结果是句子层级的,每个节点将一句话中的所有帧的softmax层的输出结果...
【专利技术属性】
技术研发人员:张劲松,于嘉威,解焱陆,
申请(专利权)人:北京语言大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。