一种语种识别方法及识别系统技术方案

技术编号:22690507 阅读:30 留言:0更新日期:2019-11-30 04:30
本发明专利技术提供一种语种识别方法及识别系统,能够提高语种识别系统的性能。所述方法包括:将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。本发明专利技术涉及语音识别技术领域。

A language recognition method and recognition system

The invention provides a language recognition method and a recognition system, which can improve the performance of the language recognition system. The method comprises the following steps: converting each frame of speech signal into pronunciation attribute features; training the delay neural network by using the pronunciation attribute features, wherein, inputting the pronunciation attribute features into the delay neural network, learning and classifying the input pronunciation attribute features by the delay neural network, and obtaining the distribution of each language in the pronunciation attribute feature space, i.e. language model; In the process of language recognition, the pronunciation attributes of the speech to be recognized are input into the trained delay neural network. The output result of the delay neural network is the similarity between the speech to be recognized and each language model. The language model with the largest similarity is the language category of the speech to be recognized. The invention relates to the technical field of speech recognition.

【技术实现步骤摘要】
一种语种识别方法及识别系统
本专利技术涉及语音识别
,特别是指一种语种识别方法及识别系统。
技术介绍
语种识别是指利用计算机自动辨别或者确认语音片段所属语言种类的过程。一个有效的语种识别系统可以被广泛的应用于多语言的语音识别系统和自动翻译系统的前端之中。可以用来区分语种的特征有很多,包括:声学特征、韵律特征、音位结构特征、词法形态、句法特征等。现有的语种识别方法根据使用的特征不同可以分为两类:①基于频谱的语种识别方法。②基于标识(token)的语种识别方法。基于频谱的语种识别方法利用的是不同语种的频谱特征在声学空间中分布的差异。目前最先进的语种识别模型,比如:全变量因子(i-vector)和x-vector方法,其中,x-vector系统包含一个前向深度神经网络,该神经网络将变长的语音段映射到一个定长的嵌入层,从该嵌入层中提取出的特征向量就称为x-vector,i-vector和x-vector方法都是将声学频谱参数投射到语种相关的高维空间,然后识别语种。基于标识的语种识别方法通常使用音位结构学(phonotactic)的信息,这种信息是用来描述一个语言中的音素是如何排列、组合的。应用这种方法的一个著名的例子就是音素识别器结合语言模型方法,这种方法首先通过音素识别器将语音信号转换为音素序列,然后根据音素序列提取N元统计量(N-gram)作为特征,最后根据这些统计特征建立每个语种的语言模型,通过语言模型为每条测试语音生成一个语种相关的可能性分数,依此来识别语种。相比于基于标识的语种识别方法,基于频谱的语种识别方法建模时间信息的能力较弱。而基于标识的语种识别方法不能像基于频谱的语种识别方法那样利用语种之间不同的声学特征分布。同时语种识别系统的性能高度依赖于标识识别器的准确率,而要训练好这样的标识识别系统,需要足够多的有标记的数据和完备发音字典,但这对于语种识别任务中的低资源语种而言十分困难。鉴于此,发音属性特征(Articulatoryfeatures,AFs)被引入到语种识别任务中。发音属性特征表示的是发声器官在发某个特定的音素时所引发的声道的变化。不同的发音属性的组合可以表示不同的音素。这意味着相比于音素特征,发音属性特征的颗粒度更小,在语种之间是更加通用的,因此其跨语言建模的能力也更强。所以当同样使用单一或者多个语种来识别音素和发音属性时,发音属性的识别准确率会更高,从而语种识别系统的性能也会表现更好。除此之外,基于发音属性特征的语种识别方法,在提取到发音属性特征后,后端多数采用基于N-gram的语言模型来建模不同语种的音位结构信息,但该方法的缺点是,后端的语言模型会遭遇数据稀疏的问题,即N-gram的数量会随着想要捕捉更多的音位结构上下文信息而增加标识序列的长度,从而使语种识别系统的性能下降。
技术实现思路
本专利技术要解决的技术问题是提供一种语种识别方法及识别系统,以解决现有技术所存在的语种识别系统的后端采用基于N-gram的语言模型来建模不同语种的音位结构信息,导致语种识别系统性能下降的问题。为解决上述技术问题,本专利技术实施例提供一种语种识别方法,包括:将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。进一步地,在将每帧语音信号转换成发音属性特征之前,所述方法还包括:确定基于帧级别特征的用于识别发音属性的发音属性提取器。进一步地,所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括:依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集;利用所述训练集训练所述特征提取模块;其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征,其中,Q表示M种发音属性包含的属性类的数目。进一步地,所述将每帧语音信号转换成发音属性特征包括:通过M个发音属性提取器,将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。进一步地,时延神经网络中softmax层的节点个数与待分类的语种个数相同,其中,softmax表示多分类;softmax层每个节点的最后输出结果是句子层级的,每个节点将一句话中的所有帧的softmax层的输出结果加和取平均作为对应节点的最后输出结果。本专利技术实施例还提供一种语种识别系统,包括:发音属性提取器,用于将每帧语音信号转换成发音属性特征;时延神经网络,用于利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;还用于进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。进一步地,所述系统还包括:确定模块,用于确定基于帧级别特征的用于识别发音属性的发音属性提取器。进一步地,所述确定模块,用于依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集,利用所述训练集训练所述特征提取模块;其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征,其中,Q表示M种发音属性包含的属性类的数目。进一步地,所述发音属性提取器,用于将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。进一步地,时延神经网络中softmax层的节点个数与待分类的语种个数相同,其中,softmax表示多分类;softmax层每个节点的最后输出结果是句子层级的,每个节点将一句话中的所有帧的softmax层的输出结果加和取平均作为对应节点的最后输出结果。本专利技术的上述技术方案的有益效果如下:上述方案中,将每帧语音信号转换成发音属性特征;利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输本文档来自技高网
...

【技术保护点】
1.一种语种识别方法,其特征在于,包括:/n将每帧语音信号转换成发音属性特征;/n利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;/n进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。/n

【技术特征摘要】
1.一种语种识别方法,其特征在于,包括:
将每帧语音信号转换成发音属性特征;
利用所述发音属性特征训练时延神经网络,其中,将所述发音属性特征输入时延神经网络,所述时延神经网络对输入的发音属性特征进行学习和分类,得到每种语种在发音属性特征空间中的分布,即语种模型;
进行语种识别时,将待识别语音的发音属性特征输入已训练好的时延神经网络中,时延神经网络的输出结果为待识别语音和每种语种模型的相似度,其中,相似度最大的语种模型为待识别语音的语种类别。


2.根据权利要求1所述的语种识别方法,其特征在于,在将每帧语音信号转换成发音属性特征之前,所述方法还包括:
确定基于帧级别特征的用于识别发音属性的发音属性提取器。


3.根据权利要求2所述的语种识别方法,其特征在于,所述确定基于帧级别特征的用于识别发音属性的发音属性提取器包括:
依据预设的音素与发音属性之间的映射关系,将基于音素的训练语料转换为发音属性的标签,得到特征提取模块的训练集;
利用所述训练集训练所述特征提取模块;
其中,所述特征提取模块包含M个发音属性提取器,每个发音属性提取器对应一种发音属性,每种发音属性包括:若干个属性类;每帧语音信号通过每个发音属性提取器后,得到一个后验概率以表示该帧语音信号所属的发音属性的类别,将该帧语音信号的M种不同的发音属性的共Q类不同的属性类的后验概率进行排列,得到发音属性特征,其中,Q表示M种发音属性包含的属性类的数目。


4.根据权利要求3所述的语种识别方法,其特征在于,所述将每帧语音信号转换成发音属性特征包括:
通过M个发音属性提取器,将每帧语音信号转换成由Q类不同的属性类的后验概率所组成的发音属性特征。


5.根据权利要求1所述的语种识别方法,其特征在于,时延神经网络中softmax层的节点个数与待分类的语种个数相同,其中,softmax表示多分类;
softmax层每个节点的最后输出结果是句子层级的,每个节点将一句话中的所有帧的softmax层的输出结果...

【专利技术属性】
技术研发人员:张劲松于嘉威解焱陆
申请(专利权)人:北京语言大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1