一种语种鉴别模型训练方法、装置及语种鉴别方法和装置制造方法及图纸

技术编号:24332700 阅读:50 留言:0更新日期:2020-05-29 20:29
本申请提供了一种语种鉴别模型训练方法、装置及语种鉴别方法和装置,其中语种鉴别方法包括:获取待鉴别语音;确定表征所述待鉴别语音的声学特征的第一特征向量,以及所述待鉴别语音的至少一种发音特征分别对应的第二特征向量;基于所述第一特征向量和所述第二特征向量,以及预先训练的语种鉴别模型,得到所述待鉴别语音的语种信息。本申请实施例中,第一样本特征向量能够表征第一语音样本的声学特征,每个第二样本特征向量能够表征第一语音样本的一种发音特征,实现对输入语音的声学特征和发音特征更有效的利用,从而实现最终语种鉴别结果准确率的提升。

A training method and device for language identification model and a method and device for language identification

【技术实现步骤摘要】
一种语种鉴别模型训练方法、装置及语种鉴别方法和装置
本申请涉及机器学习
,具体而言,涉及一种语种鉴别模型训练方法、装置及语种鉴别方法和装置。
技术介绍
近年来,随着语音产品的不断推广,语音输入作为一种重要的人机交互手段,被越来越多的人们所接受。然而,由于不同地区的语言千差万别,因此很难找到一种有效的通用语音识别模型来处理所有不同种类的语音输入。解决这一问题的有效方法是针对每一种语言的特性建立单独的语音识别模型,来针对性的对不同的语言进行处理;这就要求在接收到输入的语音后,必须先对语音所属的语言种类进行判别,然后再使用与语言种类对应的语言识别模型来处理。作为语音处理的重要组成部分,语种鉴别在实际应用中具有重要意义。当前在语种鉴别领域,一般采用梅尔频率倒谱系数(Mel-frequencycepstralcoefficients,MFCC)来刻画语言的特征,并将得到的MFCC特征作为神经网络的输入对神经网络进行训练,得到语种鉴别模型。MFCC方法虽然能够有效地提取出输入语音中的帧级声学特征,但是其独立地对每一帧进行特征提取的过程,缺乏对输入语音中相邻帧之间的关联性的考虑,使得所提特征对输入语音的刻画能力不足,极大的限制了最终鉴别结果的准确率。
技术实现思路
有鉴于此,本申请实施例的目的在于提供一种语种鉴别模型训练方法、装置及语种鉴别方法和装置,能够对输入语音的声学特征和发音特征进行更有效的利用,从而提升语种鉴别结果的准确率。第一方面,提供一种语种鉴别方法,包括:获取待鉴别语音;确定表征所述待鉴别语音的声学特征的第一特征向量,以及所述待鉴别语音的至少一种发音特征分别对应的第二特征向量;基于所述第一特征向量和所述第二特征向量,以及预先训练的语种鉴别模型,得到所述待鉴别语音的语种信息。一种可能的实施方式中,所述声学特征包括:梅尔频率倒谱系数MFCC特征;所述发音特征包括:音素特征、音节特征、字特征中至少一项。一种可能的实施方式中,所述基于所述第一特征向量和所述第二特征向量,以及预先训练的语种鉴别模型,得到所述待鉴别语音的语种信息,包括:将所述第一特征向量和所述第二特征向量进行融合,生成目标特征向量;将所述目标特征向量输入至预先训练的所述语种鉴别模型,得到所述待鉴别语音的语种信息。一种可能的实施方式中,将所述第一特征向量和所述第二特征向量进行融合,生成目标特征向量,包括:将所述第一特征向量和所述第二特征向量进行拼接,生成所述目标特征向量;或者,将所述第一特征向量和所述第二特征向量进行融合进行拼接,形成拼接向量;提取所述拼接向量的低维变换矢量特征,并基于提取的低维变换矢量特征生成所述目标特征向量。一种可能的实施方式中,采用下述方式得到所述语种鉴别模型:获取多个第一语音样本,以及每个所述第一语音样本的语种信息;针对获取的每个所述第一语音样本,确定表征该第一语音样本声学特征的第一样本特征向量,以及该第一语音样本的至少一种发音特征分别对应的第二样本特征向量;基于所述第一样本特征向量和所述第二样本特征向量,以及所述第一语音样本对应的语种信息,进行语种鉴别模型的训练。一种可能的实施方式中,确定所述待鉴别语种的至少一种发音特征分别对应的第二特征向量,包括:针对每种发音特征,将所述第一特征向量输入该种发音特征对应的特征向量提取网络中,得到该种发音特征的第二特征向量。一种可能的实施方式中,采用下述方式生成所述特征向量提取网络:获取多个第二语音样本,以及每个所述第二语音样本在所述至少一种所述发音特征下的特征标注信息;针对获取的每个第二语音样本,确定表征该第二语音样本的声学特征的第三样本特征向量;基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练。一种可能的实施方式中,所述基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练,包括:计算所述第三样本特征向量与所述特征标注信息之间的相似度,并将所述相似度与预设的所述相似度阈值进行比对;在所述相似度小于预设的所述相似度阈值时,调整所述特征向量提取网络参数,并基于调整后的特征向量提取网络重新获得所述第三样本特征向量;返回所述计算所述第三样本特征向量与所述特征标注信息之间的相似度的操作,直到所述第三样本特征向量与所述特征标注信息之间的相似度不小于预设的相似度阈值。一种可能的实施方式中,基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练,包括:将本轮未完成训练的第二语音样本的中的任意一个作为目标第二语音样本;基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量,调整特征向量提取网络的参数;将所述目标第二语音样本作为本轮完成训练的第二语音样本,并将本轮未完成训练的第二语音样本的中的任意一个作为新的目标第二语音样本,使用调整了参数后的特征向量提取网络提取所述新的目标第二语音样本的第三样本特征向量,并返回所述基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量,调整特征向量提取网络参数的步骤;重复上述步骤,直至所有第二语音样本完成本轮训练,进入下一轮训练,直至满足预设的模型训练截止条件。一种可能的实施方式中,所述基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量,调整特征向量提取网络的参数,包括:计算目标第二语音样本的第三样本特征向量与所述目标第二语音样本对应的特征标注信息之间的相似度;将所述相似度与预设的相似度阈值进行比对;在所述相似度小于预设的所述相似度阈值时,调整特征向量提取网络的参数。一种可能的实施方式中,所述特征向量提取网络包括瓶颈特征提取层;采用下述方式确定所述至少一种发音特征分别对应所述第二特征向量:将所述第一特征向量输入特征向量提取网络中,从特征向量提取网络中的瓶颈特征提取层获取所述第二特征向量。一种可能的实施方式中,所述第一特征向量为梅尔频率倒谱系数MFCC向量,所述第二特征向量为瓶颈特征BNF向量。一种可能的实施方式中,所述语种鉴别模型包括:概率线性判别分析PLDA模型,或者神经网络模型。第二方面,提供一种语种鉴别模型训练方法,包括:获取多个第一语音样本,以及每个所述第一语音样本的语种信息;针对获取的每个第一语音样本,确定表征该第一语音样本的声学特征的第一样本特征向量,以及该第一语音样本的至少一种发音特征分别对应的第二样本特征向量;基于所述第一样本特征向量和所述第二样本特征向量,以及所述第一语音样本对应的语种信息,进行语种鉴别模型的训练。一种可能的实施方式中,基于所述第一样本特征向量和所述第二样本特征向量,以及所述第一语音样本对应的语种信息,进行语种鉴别模型的训练,包括:将所述第一样本特征向量和所述第二样本特征向量进行融合,生成目标样本特征向量本文档来自技高网...

【技术保护点】
1.一种语种鉴别方法,其特征在于,包括:/n获取待鉴别语音;/n确定表征所述待鉴别语音的声学特征的第一特征向量,以及所述待鉴别语音的至少一种发音特征分别对应的第二特征向量;/n基于所述第一特征向量和所述第二特征向量,以及预先训练的语种鉴别模型,得到所述待鉴别语音的语种信息。/n

【技术特征摘要】
1.一种语种鉴别方法,其特征在于,包括:
获取待鉴别语音;
确定表征所述待鉴别语音的声学特征的第一特征向量,以及所述待鉴别语音的至少一种发音特征分别对应的第二特征向量;
基于所述第一特征向量和所述第二特征向量,以及预先训练的语种鉴别模型,得到所述待鉴别语音的语种信息。


2.根据权利要求1所述的方法,其特征在于,所述声学特征包括:梅尔频率倒谱系数MFCC特征;所述发音特征包括:音素特征、音节特征、字特征中至少一项。


3.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征向量和所述第二特征向量,以及预先训练的语种鉴别模型,得到所述待鉴别语音的语种信息,包括:
将所述第一特征向量和所述第二特征向量进行融合,生成目标特征向量;
将所述目标特征向量输入至预先训练的所述语种鉴别模型,得到所述待鉴别语音的语种信息。


4.根据权利要求3所述的方法,其特征在于,将所述第一特征向量和所述第二特征向量进行融合,生成目标特征向量,包括:
将所述第一特征向量和所述第二特征向量进行拼接,生成所述目标特征向量;或者,
将所述第一特征向量和所述第二特征向量进行融合进行拼接,形成拼接向量;提取所述拼接向量的低维变换矢量特征,并基于提取的低维变换矢量特征生成所述目标特征向量。


5.根据权利要求1所述的方法,其特征在于,采用下述方式得到所述语种鉴别模型:
获取多个第一语音样本,以及每个所述第一语音样本的语种信息;
针对获取的每个所述第一语音样本,确定表征该第一语音样本声学特征的第一样本特征向量,以及该第一语音样本的至少一种发音特征分别对应的第二样本特征向量;
基于所述第一样本特征向量和所述第二样本特征向量,以及所述第一语音样本对应的语种信息,进行语种鉴别模型的训练。


6.根据权利要求1所述的方法,其特征在于,确定所述待鉴别语种的至少一种发音特征分别对应的第二特征向量,包括:
针对每种发音特征,将所述第一特征向量输入该种发音特征对应的特征向量提取网络中,得到该种发音特征的第二特征向量。


7.根据权利要求6所述的方法,其特征在于,采用下述方式生成所述特征向量提取网络:
获取多个第二语音样本,以及每个所述第二语音样本在所述至少一种所述发音特征下的特征标注信息;
针对获取的每个第二语音样本,确定表征该第二语音样本的声学特征的第三样本特征向量;
基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练。


8.根据权利要求7所述的方法,其特征在于,所述基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练,包括:
计算所述第三样本特征向量与所述特征标注信息之间的相似度,并将所述相似度与预设的所述相似度阈值进行比对;
在所述相似度小于预设的所述相似度阈值时,调整所述特征向量提取网络参数,并基于调整后的特征向量提取网络重新获得所述第三样本特征向量;
返回所述计算所述第三样本特征向量与所述特征标注信息之间的相似度的操作,直到所述第三样本特征向量与所述特征标注信息之间的相似度不小于预设的相似度阈值。


9.根据权利要求7所述的方法,其特征在于,基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练,包括:
将本轮未完成训练的第二语音样本的中的任意一个作为目标第二语音样本;
基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量,调整特征向量提取网络的参数;
将所述目标第二语音样本作为本轮完成训练的第二语音样本,并将本轮未完成训练的第二语音样本的中的任意一个作为新的目标第二语音样本,使用调整了参数后的特征向量提取网络提取所述新的目标第二语音样本的第三样本特征向量,并返回所述基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量,调整特征向量提取网络参数的步骤;
重复上述步骤,直至所有第二语音样本完成本轮训练,进入下一轮训练,直至满足预设的模型训练截止条件。


10.根据权利要求9所述的方法,其特征在于,所述基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量,调整特征向量提取网络的参数,包括:
计算目标第二语音样本的第三样本特征向量与所述目标第二语音样本对应的特征标注信息之间的相似度;
将所述相似度与预设的相似度阈值进行比对;
在所述相似度小于预设的所述相似度阈值时,调整特征向量提取网络的参数。


11.根据权利要求6所述的方法,其特征在于,所述特征向量提取网络包括瓶颈特征提取层;
采用下述方式确定所述至少一种发音特征分别对应所述第二特征向量:
将所述第一特征向量输入特征向量提取网络中,从特征向量提取网络中的瓶颈特征提取层获取所述第二特征向量。


12.根据权利要求1-11任意一项所述的方法,其特征在于,所述第一特征向量为梅尔频率倒谱系数MFCC向量,所述第二特征向量为瓶颈特征BNF向量。


13.根据权利要求1-11任意一项所述的方法,其特征在于,所述语种鉴别模型包括:概率线性判别分析PLDA模型,或者神经网络模型。


14.一种语种鉴别模型训练方法,其特征在于,包括:
获取多个第一语音样本,以及每个所述第一语音样本的语种信息;
针对获取的每个第一语音样本,确定表征该第一语音样本的声学特征的第一样本特征向量,以及该第一语音样本的至少一种发音特征分别对应的第二样本特征向量;
基于所述第一样本特征向量和所述第二样本特征向量,以及所述第一语音样本对应的语种信息,进行语种鉴别模型的训练。


15.根据权利要求14所述的方法,其特征在于,基于所述第一样本特征向量和所述第二样本特征向量,以及所述第一语音样本对应的语种信息,进行语种鉴别模型的训练,包括:
将所述第一样本特征向量和所述第二样本特征向量进行融合,生成目标样本特征向量;
基于所述目标样本特征向量以及所述第一语音样本对应的语种信息,进行语种鉴别模型的训练。


16.根据权利要求15所述的方法,其特征在于,所述将所述第一样本特征向量和所述第二样本特征向量进行融合,包括:
将所述第一样本特征向量和所述第二样本特征向量进行拼接,生成所述目标样本特征向量,或者,
将所述第一样本特征向量和所述第二样本特征向量进行拼接,形成拼接向量;提取所述拼接向量的低维变换矢量特征,并基于提取的低维变换矢量特征生成所述目标样本特征向量。


17.根据权利要求14所述的方法,其特征在于,确定所述第一语音样本的至少一种发音特征分别对应的第二样本特征向量,包括:
针对每种发音特征,将所述第一样本特征向量输入该种发音特征对应的特征向量提取网络中,得到该种发音特征的第二样本特征向量。


18.根据权利要求17所述的方法,其特征在于,采用下述方式生成所述特征向量提取网络:
获取多个第二语音样本,以及每个所述第二语音样本在所述至少一种所述发音特征下的特征标注信息;
针对获取的每个第二语音样本,确定表征该第二语音样本的声学特征的第三样本特征向量;
基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练。


19.根据权利要求18所述的方法,其特征在于,基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练,包括:
计算所述第三样本特征向量与所述特征标注信息之间的相似度,并将所述相似度与预设的相似度阈值进行比对;
在所述相似度小于预设的所述相似度阈值时,调整所述特征向量提取网络参数,并基于调整后的特征向量提取网络重新获得所述第三语音样本特征向量;
返回所述计算所述第三样本特征向量与所述特征标注信息之间的相似度的操作,直到所述第三样本特征向量与所述特征标注信息之间的相似度不小于预设的相似度阈值。


20.根据权利要求18所述的方法,其特征在于,基于所述第三样本特征向量和所述特征标注信息,进行所述特征向量提取网络的训练,包括:
将本轮未完成训练的第二语音样本的中的任意一个作为目标第二语音样本;
基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量,调整特征向量提取网络的参数;
将所述目标第二语音样本作为本轮完成训练的第二语音样本,并将本轮未完成训练的第二语音样本的中的任意一个作为新的目标第二语音样本,使用调整了参数后的第二特征向量提取所述新的目标第二语音样本的第三特征向量,并返回所述基于所述目标第二语音样本对应的特征标注信息以及第三样本特征向量,调整第二特征向量提取网络参数的步骤;
重复上述步骤,直至所有第二语音样本完成本轮训练,进入下一轮训练,直至满足预设的模型训练截止条件。


21.根据权利要求17所述的方法,其特征在于,所述特征向量提取网络包括瓶颈特征提取层;
采用下述方式确定所述至少一种发音特征分别对应所述第二样本特征向量:
将所述第一样本特征向量输入所述特征向量提取网络中,从所述特征向量提取网络中的瓶颈特征提取层获取所述第二样本特征向量。


22.一种语种鉴别装置,其特征在于,包括:
待鉴别语音获取模块,用于获取待鉴别语音;
特征向量确定模块,用于确定表征所述待鉴别语音的声学特征的第一特征向量,以及所述待鉴别语音的至少一种发音特征分别对应的第二特征向量;
语种信息获取模块,用于基于所述第一特征向量和所述第二特征向量,以及预先训练的语种鉴别模型,得到所述待鉴别语音的语种信息。


23.根据权利要求22所述的装置,其特征在于,所述声学特征包括:梅尔频率倒谱系数MFCC特征;所述发音特征包括:音素特征、音节特征、字特征中至少一项。


24.根据权利要求22所述的装置,其特征在于,所述语种信息获取模块,用于采用下述方式基于所述第一特征向量和所述第二特征向量,以及预先训练的语种鉴别模型,得到所述待鉴别语音的语种信息:
将所述第一特征向量和所述第二特征向量进行融合...

【专利技术属性】
技术研发人员:梁鸣心郭庭炜赵帅江
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1