声纹模型训练方法、语音识别方法、装置、设备及介质制造方法及图纸

技术编号:17251472 阅读:16 留言:0更新日期:2018-02-11 10:25
本发明专利技术公开一种声纹模型训练方法、语音识别方法、装置、设备及介质。该声学模型训练方法包括:采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。该声纹模型训练方法克服了某些业务场景无法获得单人多通语音数据的问题,并保证目标概率线性判别分析模型的识别效果。

【技术实现步骤摘要】
声纹模型训练方法、语音识别方法、装置、设备及介质
本专利技术涉及生物识别领域,尤其涉及一种声纹模型训练方法、语音识别方法、装置、设备及介质。
技术介绍
声纹识别,也称为说话人识别,是生物识别技术的一种。声纹识别包括说话人辨认和说话人确认两种类型的声纹识别技术,可根据应用场景的不同采用不同类型的声纹识别技术,如在缩小刑侦范围这一应用场景中需采用说话人辨认技术,而在银行交易确定这一应用场景中则需采用说明人确认技术。所谓声纹是用电声学仪器显示的携带言语信息的声波频谱。讲话时,每个人的发声器官的尺寸和形态与其他人存在较大差异,使得每个人说话时的声纹图谱与其他人的声纹图谱有较大差异,以便基于声纹图谱识别说话人。当前银行、证券、投资和保险等金融机构在办理业务时,需对用户的身份进行识别,以保证业务安全。在自助服务或其他业务办理过程中,可采用声纹识别这一种生物识别技术对用户的身份进行识别,以提高用户身份识别的效率。采用声纹识别技术对用户身份进行识别时,需采用预先训练好的声纹识别模型对用户的说话录音进行识别,以确定识别用户身份的目的。当前采用概率线性判别分析模型对单人多通录音进行分析,以获取训练好的声纹识别模型,这种声纹识别模型训练方式受限于应用领域数据量不足,无法对声纹信息进行较好的数据处理,使得利用该声纹识别模型进行语音识别时,存在识别效果差的不足。
技术实现思路
本专利技术实施例提供一种声纹模型训练方法、装置、设备及介质,以解决声纹识别模型训练时数据量不足的问题。本专利技术实施例还提供一种语音识别方法、装置、设备及介质,以解决当前语音识别效果差的问题。第一方面,本专利技术实施例提供一种声纹模型训练方法,包括:采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。第二方面,本专利技术实施例提供一种声纹模型训练装置,包括:通用背景模型获取模块,用于采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;声纹特征获取模块,用于采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;域外模型获取模块,用于基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;目标模型获取模块,用于基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。第三方面,本专利技术实施例提供一种语音识别方法,包括:采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,所述待测声纹特征携带用户标注;基于所述用户标注获取对应的注册声纹特征;采用目标概率线性判别分析模型对所述待测声纹特征和所述注册声纹特征进行处理,获取似然概率;所述目标概率线性判别分析模型是采用所述声纹模型训练方法获取到的;判断所述似然概率是否大于预设概率;若所述似然概率大于所述预设概率,则确定所述待测声纹特征和所述注册声纹特征对应同一说话人,并输出识别结果。第四方面,本专利技术实施例提供一种语音识别装置,包括:待测声纹特征获取模块,用于采用通用背景模型对待测语音数据进行特征提取,获取待测声纹特征,所述待测声纹特征携带用户标注;注册声纹获取模块,用于基于所述用户标注获取对应的注册声纹特征;似然概率获取模块,用于采用目标概率线性判别分析模型对所述待测声纹特征和所述注册声纹特征进行处理,获取似然概率;概率大小判断模块,用于判断所述似然概率是否大于预设概率;识别结果获取模块,用于在所述似然概率大于所述预设概率时,确定所述待测声纹特征和所述注册声纹特征对应同一说话人,并输出识别结果。第五方面,本专利技术实施例提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述声纹模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现所述语音识别方法的步骤。第六方面,本专利技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述声纹模型训练方法的步骤;或者,所述处理器执行所述计算机程序时实现所述语音识别方法的步骤。本专利技术实施例所提供的声纹模型训练方法、装置、设备及介质中,通过采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型,通用背景模型可应用在多个业务场景下,有利于声纹模型在多业务中的拓展。再采用通用背景模型对域外语音数据进行特征提取,利用获取的域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型。该域外概率线性判别分析模型可基于足够数量的域外语音数据进行处理,以保证训练获取的域外概率线性判别分析模型的识别效果。最后,再采用通用背景模型对域内语音数据进行特征提取,利用获取的域内声纹特征对域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型,以使目标概率线性判别分析模型可应用在域内语音数据对应的至少两个业务场景,并保证了目标概率线性判别分析模型的识别效果。本专利技术实施例所提供的语音识别方法、装置、设备及介质中,通过采用携带用户标注的待测声纹特征与用户注册声纹特征在目标概率线性判别分析模型中进行处理,获取似然概率,通过似然概率与预设概率的大小判断是否对应同一说话人,使得语音识别过程具有效率快和准确率高的优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例1中声纹模型训练方法的一流程图。图2是图1中步骤S11的一具体流程图。图3是图1中步骤S12的一具体流程图。图4是图1中步骤S13的一具体流程图。图5是本专利技术实施例2中声纹模型训练装置的一原理框图。图6是本专利技术实施例3中语音识别方法的一流程图。图7是图6中步骤S23的一具体流程图。图8是本专利技术实施例4中语音识别装置的一原理框图。图9是本专利技术实施例6中终端设备的一示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1图1示出本实施例中的声纹模型训练方法的一流程图。该声纹模型训练方法可应用在银行、证券、投资和保险等金融机构或者需进行声纹识别的其他机构的终端设备上,以便利用训练好的目标声纹模型进行声纹识别,达到人工智能目的。如图1所示,该声纹模型训练方法包括如下步骤:S11:采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型。其中,业务场景是指银行、证券、投资和保险等金融机构或其他机构在办理相应业本文档来自技高网...
声纹模型训练方法、语音识别方法、装置、设备及介质

【技术保护点】
一种声纹模型训练方法,其特征在于,包括:采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。

【技术特征摘要】
1.一种声纹模型训练方法,其特征在于,包括:采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型;采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征;基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型;基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练,获取目标概率线性判别分析模型。2.根据权利要求1所述的声纹模型训练方法,其特征在于,所述采用至少两个业务场景下的训练语音数据进行通用背景模型训练,获取通用背景模型,包括:获取至少两个业务场景下的训练语音数据;将所述至少两个业务场景下的训练语音数据等比例混合,获取混合语音数据;基于所述混合语音数据进行通用背景模型训练,获取通用背景模型。3.根据权利要求1所述的声纹模型训练方法,其特征在于,所述采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取,获取相应的域内声纹特征和域外声纹特征,包括:基于通用背景模型对域内语音数据进行分解,获取所述通用背景模型的域内均值和域内协方差矩阵,将所述通用背景模型的域内均值和域内协方差矩阵转换成所述域内声纹特征;基于通用背景模型对域外语音数据进行分解,获取所述通用背景模型的域外均值和域外协方差矩阵,将所述通用背景模型的域外均值和域外协方差矩阵转换成所述域外声纹特征。4.根据权利要求3所述的声纹模型训练方法,其特征在于,所述基于所述域外声纹特征进行概率线性判别分析模型训练,获取域外概率线性判别分析模型,包括:初始化所述概率线性判别分析模型的参数空间;所述概率线性判别分析模型的参数空间表示为H={μ,F,G,ε},其中,μ表示均值,F表示类间方差、G表示类内方差,ε表示噪声协方差矩阵;对所述域外概率线性判别分析模型的类内方差进行归一化处理,获取中间概率线性判别分析模型,并获取所述中间概率线性判别分析模型的参数空间;基于所述中间概率线性判别分析模型的参数空间,采用最大期望算法对携带同一用户标识的至少两个所述域外声纹特征在所述中间概率线性判别分析模型中进行迭代运算,生成最大化类间方差和最小化类内方差对应的特征转换矩阵和类间方差;基于所述特征转换矩阵和所述类间方差,根据似然概率更新所述中间概率线性判别分析模型的参数空间,获取所述域外概率线性判别分析模型;所述似然概率的表达式为其中,utest表示测试录音的声纹特征,表示说话人n条训练录音的声纹特征;表示训练录音声纹特征均值;P(utest)=N(utest|0,I+Ψ);n表示说话人的第n条训练录音,I表示类内方差归一化后的单位矩阵,Ψ表示类间方差;所述的表达式表示服从均值为方差为的正态分布;所述P(utest)的表达式表示服从均值为0,方差为...

【专利技术属性】
技术研发人员:王健宗郭卉肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1