唤醒优化模型的训练方法、唤醒优化的方法和相关设备技术

技术编号:35429167 阅读:26 留言:0更新日期:2022-11-03 11:33
本申请涉及语音识别技术领域,特别是涉及到一种唤醒优化模型的训练方法、唤醒优化的方法和相关设备。训练一个分类模型和一个embedding模型,根据分类模型的权值设定embedding模型的模板,训练的embedding模型对唤醒词的聚集度更好。两个模型训练好之后部署到终端设备上,终端激活使用后,先主要使用分类模型判断是否唤醒终端,再逐步过渡到embedding模型,生成用户模板。得到用户模板后,每次唤醒时计算当前唤醒语音的相关参数,按照用户模板判断是否唤醒终端。可根据用户使用不断迭代自适应优化唤醒效果,使每个用户都能获得一致的效果体验,有效解决单一模型的不同场景适应能力不足的问题。同场景适应能力不足的问题。同场景适应能力不足的问题。

【技术实现步骤摘要】
唤醒优化模型的训练方法、唤醒优化的方法和相关设备


[0001]本申请涉及语音识别
,特别是涉及到一种唤醒优化模型的训练方法、唤醒优化的方法和相关设备。

技术介绍

[0002]唤醒词、命令词模型在应用时,实时检测用户的语音,当检测到特定词汇时,即做出反馈。实际使用中,唤醒模型一般都提前训练好,而每个终端用户发音习惯都各不相同,无法保证每个用户都有一致的体验效果。一般的处理方式是在训练数据中加入尽可能多种类的正样本数据,来提升模型对不同口音不同场景的识别能力,但这种方式需要的数据量太大,语料收集成本高,模型训练时间过长。而且这种方式虽能提升模型效果,但无法穷举所有口音数据,因此无法从根本上解决每个用户体验效果不一致的问题。

技术实现思路

[0003]本申请的主要目的为提供一种唤醒优化模型的训练方法、唤醒优化的方法和相关设备,旨在解决现有技术中语音唤醒效果不能根据不同用户自适应优化问题。
[0004]为了实现上述专利技术目的,本申请提出一种唤醒优化模型的训练方法,包括:获取标注数据,所述标注数据包括正样本和负样本;用所述标注数据训练所述分类模型,得到embedding模型的模版,其中,所述embedding模型的模版为所述分类模型输出的倒数第二层的权值的第一列;用所述标注数据和所述embedding模型的模版训练embedding模型;根据所述分类模型和所述embedding模型,得到唤醒优化模型。
[0005]本申请还提供了一种唤醒优化的方法,包括:当检测到终端被激活,接收到语音时,将所述语音输入分类模型,根据所述分类模型的输出和第一唤醒阈值,判断是否唤醒终端;若唤醒终端成功,则使用embedding模型提取所述语音的embedding向量;当终端唤醒成功的次数达到指定次数后,计算所述指定次数对应的所述embedding向量的平均,得到用户特定模板;得到所述用户特定模板后,降低分类模型的唤醒阈值为第二唤醒阈值;当接收到语音时,根据所述分类模型的输出和所述第二唤醒阈值,判断是否唤醒分类模型;当分类模型唤醒成功后,计算当次唤醒的平滑系数和最终判决分数,根据所述当次唤醒的平滑系数和所述最终判决分数判断是否唤醒终端。
[0006]本申请还提供了一种唤醒优化模型的训练装置,所述装置包括:数据获取模块,用于获取标注数据,所述标注数据包括正样本和负样本;
分类模型训练模块,用于用所述标注数据训练所述分类模型,得到embedding模型的模版,其中,所述embedding模型的模版为所述分类模型输出的倒数第二层的权值的第一列;embedding模型训练模块,用于用所述标注数据和所述embedding模型的模版训练embedding模型;唤醒优化模型生成模块,用于根据所述分类模型和所述embedding模型,得到唤醒优化模型。
[0007]本申请还提供了一种唤醒优化的装置,所述装置包括:第一终端唤醒模块,用于当检测到终端被激活,接收到语音时,将所述语音输入分类模型,根据所述分类模型的输出和第一唤醒阈值,判断是否唤醒终端;用户模版确定模块,用于若唤醒终端成功,则使用embedding模型提取所述语音的embedding向量;当终端唤醒成功的次数达到指定次数后,计算所述指定次数对应的所述embedding向量的平均,得到用户特定模板;唤醒阈值调整模块,用于得到所述用户特定模板后,降低分类模型的唤醒阈值为第二唤醒阈值;分类模型唤醒模块,用于当接收到语音时,根据所述分类模型的输出和所述第二唤醒阈值,判断是否唤醒分类模型;第二终端唤醒模块,用于当分类模型唤醒成功后,计算当次唤醒的平滑系数和最终判决分数,根据所述当次唤醒的平滑系数和所述最终判决分数判断是否唤醒终端。
[0008]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0009]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
[0010]本申请提供的一种唤醒优化模型的训练方法、唤醒优化的方法和相关设备,训练一个分类模型和一个embedding模型,根据分类模型的权值设定embedding模型的模板,训练的embedding模型对唤醒词的聚集度更好,且与非唤醒词间隔更大。两个模型训练好后,部署到终端设备上,终端用户激活使用后,先主要使用分类模型判断是否唤醒终端,再逐步过渡到embedding模型,生成用户模板。在得到用户模板后,每次唤醒时计算当前唤醒语音的相关参数,按照用户模板判断是否唤醒终端。可根据用户使用不断迭代自适应优化唤醒效果,使每个用户都能获得一致的效果体验,有效解决单一模型的不同场景适应能力不足的问题。
附图说明
[0011]图1是本申请一实施例中唤醒优化模型的训练方法的步骤示意图;图2是本申请一实施例中唤醒优化的方法的步骤示意图;图3是本申请一实施例中唤醒优化模型的训练装置的整体结构框图;图4是本申请一实施例中唤醒优化的装置的整体结构框图;
图5是本申请一实施例的计算机设备的结构示意框图。
[0012]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0013]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0014]参照图1,本申请实施例中提供一种唤醒优化模型的训练方法,包括步骤S1

S4,具体地:S1、获取标注数据,所述标注数据包括正样本和负样本。
[0015]具体地,对于步骤S1,训练系统时获取预先录入的标注数据,该标注数据包括正样本、负样本以及每个音频对应的文本。正样本是包含有唤醒词的音频数据;负样本包括AISHELL语料和DSN

Challenge噪声语料。其中AISHELL语料是由400位来自中国不同口音区域的发音人参与录制,语料内容涵盖财经、科技、体育、娱乐、时事新闻,是为人工智能中文普通话语音识别设计的基础数据库。以AISHELL语料作为训练模型的口音数据,使得训练出的模型能够识别不同口音并进行处理,改善不同口音用户的唤醒体验。
[0016]S2、用所述标注数据训练所述分类模型,得到embedding模型的模版,其中,所述embedding模型的模版为所述分类模型输出的倒数第二层的权值的第一列。
[0017]具体地,对于步骤S2,分类模型中的分类网络使用TC

ResNet,也可以使用其它网络如TDNN或RNN

Attention等。分类模型倒数第二层的维数,需要与embedding模型的输出维数一致,比如都是48维,其它层的超参数不做限定,根据训练效果选择。分类模型训练完成后,可以得到embedding模型的模版。当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唤醒优化模型的训练方法,其特征在于,包括:获取标注数据,所述标注数据包括正样本和负样本;用所述标注数据训练所述分类模型,得到embedding模型的模版,其中,所述embedding模型的模版为所述分类模型输出的倒数第二层的权值的第一列;用所述标注数据和所述embedding模型的模版训练embedding模型;根据所述分类模型和所述embedding模型,得到唤醒优化模型。2.根据权利要求1所述的唤醒优化模型的训练方法,其特征在于,所述获取标注数据之后,包括:根据所述正样本的长度范围选取一个固定长度;根据所述固定长度调整所述标注数据长度,并确定帧数;根据所述固定长度,对所述标注数据提取特征,得到所述帧数*特征维度大小的数据,作为模型输入数据。3.根据权利要求2所述的唤醒优化模型的训练方法,其特征在于,所述用所述标注数据训练分类模型,包括:将所述模型输入数据输入到分类模型中,得到分类模型的输出;根据所述分类模型的输出和预设的目标值计算Loss函数,根据所述Loss函数优化分类模型的参数。4.根据权利要求2所述的唤醒优化模型的训练方法,其特征在于,所述用所述标注数据和所述embedding模型的模版训练embedding模型,包括:将所述模型输入数据输入到embedding模型中,得到embedding向量;计算所述embedding向量与所述embedding模型的模版之间的余弦相似度,根据所述余弦相似度优化embedding模型的参数。5.一种唤醒优化的方法,其特征在于,包括:当检测到终端被激活,接收到语音时,将所述语音输入分类模型,根据所述分类模型的输出和第一唤醒阈值,判断是否唤醒终端;若唤醒终端成功,则使用embedding模型提取所述语音的embedding向量;当终端唤醒成功的次数达到指定次数后,计算所述指定次数对应的所述embedding向量的平均,得到用户特定模板;得到所述用户特定模板后,降低分类模型的唤醒阈值为第二唤醒阈值;当接收到语音时,根据所述分类模型的输出和所述第二唤醒阈值,判断是否唤醒分类模型;当分类模型唤醒成功后,计算当次唤醒的平滑系数和最终判决分数,根据所述当次唤醒的平滑系数和所述最终判决分数判断是否唤醒终端。6.根据权利要求5所述的唤醒优化的方法,其...

【专利技术属性】
技术研发人员:王维王广新杨汉丹
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1