语音识别和语音模型训练的方法及存储介质和电子设备技术

技术编号:26069259 阅读:16 留言:0更新日期:2020-10-28 16:42
公开了一种语音识别和语音模型训练的方法及存储介质和电子设备。通过获取语音训练集并根据语音训练集获取文本训练集,根据文本训练集获取预训练的文本模型,根据预训练的文本模型和语音训练集获取预训练的语音模型。由此,使得预训练的语音模型中融合了文本特征,可以降低语音模型的训练难度,提高语音识别的准确性。

【技术实现步骤摘要】
语音识别和语音模型训练的方法及存储介质和电子设备
本专利技术涉及语音识别
,尤其涉及一种语音识别和语音模型训练的方法及存储介质和电子设备。
技术介绍
随着人工智能技术的快速发展,智能机器人越来越多的替代人工客服与用户进行语音交互(IVR,InteractiveVoiceResponse),节省了大量的人力。语音交互的核心主要就是机器如何正确的理解用户的意图,从而做出正确的回应来帮助用户快速,准确的解决问题。现有技术中对于意图识别的方法一般分为管道(Pipleline)和端到端(End-to-End)两种方法。其中,管道的方法是先对语音信息进行语音识别以获得文本信息,然后用NLP(NaturalLanguageProcessing,自然语言处理)的方法对文本信息进行意图识别。端到端的方法并不需要获取文本信息,直接将语音信息通过模型进行意图识别。由于端到端的方法可以简化语义理解的过程,提高响应的效率,因而受到越来越大的关注。但是已有的端到端的方法需要大量的标注数据,学习难度较大,而且意图识别的准确性也较低。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种语音识别和语音模型训练的方法及存储介质和电子设备,可以降低语音模型的训练难度,提高语音识别的准确性。第一方面,本专利技术实施例提供了一种语音模型的训练方法,所述方法包括:获取语音训练集,所述语音训练集包括多个语音信息和对应的意图标识;对所述语音信息进行语音识别以获取文本训练集,所述文本训练集包括多个文本信息和对应的意图标识;根据所述文本训练集获取预训练的文本模型;以及根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型。优选地,所述文本模型包括第一特征提取层和第一意图识别层;其中,根据所述文本训练集获取预训练的文本模型包括:基于预定的分词算法对所述文本训练集中各文本信息进行分词处理以获取对应的词序列,所述词序列包括多个词;根据所述词序列获取第一嵌入向量;将所述第一嵌入向量输入所述第一特征提取层获取所述文本信息的文本向量;将所述文本向量输入到第一意图识别层获得输出;以及根据所述第一意图识别层的输出和对应的意图对所述第一特征提取层和所述第一意图识别层进行调整以获取所述预训练的文本模型。优选地,所述语音模型包括第二特征提取层和第二意图识别层;其中,根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型包括:根据所述预训练的文本模型对所述第二特征提取层进行调整以使得所述语音模型输出的语音向量与所述文本模型输出的文本向量一致;以及根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整以使得所述语音模型获取所述语音信息的意图。优选地,根据所述预训练的文本模型对所述第二特征提取层进行调整包括:对所述语音训练集中各语音信息进行分帧处理以获取帧序列;根据所述帧序列获取第二嵌入向量;将所述第二嵌入向量输入所述第二特征提取层获取所述语音信息的语音向量;根据预定的映射关系将所述语音向量转换为映射向量;通过判别模型比较所述映射向量和所述文本向量以获取比较结果;以及根据所述比较结果对所述第二特征提取层进行调整。优选地,根据所述比较结果对所述第二特征提取层进行调整包括:保持所述语音模型不变,对所述判别模型进行调整以使得所述比较结果表征的所述映射向量和所述文本向量的差异度较大;以及保持所述判别模型不变,对所述第二特征提取层进行调整以使得所述比较结果表征的所述映射向量和所述文本向量的差异度较小。优选地,根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整包括:将所述语音向量和所述映射向量融合以获取融合向量;将所述融合向量输入所述第二意图识别层获得输出;以及根据所述第二意图识别层的输出和对应的意图对所述第二意图识别层和第二特征提取层进行调整。优选地,所述语音模型为BERT模型、XL-NET模型、GPT2模型或T5模型;所述文本模型为BERT模型、XL-NET模型、GPT2模型或T5模型。第二方面,本专利技术实施例提供了一种语音识别方法,所述方法包括:获取待识别语音信息;对所述待识别语音信息进行分帧处理以获取帧序列;根据所述帧序列获取第二嵌入向量;将所述第二嵌入向量输入第二特征提取层获取所述待处理语音信息的语音向量;根据预定的映射关系将所述语音向量转换为映射向量;将所述语音向量和所述映射向量融合以获取融合向量;以及将所述融合向量输入所述第二意图识别层以获取所述待处理语音信息的意图。第三方面,本专利技术实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面和第二方面所述的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面和第二方面所述的方法。本专利技术实施例的技术方案通过获取语音训练集并根据语音训练集获取文本训练集,根据文本训练集获取预训练的文本模型,根据预训练的文本模型和语音训练集获取预训练的语音模型。由此,使得预训练的语音模型中融合了文本特征,可以降低语音模型的训练难度,提高语音识别的准确性。附图说明通过以下参照附图对本专利技术实施例的描述,本专利技术的上述以及其它目的、特征和优点将更为清楚,在附图中:图1是本专利技术实施例的语音识别系统的示意图;图2是本专利技术实施例的语音识别模型的示意图;图3是本专利技术实施例的语音识别方法的流程图;图4是本专利技术实施例的语音识别模型的第二特征提取层的示意图;图5是本专利技术实施例的语音模型训练系统的示意图;图6是本专利技术实施例的语音模型训练方法的流程图;图7是本专利技术实施例的获取预训练的文本模型的流程图;图8是本专利技术实施例的获取第一嵌入向量的示意图;图9是本专利技术实施例的第一特征提取层的示意图;图10是本专利技术实施例的对第二特征提取层进行调整的流程图;图11是本专利技术实施例的获取第二嵌入向量的示意图;图12是本专利技术实施例的第二特征提取层的示意图;图13是本专利技术实施例的电子设备的示意。具体实施方式以下基于实施例对本专利技术进行描述,但是本专利技术并不仅仅限于这些实施例。在下文对本专利技术的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本专利技术。为了避免混淆本专利技术的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。同时,应当理解,在以本文档来自技高网...

【技术保护点】
1.一种语音模型的训练方法,其特征在于,所述方法包括:/n获取语音训练集,所述语音训练集包括多个语音信息和对应的意图标识;/n对所述语音信息进行语音识别以获取文本训练集,所述文本训练集包括多个文本信息和对应的意图标识;/n根据所述文本训练集获取预训练的文本模型;以及/n根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型。/n

【技术特征摘要】
1.一种语音模型的训练方法,其特征在于,所述方法包括:
获取语音训练集,所述语音训练集包括多个语音信息和对应的意图标识;
对所述语音信息进行语音识别以获取文本训练集,所述文本训练集包括多个文本信息和对应的意图标识;
根据所述文本训练集获取预训练的文本模型;以及
根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型。


2.根据权利要求1所述的方法,其特征在于,所述文本模型包括第一特征提取层和第一意图识别层;
其中,根据所述文本训练集获取预训练的文本模型包括:
基于预定的分词算法对所述文本训练集中各文本信息进行分词处理以获取对应的词序列,所述词序列包括多个词;
根据所述词序列获取第一嵌入向量;
将所述第一嵌入向量输入所述第一特征提取层获取所述文本信息的文本向量;
将所述文本向量输入到第一意图识别层获得输出;以及
根据所述第一意图识别层的输出和对应的意图对所述第一特征提取层和所述第一意图识别层进行调整以获取所述预训练的文本模型。


3.根据权利要求1所述的方法,其特征在于,所述语音模型包括第二特征提取层和第二意图识别层;
其中,根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型包括:
根据所述预训练的文本模型对所述第二特征提取层进行调整以使得所述语音模型输出的语音向量与所述文本模型输出的文本向量一致;以及
根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整以使得所述语音模型获取所述语音信息的意图。


4.根据权利要求3所述的方法,其特征在于,根据所述预训练的文本模型对所述第二特征提取层进行调整包括:
对所述语音训练集中各语音信息进行分帧处理以获取帧序列;
根据所述帧序列获取第二嵌入向量;
将所述第二嵌入向量输入所述第二特征提取层获取所述语音信息的语音向量;
根据预定的映射关系将所述语音向量转换为映射向量;
通过判别模型比较所述映射向量和所述文本向量以获取比较结果;以及

【专利技术属性】
技术研发人员:徐海洋韩堃
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1