语音识别和语音模型训练的方法及存储介质和电子设备技术

技术编号：26069259 阅读：16 留言：0更新日期：2020-10-28 16:42

公开了一种语音识别和语音模型训练的方法及存储介质和电子设备。通过获取语音训练集并根据语音训练集获取文本训练集，根据文本训练集获取预训练的文本模型，根据预训练的文本模型和语音训练集获取预训练的语音模型。由此，使得预训练的语音模型中融合了文本特征，可以降低语音模型的训练难度，提高语音识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别和语音模型训练的方法及存储介质和电子设备
本专利技术涉及语音识别
，尤其涉及一种语音识别和语音模型训练的方法及存储介质和电子设备。
技术介绍
随着人工智能技术的快速发展，智能机器人越来越多的替代人工客服与用户进行语音交互(IVR，InteractiveVoiceResponse)，节省了大量的人力。语音交互的核心主要就是机器如何正确的理解用户的意图，从而做出正确的回应来帮助用户快速，准确的解决问题。现有技术中对于意图识别的方法一般分为管道(Pipleline)和端到端(End-to-End)两种方法。其中，管道的方法是先对语音信息进行语音识别以获得文本信息，然后用NLP(NaturalLanguageProcessing，自然语言处理)的方法对文本信息进行意图识别。端到端的方法并不需要获取文本信息，直接将语音信息通过模型进行意图识别。由于端到端的方法可以简化语义理解的过程，提高响应的效率，因而受到越来越大的关注。但是已有的端到端的方法需要大量的标注数据，学习难度较大，而且意图识别的准确性也较低。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种语音识别和语音模型训练的方法及存储介质和电子设备，可以降低语音模型的训练难度，提高语音识别的准确性。第一方面，本专利技术实施例提供了一种语音模型的训练方法，所述方法包括：获取语音训练集，所述语音训练集包括多个语音信息和对应的意图标识；对所述语音信息进行语音识别以获取文本训练集，所述文本训...

【技术保护点】
1.一种语音模型的训练方法，其特征在于，所述方法包括：/n获取语音训练集，所述语音训练集包括多个语音信息和对应的意图标识；/n对所述语音信息进行语音识别以获取文本训练集，所述文本训练集包括多个文本信息和对应的意图标识；/n根据所述文本训练集获取预训练的文本模型；以及/n根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型。/n

【技术特征摘要】
1.一种语音模型的训练方法，其特征在于，所述方法包括：
获取语音训练集，所述语音训练集包括多个语音信息和对应的意图标识；
对所述语音信息进行语音识别以获取文本训练集，所述文本训练集包括多个文本信息和对应的意图标识；
根据所述文本训练集获取预训练的文本模型；以及
根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型。

2.根据权利要求1所述的方法，其特征在于，所述文本模型包括第一特征提取层和第一意图识别层；
其中，根据所述文本训练集获取预训练的文本模型包括：
基于预定的分词算法对所述文本训练集中各文本信息进行分词处理以获取对应的词序列，所述词序列包括多个词；
根据所述词序列获取第一嵌入向量；
将所述第一嵌入向量输入所述第一特征提取层获取所述文本信息的文本向量；
将所述文本向量输入到第一意图识别层获得输出；以及
根据所述第一意图识别层的输出和对应的意图对所述第一特征提取层和所述第一意图识别层进行调整以获取所述预训练的文本模型。

3.根据权利要求1所述的方法，其特征在于，所述语音模型包括第二特征提取层和第二意图识别层；
其中，根据所述预训练的文本模型和所述语音训练集获取所述预训练的语音模型包括：
根据所述预训练的文本模型对所述第二特征提取层进行调整以使得所述语音模型输出的语音向量与所述文本模型输出的文本向量一致；以及
根据所述语音训练集对所述第二意图识别层和所述第二特征提取层进行调整以使得所述语音模型获取所述语音信息的意图。

4.根据权利要求3所述的方法，其特征在于，根据所述预训练的文本模型对所述第二特征提取层进行调整包括：
对所述语音训练集中各语音信息进行分帧处理以获取帧序列；
根据所述帧序列获取第二嵌入向量；
将所述第二嵌入向量输入所述第二特征提取层获取所述语音信息的语音向量；
根据预定的映射关系将所述语音向量转换为映射向量；
通过判别模型比较所述映射向量和所述文本向量以获取比较结果；以及

【专利技术属性】
技术研发人员：徐海洋，韩堃，
申请(专利权)人：北京嘀嘀无限科技发展有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人