一种智能语音对话方法、装置以及系统制造方法及图纸

技术编号:34145861 阅读:27 留言:0更新日期:2022-07-14 18:56
本发明专利技术公开了一种智能语音对话方法、装置、计算机可读存储介质以及系统。该智能语音对话装置包括信息获取单元、特征识别单元以及控制对话单元。通过提供基于纯自注意力机制的语音识别对话模型,在将语音信息切分为数据段后,对语音信息进行提取、扩展及融合,再根据融合后的第一融合特征控制输出相应的对话内容以进行对话,该方法、装置、计算机可读存储介质以及系统提升了用于支撑智能语音对话的模型性能;进一步地,本发明专利技术提供的一种方法、装置、计算机可读存储介质以及系统还通过对模型进行推理加速,从而为智能离线实时语音对话提供最优模型,降低了硬件部署成本。降低了硬件部署成本。降低了硬件部署成本。

【技术实现步骤摘要】
一种智能语音对话方法、装置以及系统


[0001]本专利技术涉及智能语音对话
,尤其涉及一种智能语音对话方法、装置、计算机可读存储介质及系统。

技术介绍

[0002]随着人口老龄化趋势的加剧和工业机器人技术的日趋成熟与完善,机器人开始逐步走入医疗、保健、家庭、体育和服务性行业,对机器人的要求也从简单重复的机械动作提升为研制具有高度智能型、自主性以及与其他智能体交互的仿人机器人。不同于传统的机器人,人们希望现代智能机器人能够交流,能理解人们说话时的注意力,使机器人更加智能化,也就是能更像人或者某些方面超过人类。现如今机器人朝着更加智能化的方向发展,让机器人的言行举止能达到或者超过人类的水平,利用自然语言处理技术并结合运动控制达到更加多样的人机交互场景。
[0003]在现有技术中,机器人朝着更加智能化的方向发展,通常使用经典语音声学模型和深度学习网络模型。在经典语音声学模型GMM

HMM(以下简称GH)中,其中GMM(高斯混合模型)用来对语音的观察概率进行建模,语音状态序列使用HMM(隐马尔科夫模型)进行建模;而深度学习网络模型则是将DNN(深度学习网络)融入语音识别框架中,其输入特征使用了在当前帧左右拼帧的方式来实现模型对时序信号长时相关性的建模,模型输出则保持了GH经常使用的trihone共享状态(senone)。
[0004]但是,现有技术仍存在如下缺陷:经典语音声学模型没有利用帧的上下文信息,GMM不能学习深层非线性特征变换;而深度学习网络模型不能利用历史信息来辅助当前任务,且运行时间长,需要高算力支持。
[0005]因此,当前需要一种智能语音对话方法、装置、计算机可读存储介质以及系统,从而克服现有技术中存在的上述缺陷。

技术实现思路

[0006]本专利技术实施例提供一种智能语音对话方法、装置、计算机可读存储介质以及系统,从而提升用于支撑智能语音对话的模型性能。
[0007]本专利技术一实施例提供一种智能语音对话方法,所述智能语音对话方法包括:获取待执行的语音信息;通过预设的语音识别对话模型中的自注意力层、MLP网络以及预设的特征融合方法,对所述语音信息进行特征提取、扩展及融合以获取第一融合特征;根据所述第一融合特征以及所述语音识别对话模型,控制输出相应的对话内容以进行对话。
[0008]作为上述方案的改进,在获取待执行的语音信息之前,所述智能语音对话方法还包括:对预设的自注意力模型以及网络参数组进行初始化,获取第一自注意力识别模型;对预设的第一语音对话训练集进行分词以获得第二语音对话训练集,将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取,获取第一特征集;将所述第一对话特征集进行下采样和多尺度融合后传入预测头,以使所述预测头进行全连接层解码以获得预
测结果、对应的损失值以及对应的第一语音识别对话模型;根据所述损失值,判断所述预测结果是否收敛;若不收敛,则反向传递所述损失值,以使所述第一语音识别对话模型根据所述损失值进行更新,并重复上述步骤;若收敛,则将所述第一语音识别对话模型输出为语音识别对话模型。
[0009]作为上述方案的改进,通过预设的语音识别对话模型中的自注意力层、MLP网络以及预设的特征融合方法,对所述语音信息进行特征提取、扩展以及融合以获取第一融合特征,具体包括:通过预设的语音识别对话模型中的自注意力层,提取所述语音信息中的第一语音特征集;将所述第一语音特征集输入MLP网络中进行扩展,获得第二语音特征集;所述第二语音特征集包括多个第二语音特征;将所述第二语音特征进行多尺度融合,获得第一融合特征。
[0010]作为上述方案的改进,在通过预设的语音识别对话模型中的自注意力层,提取所述语音信息中的第一语音特征集之前,还包括:对所述语音信息进行格式调整,以使调整后的语音信息符合预设的语音识别对话模型的格式要求。
[0011]作为上述方案的改进,将所述第一语音识别对话模型输出为语音识别对话模型,具体包括:通过剪枝对所述第一语音识别对话模型进行压缩以获取第二语音识别对话模型;通过TensorRT对所述第二语音识别对话模型进行推理加速以获取语音识别对话模型。
[0012]作为上述方案的改进,所述语音识别对话模型离线部署在终端。
[0013]本专利技术另一实施例对应提供了一种智能语音对话装置,所述智能语音对话装置包括信息获取单元、特征识别单元以及控制对话单元,其中,所述信息获取单元用于获取待执行的语音信息;所述特征识别单元用于通过预设的语音识别对话模型中的自注意力层、MLP网络以及预设的特征融合方法,对所述语音信息进行特征提取、扩展及融合以获取第一融合特征;所述控制对话单元用于根据所述第一融合特征以及所述语音识别对话模型,控制输出相应的对话内容以进行对话。
[0014]作为上述方案的改进,所述智能语音对话装置还包括模型训练单元,所述模型训练单元用于:对预设的自注意力模型以及网络参数组进行初始化,获取第一自注意力识别模型;对预设的第一语音对话训练集进行分词以获得第二语音对话训练集,将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取,获取第一特征集;将所述第一对话特征集进行下采样和多尺度融合后传入预测头,以使所述预测头进行全连接层解码以获得预测结果、对应的损失值以及对应的第一语音识别对话模型;根据所述损失值,判断所述预测结果是否收敛;若不收敛,则反向传递所述损失值,以使所述第一语音识别对话模型根据所述损失值进行更新,并重复上述步骤;若收敛,则将所述第一语音识别对话模型输出为语音识别对话模型。
[0015]作为上述方案的改进,所述特征识别单元还用于:通过预设的语音识别对话模型中的自注意力层,提取所述语音信息中的第一语音特征集;将所述第一语音特征集输入MLP网络中进行扩展,获得第二语音特征集;所述第二语音特征集包括多个第二语音特征;将所述第二语音特征进行多尺度融合,获得第一融合特征。
[0016]作为上述方案的改进,所述特征识别单元还用于:对所述语音信息进行格式调整,以使调整后的语音信息符合预设的语音识别对话模型的格式要求。
[0017]作为上述方案的改进,所述模型训练单元还用于:通过剪枝对所述第一语音识别
对话模型进行压缩以获取第二语音识别对话模型;通过TensorRT对所述第二语音识别对话模型进行推理加速以获取语音识别对话模型。
[0018]本专利技术另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如前所述的智能语音对话方法。
[0019]本专利技术另一实施例提供了一种智能语音对话系统,所述智能语音对话系统包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如前所述的智能语音对话方法。
[0020]与现有技术相比,本技术方案存在如下有益效果:
[0021]本专利技术提供了一种智能语音对话方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种智能语音对话方法,其特征在于,所述智能语音对话方法包括:获取待执行的语音信息;通过预设的语音识别对话模型中的自注意力层、MLP网络以及预设的特征融合方法,对所述语音信息进行特征提取、扩展及融合以获取第一融合特征;根据所述第一融合特征以及所述语音识别对话模型,控制输出相应的对话内容以进行对话。2.根据权利要求1所述的智能语音对话方法,其特征在于,在获取待执行的语音信息之前,所述智能语音对话方法还包括:对预设的自注意力模型以及网络参数组进行初始化,获取第一自注意力识别模型;对预设的第一语音对话训练集进行分词以获得第二语音对话训练集,将所述第二语音对话训练集前向传递给所述自注意力模型以进行特征提取,获取第一特征集;将所述第一对话特征集进行下采样和多尺度融合后传入预测头,以使所述预测头进行全连接层解码以获得预测结果、对应的损失值以及对应的第一语音识别对话模型;根据所述损失值,判断所述预测结果是否收敛;若不收敛,则反向传递所述损失值,以使所述第一语音识别对话模型根据所述损失值进行更新,并重复上述步骤;若收敛,则将所述第一语音识别对话模型输出为语音识别对话模型。3.根据权利要求2所述的智能语音对话方法,其特征在于,通过预设的语音识别对话模型中的自注意力层、MLP网络以及预设的特征融合方法,对所述语音信息进行特征提取、扩展以及融合以获取第一融合特征,具体包括:通过预设的语音识别对话模型中的自注意力层,提取所述语音信息中的第一语音特征集;将所述第一语音特征集输入MLP网络中进行扩展,获得第二语音特征集;所述第二语音特征集包括多个第二语音特征;将所述第二语音特征进行多尺度融合,获得第一融合特征。4.根据权利要求3所述的智能语音对话方法,其特征在于,在通过预设的语音识别对话模型中的自注意力层,提取所述语音信息中的第一语音特征集之前,还包括:对所述语音信息进行格式调整,以使调整后的语音信息符合预设的语音识别对话模型的格式要求。5.根据权利要求4所述的智能语音对话方法,其特征在于,将所述第一语音识别对话模型输出为语音识别对话模型,具体包括:通过剪枝对所述第一语音识别对话模型进行压缩以获取第二语音...

【专利技术属性】
技术研发人员:万里红吴国栋郭正玮
申请(专利权)人:河南爬客智能机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1