语音交互的处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：27413850 阅读：27 留言：0更新日期：2021-02-21 14:29

本申请公开了语音交互的处理方法、装置、电子设备及存储介质，涉及语音技术领域、深度学习技术领域等人工智能技术领域。具体实现方案为：获取当前时间点用户的输入语音以及用户的历史语音序列；根据输入语音和历史语音序列生成用户的语音特征信息；根据语音特征信息生成输入语音的分类判断结果；若分类判断结果为拒识，则忽略输入语音；若分类判断结果为接收，则对输入语音进行响应处理。从而能够结合当前时间点用户的输入语音以及用户的历史语音序列来确定对该输入语音进行拒识还是接收，提高了对语音进行响应的准确度，避免忽略部分语音。音。音。

全部详细技术资料下载

【技术实现步骤摘要】
语音交互的处理方法、装置、电子设备及存储介质

[0001]本申请涉及计算机
，具体涉及语音
、深度学习
等人工智能
，尤其涉及语音交互的处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前在智能语音交互硬件产品中，存在一次唤醒多次交互的场景。相关技术中，针对一次唤醒中的多次交互，利用query白名单只对存在高频指令词的语音进行响应，其他语音全部忽略；或直接将高频指令词作为唤醒词的方式实现。
[0003]上述方式中，只对存在高频指令词的语音进行响应，响应准确度差，会忽略部分语音，给用户的体验差。

技术实现思路

[0004]本公开提供了一种用于语音交互的处理方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面，提供了一种语音交互的处理方法，包括：获取当前时间点用户的输入语音以及所述用户的历史语音序列；根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息；根据所述语音特征信息生成所述输入语音的分类判断结果；若所述分类判断结果为拒识，则忽略所述输入语音；若所述分类判断结果为接收，则对所述输入语音进行响应处理。
[0006]根据本公开的另一方面，提供了一种语音交互的处理装置，包括：获取模块，用于获取当前时间点用户的输入语音以及所述用户的历史语音序列；第一生成模块，用于根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息；第二生成模块，用于根据所述语音特征信息生成所述输入语音的分类判断结果；处理模块，用于在所述分类判断结果为...

【技术保护点】

【技术特征摘要】
1.一种语音交互的处理方法，包括：获取当前时间点用户的输入语音以及所述用户的历史语音序列；根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息；根据所述语音特征信息生成所述输入语音的分类判断结果；若所述分类判断结果为拒识，则忽略所述输入语音；若所述分类判断结果为接收，则对所述输入语音进行响应处理。2.根据权利要求1所述的方法，其中，所述语音特征信息包括：所述历史语音序列对应的历史语音融合特征以及所述输入语音对应的输入语音特征，其中，所述根据所述语音特征信息生成所述输入语音的分类判断结果，包括：根据所述历史语音融合特征生成当前时间点的预测语音特征；将当前时间点的预测语音特征和所述输入语音特征进行比对，生成所述分类判断结果。3.根据权利要求2所述的方法，其中，在根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息之前，还包括：获取经过预训练的对比预测编码CPC模型；结合所述CPC模型中的语音编码层和特征融合层构建接收拒识分类模型的特征提取模块，用于基于所述输入语音和所述历史语音序列生成所述语音特征信息；结合所述CPC模型中的预测层以及损失函数构建所述接收拒识分类模型的分类判断模块，用于基于所述语音特征信息生成所述分类判断结果；获取训练数据，其中，所述训练数据包括：一次唤醒多次交互过程中的第一样本输入语音、第一样本历史语音序列以及分类标注结果；采用所述第一样本输入语音、所述第一样本历史语音序列以及所述分类标注结果对所述接收拒识分类模型进行训练，得到训练好的接收拒识分类模型。4.根据权利要求1所述的方法，其中，所述语音特征信息包括：输入语音融合特征，其中，所述输入语音融合特征为对所述历史语音序列对应的历史语音融合特征和所述输入语音对应的输入语音特征进行融合得到的特征，其中，所述根据所述语音特征信息生成所述输入语音的分类判断结果，包括：根据所述输入语音融合特征生成所述分类判断结果。5.根据权利要求4所述的方法，其中，在根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息之前，还包括：获取经过预训练的对比预测编码CPC模型；结合所述CPC模型中的语音编码层和特征融合层构建接收拒识分类模型的特征提取模块，用于基于所述输入语音和所述历史语音序列生成所述语音特征信息；结合多层感知机以及激励函数层构建所述接收拒识分类模型的分类判断模块，用于基于所述语音特征信息生成所述分类判断结果；获取训练数据，其中，所述训练数据包括：一次唤醒多次交互过程中的第一样本输入语音、第一样本历史语音序列以及分类标注结果；采用所述第一样本输入语音、所述第一样本历史语音序列以及所述分类标注结果对所述接收拒识分类模型进行训练，得到训练好的接收拒识分类模型。
6.根据权利要求3或5所述的方法，其中，所述获取经过预训练的对比预测编码CPC模型，包括：获取预训练数据，其中，所述预训练数据包括：正例数据和负例数据，其中，所述正例数据包括：一次唤醒一次交互过程中用户的任意一条第二样本输入语音，以及所述第二样本输入语音之前的多条历史语音组成的第二样本历史语音序列；采用所述预训练数据对初始的CPC模型进行训练，得到经过预训练的CPC模型。7.根据权利要求6所述的方法，其中，所述采用所述预训练数据对初始的CPC模型进行训练，得到经过预训练的CPC模型，包括：针对一次唤醒一次交互过程中用户的任意一条第二样本输入语音，将所述第二样本输入语音对应的第二样本历史语音序列输入所述CPC模型的语音编码层和特征融合层，获取第二样本历史语音融合特征；将所述第二样本输入语音输入所述CPC模型的语音编码层，获取第二样本输入语音特征；将所述第二样本历史语音融合特征输入所述CPC模型的预测层，获取样本预测语音特征；结合所述样本预测语音特征、所述第二样本输入语音特征以及损失函数，对所述CPC模型的系数进行调整，实现对所述CPC模型的训练。8.一种语音交互的处理装置，包括：获取模块，用于获取当前时间点用户的输入语音以及所述用户的历史语音序列；第一生成模块，用于根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息；第二生成模块，用于根据所述语音特征信息生成所述输入语音...

【专利技术属性】
技术研发人员：刘兵，吴震，白锦峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人