语音交互的处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27413850 阅读:27 留言:0更新日期:2021-02-21 14:29
本申请公开了语音交互的处理方法、装置、电子设备及存储介质,涉及语音技术领域、深度学习技术领域等人工智能技术领域。具体实现方案为:获取当前时间点用户的输入语音以及用户的历史语音序列;根据输入语音和历史语音序列生成用户的语音特征信息;根据语音特征信息生成输入语音的分类判断结果;若分类判断结果为拒识,则忽略输入语音;若分类判断结果为接收,则对输入语音进行响应处理。从而能够结合当前时间点用户的输入语音以及用户的历史语音序列来确定对该输入语音进行拒识还是接收,提高了对语音进行响应的准确度,避免忽略部分语音。音。音。

【技术实现步骤摘要】
语音交互的处理方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,具体涉及语音
、深度学习
等人工智能
,尤其涉及语音交互的处理方法、装置、电子设备及存储介质。

技术介绍

[0002]目前在智能语音交互硬件产品中,存在一次唤醒多次交互的场景。相关技术中,针对一次唤醒中的多次交互,利用query白名单只对存在高频指令词的语音进行响应,其他语音全部忽略;或直接将高频指令词作为唤醒词的方式实现。
[0003]上述方式中,只对存在高频指令词的语音进行响应,响应准确度差,会忽略部分语音,给用户的体验差。

技术实现思路

[0004]本公开提供了一种用于语音交互的处理方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面,提供了一种语音交互的处理方法,包括:获取当前时间点用户的输入语音以及所述用户的历史语音序列;根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息;根据所述语音特征信息生成所述输入语音的分类判断结果;若所述分类判断结果为拒识,则忽略所述输入语音;若所述分类判断结果为接收,则对所述输入语音进行响应处理。
[0006]根据本公开的另一方面,提供了一种语音交互的处理装置,包括:获取模块,用于获取当前时间点用户的输入语音以及所述用户的历史语音序列;第一生成模块,用于根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息;第二生成模块,用于根据所述语音特征信息生成所述输入语音的分类判断结果;处理模块,用于在所述分类判断结果为拒识时,忽略所述输入语音;所述处理模块,还用于在所述分类判断结果为接收时,对所述输入语音进行响应处理。
[0007]根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的语音交互的处理方法。
[0008]根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的语音交互的处理方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0011]图1是根据本申请第一实施例的示意图;
[0012]图2是根据本申请第二实施例的示意图;
[0013]图3是对比预测编码CPC模型的示意图;
[0014]图4是根据本申请第三实施例的示意图;
[0015]图5是接收拒识分类模型的示意图;
[0016]图6是根据本申请第四实施例的示意图;
[0017]图7是用来实现本申请实施例的语音交互的处理方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]下面参考附图描述本申请实施例的语音交互的处理方法、装置、电子设备及存储介质。
[0020]图1是根据本申请第一实施例的示意图。其中,需要说明的是,本申请实施例的执行主体为语音交互的处理装置,语音交互的处理装置具体可以为硬件设备,或者硬件设备中的软件等。
[0021]如图1所示,语音交互的处理方法的具体实现过程如下:
[0022]步骤101,获取当前时间点用户的输入语音以及用户的历史语音序列。
[0023]在本申请实施例中,当前时间点用户的输入语音,可以为一次唤醒多次交互过程中语音交互的处理装置采集到的用户语音。用户的历史语音序列中的历史语音,可以为一次唤醒多次交互过程中当前时间点之前采集到的用户的输入语音。其中,历史语音序列中可以包括一次唤醒多次交互过程中当前时间点之前采集到的用户的所有输入语音,也可以包括一次唤醒多次交互过程中当前时间点之前采集到的用户的部分输入语音。其中,历史语音序列中的多条历史语音可以按照时间顺序升序排序。
[0024]步骤102,根据输入语音和历史语音序列生成用户的语音特征信息。
[0025]在本申请实施例中,在第一种实施场景下,语音特征信息可以包括:历史语音序列对应的历史语音融合特征以及输入语音对应的输入语音特征。语音交互的处理装置可以结合历史语音融合特征以及输入语音特征生成输入语音的分类判断结果。
[0026]在第二种实施场景下,语音特征信息可以包括:输入语音融合特征,其中,输入语音融合特征为对历史语音序列对应的历史语音融合特征和输入语音对应的输入语音特征进行融合得到的特征。语音交互的处理装置可以结合输入语音融合特征生成输入语音的分类判断结果。
[0027]步骤103,根据语音特征信息生成输入语音的分类判断结果。
[0028]在本申请实施例中,输入语音的分类判断结果可以有两种,分别为拒识和接收。分类判断结果为拒识时,输入语音例如可以为噪音、用户与其他人的对话等。分类判断结果为接收时,输入语音例如可以为上一个语音的补充语音等。
[0029]步骤104,若分类判断结果为拒识,则忽略输入语音。
[0030]在本申请实施例中,忽略输入语音,指的是对输入语音不做响应处理,之后语音交
互的处理装置可以继续获取用户的下一个输入语音进行处理,直至此次语音交互结束。
[0031]步骤105,若分类判断结果为接收,则对输入语音进行响应处理。
[0032]在本申请实施例中,对输入语音进行响应处理后,语音交互的处理装置可以继续获取用户的下一个输入语音进行处理,直至此次语音交互结束。
[0033]综上,通过获取当前时间点用户的输入语音以及用户的历史语音序列;根据输入语音和历史语音序列生成用户的语音特征信息;根据语音特征信息生成输入语音的分类判断结果;若分类判断结果为拒识,则忽略输入语音;若分类判断结果为接收,则对输入语音进行响应处理。从而能够结合当前时间点用户的输入语音以及用户的历史语音序列来确定对该输入语音进行拒识还是接收,提高了对语音进行响应的准确度,避免忽略部分语音。
[0034]图2是根据本申请第二实施例的示意图。其中,需要说明的是,本申请实施例的执行主体为语音交互的处理装置,语音交互的处理装置具体可以为硬件设备,或者硬件设备中的软件等。
[0035]如图2所示,语音交互的处理方法的具体实现过程如下:
[0036]步骤201,获取当前时间点用户的输入语音以及用户的历史语音序列。
[0037]在本申请实施例中,当前时间点用户的输入语音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音交互的处理方法,包括:获取当前时间点用户的输入语音以及所述用户的历史语音序列;根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息;根据所述语音特征信息生成所述输入语音的分类判断结果;若所述分类判断结果为拒识,则忽略所述输入语音;若所述分类判断结果为接收,则对所述输入语音进行响应处理。2.根据权利要求1所述的方法,其中,所述语音特征信息包括:所述历史语音序列对应的历史语音融合特征以及所述输入语音对应的输入语音特征,其中,所述根据所述语音特征信息生成所述输入语音的分类判断结果,包括:根据所述历史语音融合特征生成当前时间点的预测语音特征;将当前时间点的预测语音特征和所述输入语音特征进行比对,生成所述分类判断结果。3.根据权利要求2所述的方法,其中,在根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息之前,还包括:获取经过预训练的对比预测编码CPC模型;结合所述CPC模型中的语音编码层和特征融合层构建接收拒识分类模型的特征提取模块,用于基于所述输入语音和所述历史语音序列生成所述语音特征信息;结合所述CPC模型中的预测层以及损失函数构建所述接收拒识分类模型的分类判断模块,用于基于所述语音特征信息生成所述分类判断结果;获取训练数据,其中,所述训练数据包括:一次唤醒多次交互过程中的第一样本输入语音、第一样本历史语音序列以及分类标注结果;采用所述第一样本输入语音、所述第一样本历史语音序列以及所述分类标注结果对所述接收拒识分类模型进行训练,得到训练好的接收拒识分类模型。4.根据权利要求1所述的方法,其中,所述语音特征信息包括:输入语音融合特征,其中,所述输入语音融合特征为对所述历史语音序列对应的历史语音融合特征和所述输入语音对应的输入语音特征进行融合得到的特征,其中,所述根据所述语音特征信息生成所述输入语音的分类判断结果,包括:根据所述输入语音融合特征生成所述分类判断结果。5.根据权利要求4所述的方法,其中,在根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息之前,还包括:获取经过预训练的对比预测编码CPC模型;结合所述CPC模型中的语音编码层和特征融合层构建接收拒识分类模型的特征提取模块,用于基于所述输入语音和所述历史语音序列生成所述语音特征信息;结合多层感知机以及激励函数层构建所述接收拒识分类模型的分类判断模块,用于基于所述语音特征信息生成所述分类判断结果;获取训练数据,其中,所述训练数据包括:一次唤醒多次交互过程中的第一样本输入语音、第一样本历史语音序列以及分类标注结果;采用所述第一样本输入语音、所述第一样本历史语音序列以及所述分类标注结果对所述接收拒识分类模型进行训练,得到训练好的接收拒识分类模型。
6.根据权利要求3或5所述的方法,其中,所述获取经过预训练的对比预测编码CPC模型,包括:获取预训练数据,其中,所述预训练数据包括:正例数据和负例数据,其中,所述正例数据包括:一次唤醒一次交互过程中用户的任意一条第二样本输入语音,以及所述第二样本输入语音之前的多条历史语音组成的第二样本历史语音序列;采用所述预训练数据对初始的CPC模型进行训练,得到经过预训练的CPC模型。7.根据权利要求6所述的方法,其中,所述采用所述预训练数据对初始的CPC模型进行训练,得到经过预训练的CPC模型,包括:针对一次唤醒一次交互过程中用户的任意一条第二样本输入语音,将所述第二样本输入语音对应的第二样本历史语音序列输入所述CPC模型的语音编码层和特征融合层,获取第二样本历史语音融合特征;将所述第二样本输入语音输入所述CPC模型的语音编码层,获取第二样本输入语音特征;将所述第二样本历史语音融合特征输入所述CPC模型的预测层,获取样本预测语音特征;结合所述样本预测语音特征、所述第二样本输入语音特征以及损失函数,对所述CPC模型的系数进行调整,实现对所述CPC模型的训练。8.一种语音交互的处理装置,包括:获取模块,用于获取当前时间点用户的输入语音以及所述用户的历史语音序列;第一生成模块,用于根据所述输入语音和所述历史语音序列生成所述用户的语音特征信息;第二生成模块,用于根据所述语音特征信息生成所述输入语音...

【专利技术属性】
技术研发人员:刘兵吴震白锦峰
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1