【技术实现步骤摘要】
语音交互方法、模型训练方法、电子设备和存储介质
[0001]本专利技术涉及语音交互
,特别涉及一种语音交互方法、模型训练方法、电子设备和存储介质。
技术介绍
[0002]对于文本补全,类似的业务有输入法的提示词、搜索框的输入提示、代码的补全提示、文本的自动生成等。第一,可以使用常规的搜索算法,但这需要提前存储大量数据,且在巨大的数据库中进行搜索,利用空间换时间方法提高效率与准度。第二,还可以使用近些年热门的预训练文本生成模型,虽然准确率高且多样性丰富,但是模型参数量巨大,对于特定领域文本还需再花较长时间训练,生成文本的时间也较长,对于设备的要求较高,时间的花费也较大。
[0003]但在语音识别处理这一场景下,想要在用户正常说话时间内利用提前预测用户意图从而抢到时间收益,同时不影响系统的正常使用,就需要模型的生成速度快、准确度高、吞吐量低,因此模型要求不能太大、不追求多样性,且为了节约成本,存储空间要尽可能小。
技术实现思路
[0004]本专利技术实施方式提供一种语音交互方法、模型训练方法、电子设
【技术保护点】
【技术特征摘要】
1.一种语音交互方法,其特征在于,包括:获取用户语音数据以实时进行语音识别得到用户语音请求;在未接收到完整的所述用户语音请求的情况下,根据实时获取的所述用户语音请求和循环神经网络模型对所述用户语音请求进行预测得到预测结果;对所述预测结果进行处理得到第一预测指令;在接收到完整的所述用户语音请求后,若所述预测结果与接收到完整的所述用户语音请求相同,则根据所述第一预测指令完成语音交互。2.根据权利要求1所述的语音交互方法,其特征在于,所述在未接收到完整的所述用户语音请求的情况下,根据实时获取的所述用户语音请求和循环神经网络模型对所述用户语音请求进行预测得到预测结果,包括:将实时获取的所述用户语音请求作为当前输入提供给所述循环神经网络模型进行预测得到预测字符;在所述预测字符不是预设字符的情况下,将所述预测字符和所述当前输入拼接得到下一输入提供给所述循环神经网络模型再次进行预测;在所述预测字符是预设字符的情况下,将所述当前输入作为所述预测结果。3.根据权利要求2所述的语音交互方法,其特征在于,所述在所述预测字符不是预设字符的情况下,将所述预测字符和所述当前输入拼接得到下一输入提供给所述循环神经网络再次进行预测,包括:获取所述预测字符的置信度和预测概率分布的熵;在所述置信度大于第一阈值,且所述预测概率分布的熵小于第二阈值的情况下,将所述预测字符和所述当前输入拼接得到下一输入提供给所述循环神经网络再次进行预测。4.根据权利要求2所述的语音交互方法,其特征在于,所述语音交互方法包括:在所述循环神经网络模型输入的字符数大于最大预测字符数的情况下,确定预测失败。5.根据权利要求1所述的语音交互方法,其特征在于,所述在未接收到完整的所述用户语音请求的情况下,根据实时获取的所述用户语音请求和循环神经网络模型对所述用户语音请求进行预测得到预测结果,包括:在未接收到完整的所述用户语音请求的情况下,基于前缀树对实时获取的所述用户语音请求进行补全;在基于所述前缀树进行补全未得到补全结果的情况下,根据实时获取的所述用户语音请求和所述循环神经网络模型对所述用户语音请求进行预测得到预测结果。6.根据权利要求5所述的语音交互方法,其特征在于,所述语音交互方法包括:在基于所述前缀树进行补全得到所述补全结果的情况下,对所述补全结果进行处理得到第二预测指令;在接收到完整的所述用户语音请求后,若所述补全结果与接收到完整的所述用户语音请求相同,则根据所述第二预测指令完成语音交互。7.根据权利要求1所述的语音交互方法,其特征在于,所述在未接收到完整的所述用户语音请求的情况下,根据实时获取的所述用户语音请求和循环神经网络模型对所述用户语音请求进行预测得到预测结果,包括:
在未接收到完整的所述用户语音请求的情况下,基于前缀树对实时获取的所述用户语音请求进行补全得到补全结果;根据所述循环神经网络模型对所述补全结果进行预测得到所述预测结果。8.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法包括:在未接收到完整的所述用户语音请求的情况下,基于前缀树对实时获取的所述用户语音请求进行补全得到补全结果;对所述补全结果进行处理得到第三预测指令;在接收到完整的所述用户语音请求后,若所述预测结果或所述补全结果与接收到完整...
【专利技术属性】
技术研发人员:李万水,陈光毅,翁志伟,孙仿逊,李晨延,赵耀,易晖,李嘉辉,
申请(专利权)人:广州小鹏汽车科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。