一种语音意图识别方法及装置制造方法及图纸

技术编号:27935657 阅读:25 留言:0更新日期:2021-04-02 14:15
本说明书公开了一种语音意图识别方法及装置。获取用户的语音数据,并确定其对应的文本数据,通过第一以及第二分支网络,分别确定第一以及第二特征向量。根据用户信息数据、用户行为数据以及历史交互数据中的至少一种,通过第三分支网络确定第三特征向量。将第一、第二以及第三特征向量进行融合得到的总特征向量,输入意图识别模型的中间分支网络,确定该中间分支网络输出的用户意图向量,将用户意图向量输入意图识别模型的各输出分支网络,得到各输出分支网络分别输出的各分类结果,并基于各分类结果确定用户的意图。可根据意图识别模型的各输出分支网络分别输出的分类结果,准确确定用户实际的意图,使基于该意图而执行的业务的效率更高。

【技术实现步骤摘要】
一种语音意图识别方法及装置
本说明书涉及信息
,尤其涉及一种语音意图识别方法及装置。
技术介绍
随着信息技术和人工智能的发展,语音识别技术得到了广泛的应用。例如,一些企业会用智能语音技术代替客服人员来协助用户办理业务或提供服务,而为了提高服务效率,通常还可对用户说的话进行意图识别,根据识别出的用户意图选择相应的回应或操作。或者,一些智能机器人,也需要根据获取到的语音信息,来识别对应用户的意图,以做出恰当的反应。而要对获取到的语音信息做出正确或恰当的反应和操作,就需要对获取到的语音信息进行意图识别,来确定该语音信息对应的用户的真实意图。在现有技术中,对语音信息进行意图识别时,往往是把用户的语音信息和该语音信息转换成的文本输入到预先训练好的用于识别用户意图的模型中,来对用户的语音信息进行意图识别,得到一个意图识别结果。但是,现有技术根据语音信息和文本确定出的意图识别结果不够准确,导致基于意图识别结果执行的业务效率难以提高。
技术实现思路
本说明书提供一种语音意图识别方法及装置,以部分的解决现有技术存在的上述问题。本说明书采用下述技术方案:本说明书提供了一种语音意图识别方法,具体包括:获取用户的语音数据,根据所述语音数据,确定所述语音数据对应的文本数据;根据所述语音数据,通过意图识别模型的第一分支网络,确定第一特征向量,以及根据所述文本数据,通过所述意图识别模型的第二分支网络,确定第二特征向量;获取所述用户的关联数据,根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,其中,所述关联数据包括用户信息数据、用户行为数据以及历史交互数据中的至少一种,所述历史交互数据是在与所述用户交互的过程中,向所述用户发送的语音;将所述第一特征向量、所述第二特征向量以及所述第三特征向量进行融合,确定总特征向量,将所述总特征向量输入所述意图识别模型的中间分支网络,确定所述中间分支网络输出的用户意图向量;将所述用户意图向量输入所述意图识别模型的各输出分支网络,并根据各输出分支网络分别输出的各分类结果,确定所述用户的意图识别结果,所述用户的意图用于确定回复所述用户的语音信息,不同输出分支网络用于输出不同意图类型的分类结果。可选地,根据所述语音数据,通过意图识别模型的第一分支网络,具体包括:去除所述语音数据中的无效数据,得到待识别数据;将确定出的待识别数据输入到意图识别模型的第一分支网络,确定第一特征向量。可选地,根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,具体包括:根据所述用户的用户信息数据,确定该用户对应的各预设类型的用户信息数据;针对每个预设类型,对该类型的用户信息数据进行编码,确定画像编码;将各类型的画像编码,分别输入所述第三分支网络中各预设的类型对应的神经网络层,得到各画像编码对应的画像向量;将各画像编码对应的画像向量进行融合,确定综合画像向量;将所述综合画像向量作为输入,输入所述第三分支网络中的融合网络层,确定所述融合网络层的输出,作为所述第三特征向量。可选地,所述用户行为数据为在与所述用户交互的过程之前,记录的所述用户行为数据;根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,具体包括:根据所述用户行为数据,对所述用户的各行为进行编码;根据所述用户各行为的编码,确定各用户行为向量;将各用户行为向量作为输入,依次输入所述意图识别模型的第三分支网络,根据所述意图识别模型的第三分支网络的隐层特征,确定第三特征向量。可选地,根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,具体包括:根据历史交互数据,确定与所述用户交互过程中发送的各语音;按照各语音的发送排序,确定目标语音;将所述目标语音对应的文本数据作为输入,输入所述意图识别模型的第三分支网络,确定第三特征向量。可选地,各输出分支网络至少包括:用于输出用户情绪的输出分支网络、用于输出用户态度的输出分支网络以及输出用户是否肯定的输出分支网络中的两种。可选地,采用下述方法训练所述意图识别模型,其中:获取历史上与不同用户交互过程产生的语音数据;针对每段语音数据,确定对应该段语音数据的文本数据以及对应该段语音数据的用户的关联数据,将所述语音数据以及所述关联数据作为训练样本;根据各交互过程的语音数据以及交互结果,确定各训练样本的样本标签,所述样本标签包含各输出分支网络对应的标签;将所述训练样本输入待训练的意图识别模型,得到所述待训练的意图识别模型的各输出分支网络的输出结果;根据得到的各输出分支网络的输出结果以及所述样本标签对应的各输出分支网络的标签,确定各输出分支网络的输出结果对应的损失;根据各输出分支网络的输出结果对应的损失确定总损失,以总损失最小为优化目标,调整所述待训练的意图识别模型中的参数。本说明书提供了一种语音意图识别装置,所述装置具体包括:文本数据确定模块,用于获取用户的语音数据,根据所述语音数据,确定所述语音数据对应的文本数据;特征向量第一确定模块,用于根据所述语音数据,通过意图识别模型的第一分支网络,确定第一特征向量,以及根据所述文本数据,通过所述意图识别模型的第二分支网络,确定第二特征向量;特征向量第二确定模块,用于获取所述用户的关联数据,根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,其中,所述关联数据包括用户信息数据、用户行为数据以及历史交互数据中的至少一种,所述历史交互数据是在与所述用户交互的过程中,向所述用户发送的语音;用户意图向量确定模块,用于将所述第一特征向量、所述第二特征向量以及所述第三特征向量进行融合,确定总特征向量,将所述总特征向量输入所述意图识别模型的中间分支网络,确定所述中间分支网络输出的用户意图向量;意图识别模块,用于将所述用户意图向量输入所述意图识别模型的各输出分支网络,并根据各输出分支网络分别输出的各分类结果,确定所述用户的意图识别结果,所述用户的意图用于确定回复所述用户的语音信息,不同输出分支网络用于输出不同意图类型的分类结果。本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述语音意图识别方法。本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述语音意图识别方法。本说明书采用的上述至少一个技术方案能够达到以下有益效果:在本说明书提供的语音意图识别方法中,获取用户的语音数据,并确定其对应的文本数据,通过第一以及第二分支网络,分别确定第一以及第二特征向量。根据用户信息数据、用户行为数据以及历史交互数据中的至少一种,通过第三分支网络确定第三特征向量。将第一、第二以及第三特征向本文档来自技高网...

【技术保护点】
1.一种语音意图识别方法,其特征在于,所述方法具体包括:/n获取用户的语音数据,根据所述语音数据,确定所述语音数据对应的文本数据;/n根据所述语音数据,通过意图识别模型的第一分支网络,确定第一特征向量,以及根据所述文本数据,通过所述意图识别模型的第二分支网络,确定第二特征向量;/n获取所述用户的关联数据,根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,其中,所述关联数据包括用户信息数据、用户行为数据以及历史交互数据中的至少一种,所述历史交互数据是在与所述用户交互的过程中,向所述用户发送的语音;/n将所述第一特征向量、所述第二特征向量以及所述第三特征向量进行融合,确定总特征向量,将所述总特征向量输入所述意图识别模型的中间分支网络,确定所述中间分支网络输出的用户意图向量;/n将所述用户意图向量输入所述意图识别模型的各输出分支网络,并根据各输出分支网络分别输出的各分类结果,确定所述用户的意图识别结果,所述用户的意图用于确定回复所述用户的语音信息,不同输出分支网络用于输出不同意图类型的分类结果。/n

【技术特征摘要】
1.一种语音意图识别方法,其特征在于,所述方法具体包括:
获取用户的语音数据,根据所述语音数据,确定所述语音数据对应的文本数据;
根据所述语音数据,通过意图识别模型的第一分支网络,确定第一特征向量,以及根据所述文本数据,通过所述意图识别模型的第二分支网络,确定第二特征向量;
获取所述用户的关联数据,根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,其中,所述关联数据包括用户信息数据、用户行为数据以及历史交互数据中的至少一种,所述历史交互数据是在与所述用户交互的过程中,向所述用户发送的语音;
将所述第一特征向量、所述第二特征向量以及所述第三特征向量进行融合,确定总特征向量,将所述总特征向量输入所述意图识别模型的中间分支网络,确定所述中间分支网络输出的用户意图向量;
将所述用户意图向量输入所述意图识别模型的各输出分支网络,并根据各输出分支网络分别输出的各分类结果,确定所述用户的意图识别结果,所述用户的意图用于确定回复所述用户的语音信息,不同输出分支网络用于输出不同意图类型的分类结果。


2.如权利要求1所述的方法,其特征在于,根据所述语音数据,通过意图识别模型的第一分支网络,确定第一特征向量,具体包括:
去除所述语音数据中的无效数据,得到待识别数据;
将确定出的待识别数据输入到意图识别模型的第一分支网络,确定第一特征向量。


3.如权利要求1所述的方法,其特征在于,根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,具体包括:
根据所述用户的用户信息数据,确定该用户对应的各预设类型的用户信息数据;
针对每个预设类型,对该类型的用户信息数据进行编码,确定画像编码;
将各类型的画像编码,分别输入所述第三分支网络中各预设的类型对应的神经网络层,得到各画像编码对应的画像向量;
将各画像编码对应的画像向量进行融合,确定综合画像向量;
将所述综合画像向量作为输入,输入所述第三分支网络中的融合网络层,确定所述融合网络层的输出,作为所述第三特征向量。


4.如权利要求1所述的方法,其特征在于,所述用户行为数据为在与所述用户交互的过程之前,记录的所述用户行为数据;
根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,具体包括:
根据所述用户行为数据,对所述用户的各行为进行编码;
根据所述用户各行为的编码,确定各用户行为向量;
将各用户行为向量作为输入,依次输入所述意图识别模型的第三分支网络,根据所述意图识别模型的第三分支网络的隐层特征,确定第三特征向量。


5.如权利要求3所述的方法,其特征在于,根据所述关联数据,通过所述意图识别模型的第三分支网络,确定第三特征向量,具体包括:
根据历史交互数据,确定与所述用户交互过程中发送的各语音;
按照各语...

【专利技术属性】
技术研发人员:李世杰包梦蛟陈欢钱瑞峰
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1