对话识别方法、装置、设备以及存储介质制造方法及图纸

技术编号:38323551 阅读:11 留言:0更新日期:2023-07-29 09:05
本公开提供了一种对话识别方法、装置、设备以及存储介质,涉及人工智能技术领域,尤其涉及语言识别、图像识别、语义理解、自动驾驶等技术领域。具体实现方案为:根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息,其中,该至少一条第一对话包括在该第二对话之前发生的对话;对该待处理信息进行指令识别,得到指令识别结果。根据本公开实施例,可以将第二对话之前发生的第一对话与第二对话的多模态信息结合,能够得到更加准确的识别结果的准确性。的识别结果的准确性。的识别结果的准确性。

【技术实现步骤摘要】
对话识别方法、装置、设备以及存储介质


[0001]本公开涉及人工智能
,尤其涉及语言识别、图像识别、语义理解、自动驾驶等


技术介绍

[0002]在采用语音助手识别人机交互对话应用,全双工可以指语音助手和人可以同时说和听以实现双向沟通。在全双工的场景下,人们之间的交谈可能影响语音助手的识别结果。例如,车辆内部空间小,人与人之间的距离近,人与车机的距离也近。车机中的车载语音助手可能无法准确识别出,某个对话是人与人之间的对话,还是需要人机交互的对话。

技术实现思路

[0003]本公开提供了一种对话识别方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种对话识别方法,包括:
[0005]根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息;其中,该至少一条第一对话包括在该第二对话之前发生的对话;
[0006]根据该待处理信息进行指令识别,得到指令识别结果。
[0007]根据本公开的另一方面,提供了一种对话切分模型的训练方法,包括:
[0008]将至少一条样本对话输入待训练的对话切分模型,得到该待训练的对话切分模型输出的切分标签;
[0009]根据该至少一条样本对话的切分标签与该待训练的对话切分模型输出的切分标签,对该待训练的对话切分模型进行更新;
[0010]在更新后的对话切分模型满足训练完成条件的情况下,得到训练后的对话切分模型。
[0011]根据本公开的另一方面,提供了一种对话识别装置,包括:
[0012]信息获取模块,用于根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息;其中,该至少一条第一对话包括在该第二对话之前发生的对话;
[0013]指令识别模块,用于根据该待处理信息进行指令识别,得到指令识别结果。
[0014]根据本公开的另一方面,提供了一种对话切分模型的训练装置,包括:
[0015]处理模块,用于将至少一条样本对话输入待训练的对话切分模型,得到该待训练的对话切分模型输出的切分标签;
[0016]更新模块,用于根据该至少一条样本对话的切分标签与该待训练的对话切分模型输出的切分标签,对该待训练的对话切分模型进行更新;
[0017]训练完成模块,用于在更新后的对话切分模型满足训练完成条件的情况下,得到训练后的对话切分模型。
[0018]根据本公开的另一方面,提供了一种电子设备,包括:
[0019]至少一个处理器;以及
[0020]与该至少一个处理器通信连接的存储器;其中,
[0021]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开实施例中任一的方法。
[0022]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开实施例中任一的方法。
[0023]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开实施例中任一的方法。
[0024]根据本公开实施例,可以将第二对话之前发生的第一对话与第二对话的多模态信息结合,能够得到更加准确的识别结果的准确性。
[0025]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0026]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0027]图1是根据本公开一实施例的对话识别方法的流程示意图;
[0028]图2是根据本公开另一实施例的对话识别方法的流程示意图;
[0029]图3是根据本公开另一实施例的对话识别方法的流程示意图;
[0030]图4是根据本公开另一实施例的对话识别方法的流程示意图;
[0031]图5是根据本公开另一实施例的对话识别方法的流程示意图;
[0032]图6是根据本公开另一实施例的对话识别方法的流程示意图;
[0033]图7是根据本公开一实施例的对话切分模型的训练方法的流程示意图;
[0034]图8是根据本公开另一实施例的对话切分模型的训练方法的流程示意图;
[0035]图9是根据本公开另一实施例的对话切分模型的训练方法的流程示意图;
[0036]图10是根据本公开的对话识别流程图;
[0037]图11是根据本公开的模型架构图;
[0038]图12是根据本公开一实施例的对话识别装置的结构示意图;
[0039]图13是根据本公开另一实施例的对话识别装置的结构示意图;
[0040]图14是根据本公开一实施例的对话切分模型的训练装置的结构示意图;
[0041]图15是根据本公开另一实施例的对话切分模型的训练装置的结构示意图;
[0042]图16是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
[0043]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0044]在全双工的场景下,车载语音助手和人可以同时说和听,从而完成双向沟通,用户的体验会更好。例如,车载语音助手的拒识方案包括单模态方案或多模态方案。其中,单模态方案是仅通过语音识别识别之后的指令文本,来进行是否为人机交互的二分类。多模态
方案可以使用视觉信息、文本信息及语音信息进行多模态的融合,再对指令进行是否为人机交互的二分类。
[0045]采用多模态方案,对于聊天场景下不是人机交互但类似人机交互的指令的对话,可能会发生误判。比如,主驾和副驾在聊天过程中,有一句对话“你唱一首XXX这首歌”。单独通过该对话的多模态信息进行识别,并不能准确判断出是否包括人机交互的指令。
[0046]图1是根据本公开一实施例的对话识别方法的流程示意图,该方法包括:
[0047]S101、根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息;其中,该至少一条第一对话包括在该第二对话之前发生的对话;
[0048]S102、根据该待处理信息进行指令识别,得到指令识别结果。
[0049]本公开实施例中,对话可以包括人们交谈过程中的视频、音频等数据。一条对话可以包括人们说一句话对应的音频和/或视频,也可以包括人们说多句话对应的音频和/或视频等数据。多模态信息是相较于单模态信息而言的,单模态信息包括一种类型的数据。例如,单模态信息包括从音频中识别出的文本数据。多模态信息可以包括多种类型的数据。多模态信息也可以称为多模态数据。例如,多模态信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话识别方法,包括:根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息;其中,所述至少一条第一对话包括在所述第二对话之前发生的对话;根据所述待处理信息进行指令识别,得到指令识别结果。2.根据权利要求1所述的方法,其中,根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息,包括:利用滑动窗口获取所述至少一条第一对话的多模态信息和所述第二对话的多模态信息,所述第二对话为当前对话,所述第一对话为在所述第二对话之前发生且符合所述滑动窗口的长度的对话;根据所述至少一条第一对话对应的切分标签,得到保留的第一对话的多模态信息;将所述保留的第一对话的多模态信息和所述第二对话的多模态信息拼接为所述待处理信息。3.根据权利要求1所述的方法,其中,根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息,包括:利用滑动窗口获取所述至少一条第一对话的多模态信息;根据所述至少一条第一对话对应的切分标签,将所述至少一条第一对话的多模态信息切分得到至少一个对话片段的多模态信息;将所述至少一个对话片段的多模态信息和所述第二对话的多模态信息拼接为所述待处理信息。4.根据权利要求2或3所述的方法,还包括:将所述待处理信息输入对话切分模型,得到所述对话切分模型输出的所述第二对话的切分标签。5.根据权利要求4所述的方法,其中,将所述待处理信息输入对话切分模型,得到所述对话切分模型输出的所述第二对话的切分标签,包括:将所述待处理信息输入对话切分模型的转换层,得到所述转换层输出的分类向量;将所述分类向量输入所述对话切分模型的分类层进行二分类,得到所述第二对话的切分标签。6.根据权利要求4或5所述的方法,其中,所述对话切分模型的输入特征包括对话的以下多模态信息的至少之一:视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔;所述第一对话和/或所述第二对话的切分标签包括:是上一句的继续,或不是上一句的继续。7.根据权利要求1至6中任一项所述的方法,还包括:对待处理对话进行识别得到所述待处理对话的多模态信息;其中,所述待处理对话的多模态信息包括视觉特征、文本信息和文本特征的至少之一,距离前一条对话的时间间隔;所述待处理对话包括所述第一对话和/或所述第二对话。8.根据权利要求7所述的方法,其中,对待处理对话进行识别得到所述待处理对话的多模态信息,包括以下至少之一:对所述待处理对话中的图像进行编码,得到视觉特征;
对所述待处理对话中的语音转化为文本信息,并从所述文本信息中提取文本特征。9.根据权利要求7或8所述的方法,还包括:将提取的文本信息、文本特征和视觉特征的至少之一按照时间顺序保存在队列中。10.根据权利要求1至9中任一项所述的方法,其中,对所述待处理信息进行指令识别,得到指令识别结果,包括:将所述待处理信息输入指令识别模型,得到所述指令识别模型输出指令识别结果,所述指令识别结果包括是否拒识及其对应的置信度。11.一种对话切分模型的训练方法,包括:将至少一条样本对话输入待训练的对话切分模型,得到所述待训练的对话切分模型输出的切分标签;根据所述至少一条样本对话的切分标签与所述待训练的对话切分模型输出的切分标签,对所述待训练的对话切分模型进行更新;在更新后的对话切分模型满足训练完成条件的情况下,得到训练后的对话切分模型。12.根据权利要求11所述的方法,还包括:采用滑动窗口获取所述至少一条样本对话。13.根据权利要求11或12所述的方法,其中,将所述样本对话输入待训练的对话切分模型,得到所述待训练的对话切分模型输出的切分标签,包括:将所述至少一条样本对话的多模态信息或拼接信息输入对话切分模型的转换层,得到所述转换层输出的分类向量;其中,所述对话切分模型输入特征包括所述样本对话的以下多模态信息的至少之一:视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔;所述样本对话的多模态信息对应的切分标签包括:是上一句的继续,或不是上一句的继续;将所述分类向量输入分类层进行二分类,得到所述至少一条样本对话中最后一条对话的切分标签。14.根据权利要求13所述的方法,其中,根据所述至少一条样本对话的切分标签与所述待训练的对话切分模型输出的切分标签,对所述待训练的对话切分模型进行更新,包括:根据所述至少一条样本对话中最后一条对话标注的切分标签和模型输出的切分标签,计算所述待训练的对话切分模型的交叉熵损失函数;根据所述交叉熵损失函数,对所述待训练的对话切分模型进行更新。15.一种对话识别装置,包括:信息获取模块,用于根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息;其中,所述至少一条第一对话包括在所述第二对话之前发生的对话;指令识别模块,用于根据所述待处理信息进行指令识别,得到指令识别结果。16.根据权利要求15所述的装置,其中,所述信息获取模块,...

【专利技术属性】
技术研发人员:任爱林
申请(专利权)人:阿波罗智联北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1