【技术实现步骤摘要】
对话识别方法、装置、设备以及存储介质
[0001]本公开涉及人工智能
,尤其涉及语言识别、图像识别、语义理解、自动驾驶等
技术介绍
[0002]在采用语音助手识别人机交互对话应用,全双工可以指语音助手和人可以同时说和听以实现双向沟通。在全双工的场景下,人们之间的交谈可能影响语音助手的识别结果。例如,车辆内部空间小,人与人之间的距离近,人与车机的距离也近。车机中的车载语音助手可能无法准确识别出,某个对话是人与人之间的对话,还是需要人机交互的对话。
技术实现思路
[0003]本公开提供了一种对话识别方法、装置、设备以及存储介质。
[0004]根据本公开的一方面,提供了一种对话识别方法,包括:
[0005]根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息;其中,该至少一条第一对话包括在该第二对话之前发生的对话;
[0006]根据该待处理信息进行指令识别,得到指令识别结果。
[0007]根据本公开的另一方面,提供了一种对话切分模型的训练方法,包括:
[0008]将至少一条样本对话输入待训练的对话切分模型,得到该待训练的对话切分模型输出的切分标签;
[0009]根据该至少一条样本对话的切分标签与该待训练的对话切分模型输出的切分标签,对该待训练的对话切分模型进行更新;
[0010]在更新后的对话切分模型满足训练完成条件的情况下,得到训练后的对话切分模型。
[0011]根据本公开的另一方面,提供了一种对话识别装置, ...
【技术保护点】
【技术特征摘要】
1.一种对话识别方法,包括:根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息;其中,所述至少一条第一对话包括在所述第二对话之前发生的对话;根据所述待处理信息进行指令识别,得到指令识别结果。2.根据权利要求1所述的方法,其中,根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息,包括:利用滑动窗口获取所述至少一条第一对话的多模态信息和所述第二对话的多模态信息,所述第二对话为当前对话,所述第一对话为在所述第二对话之前发生且符合所述滑动窗口的长度的对话;根据所述至少一条第一对话对应的切分标签,得到保留的第一对话的多模态信息;将所述保留的第一对话的多模态信息和所述第二对话的多模态信息拼接为所述待处理信息。3.根据权利要求1所述的方法,其中,根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息,包括:利用滑动窗口获取所述至少一条第一对话的多模态信息;根据所述至少一条第一对话对应的切分标签,将所述至少一条第一对话的多模态信息切分得到至少一个对话片段的多模态信息;将所述至少一个对话片段的多模态信息和所述第二对话的多模态信息拼接为所述待处理信息。4.根据权利要求2或3所述的方法,还包括:将所述待处理信息输入对话切分模型,得到所述对话切分模型输出的所述第二对话的切分标签。5.根据权利要求4所述的方法,其中,将所述待处理信息输入对话切分模型,得到所述对话切分模型输出的所述第二对话的切分标签,包括:将所述待处理信息输入对话切分模型的转换层,得到所述转换层输出的分类向量;将所述分类向量输入所述对话切分模型的分类层进行二分类,得到所述第二对话的切分标签。6.根据权利要求4或5所述的方法,其中,所述对话切分模型的输入特征包括对话的以下多模态信息的至少之一:视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔;所述第一对话和/或所述第二对话的切分标签包括:是上一句的继续,或不是上一句的继续。7.根据权利要求1至6中任一项所述的方法,还包括:对待处理对话进行识别得到所述待处理对话的多模态信息;其中,所述待处理对话的多模态信息包括视觉特征、文本信息和文本特征的至少之一,距离前一条对话的时间间隔;所述待处理对话包括所述第一对话和/或所述第二对话。8.根据权利要求7所述的方法,其中,对待处理对话进行识别得到所述待处理对话的多模态信息,包括以下至少之一:对所述待处理对话中的图像进行编码,得到视觉特征;
对所述待处理对话中的语音转化为文本信息,并从所述文本信息中提取文本特征。9.根据权利要求7或8所述的方法,还包括:将提取的文本信息、文本特征和视觉特征的至少之一按照时间顺序保存在队列中。10.根据权利要求1至9中任一项所述的方法,其中,对所述待处理信息进行指令识别,得到指令识别结果,包括:将所述待处理信息输入指令识别模型,得到所述指令识别模型输出指令识别结果,所述指令识别结果包括是否拒识及其对应的置信度。11.一种对话切分模型的训练方法,包括:将至少一条样本对话输入待训练的对话切分模型,得到所述待训练的对话切分模型输出的切分标签;根据所述至少一条样本对话的切分标签与所述待训练的对话切分模型输出的切分标签,对所述待训练的对话切分模型进行更新;在更新后的对话切分模型满足训练完成条件的情况下,得到训练后的对话切分模型。12.根据权利要求11所述的方法,还包括:采用滑动窗口获取所述至少一条样本对话。13.根据权利要求11或12所述的方法,其中,将所述样本对话输入待训练的对话切分模型,得到所述待训练的对话切分模型输出的切分标签,包括:将所述至少一条样本对话的多模态信息或拼接信息输入对话切分模型的转换层,得到所述转换层输出的分类向量;其中,所述对话切分模型输入特征包括所述样本对话的以下多模态信息的至少之一:视觉特征、文本信息、文本特征、是否拒识、是否为唤醒之后、距离前一条对话的时间间隔;所述样本对话的多模态信息对应的切分标签包括:是上一句的继续,或不是上一句的继续;将所述分类向量输入分类层进行二分类,得到所述至少一条样本对话中最后一条对话的切分标签。14.根据权利要求13所述的方法,其中,根据所述至少一条样本对话的切分标签与所述待训练的对话切分模型输出的切分标签,对所述待训练的对话切分模型进行更新,包括:根据所述至少一条样本对话中最后一条对话标注的切分标签和模型输出的切分标签,计算所述待训练的对话切分模型的交叉熵损失函数;根据所述交叉熵损失函数,对所述待训练的对话切分模型进行更新。15.一种对话识别装置,包括:信息获取模块,用于根据至少一条第一对话的多模态信息和第二对话的多模态信息,得到待处理信息;其中,所述至少一条第一对话包括在所述第二对话之前发生的对话;指令识别模块,用于根据所述待处理信息进行指令识别,得到指令识别结果。16.根据权利要求15所述的装置,其中,所述信息获取模块,...
【专利技术属性】
技术研发人员:任爱林,
申请(专利权)人:阿波罗智联北京科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。