对话方法、装置、设备及存储介质制造方法及图纸

技术编号:37640453 阅读:16 留言:0更新日期:2023-05-25 10:07
本公开提供一种对话方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及人机交互、以及人机对话等技术领域,可应用于智能对话、智能客服、以及聊天机器人等场景下。具体实现方案包括:接收用户的会话信息;会话信息包括以下至少两种类型的会话内容:文本、语音、图片、以及视频;根据会话内容的类型和识别模型之间的对应关系,确定每种类型的会话内容对应的目标识别模型;利用目标识别模型分别识别对应类型的会话内容,得到每种类型的会话内容的识别结果;根据至少两种类型的会话内容的识别结果,确定目标话术;展示目标话术。本公开可以提高对用户的询问的识别精准度。以提高对用户的询问的识别精准度。以提高对用户的询问的识别精准度。

【技术实现步骤摘要】
对话方法、装置、设备及存储介质


[0001]本公开涉及人工智能
,具体涉及人机交互、以及人机对话等
,可应用于智能对话、智能客服、以及聊天机器人等场景下,尤其涉及一种对话方法、装置、设备及存储介质。

技术介绍

[0002]随着计算机技术的不断发展,聊天机器人被广泛应用于各行各业。
[0003]目前聊天机器人可以获取用户的语音信息,并将该语音信息利用自动语音识别技术(automatic speech recognition,ASR)转换为文本,然后基于对文本的识别,理解用户的查询(query),从而生成回复内容,并将回复内容通过从文本到语言(text to speech,TTS)技术将回复内容复述给用户。
[0004]但是,目前的聊天机器人可能无法充分理解用户的意图,无法精准回复用户的查询。

技术实现思路

[0005]本公开提供了一种对话方法、装置、设备及存储介质,能够对文本、语音、图片、以及视频等多模态的输入信息进行融合识别理解,充分理解用户意图,精准回复。
[0006]根据本公开的第一方面,提供了一种对话方法,该方法包括:接收用户的会话信息;会话信息包括以下至少两种类型的会话内容:文本、语音、图片、以及视频;根据会话内容的类型和识别模型之间的对应关系,确定每种类型的会话内容对应的目标识别模型;利用目标识别模型分别识别对应类型的会话内容,得到每种类型的会话内容的识别结果;根据至少两种类型的会话内容的识别结果,确定目标话术;展示目标话术。
[0007]根据本公开的第二方面,提供了一种对话装置,该装置包括:获取模块,用于接收用户的会话信息;会话信息包括以下至少两种类型的会话内容:文本、语音、图片、以及视频;处理模块,用于根据会话内容的类型和识别模型之间的对应关系,确定每种类型的会话内容对应的目标识别模型;利用目标识别模型分别识别对应类型的会话内容,得到每种类型的会话内容的识别结果;根据至少两种类型的会话内容的识别结果,确定目标话术;展示目标话术。
[0008]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面的方法。
[0009]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据第一方面所述的方法。
[0010]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的方法。
[0011]本公开可以针对包括多种类型(例如文本、语音、图片、以及视频)会话内容的用户
会话信息分别采用对应的目标识别模型进行识别和理解,得到对应于不同类型会话内容的识别结果,并结合不同类型会话内容的识别结果,确定出目标话术,向用户回复。与目前的文本识别或语音识别的方案相比,可以对多模态的输入信息(即包括多种类型会话内容的会话信息)分别采用对应的识别模型进行识别和理解,提高对不同类型的会话内容进行识别的准确性。并能够对不同类型会话内容对应的识别结果进行结合以得到目标话术,从而基于多种类型的会话内容充分理解用户意图,提高回复的话术的准确性,提升与用户交互的效率和用户体验。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1为本公开实施例提供的对话方法的流程示意图;
[0015]图2为本公开实施例提供的对话方法的另一种流程示意图;
[0016]图3为本公开实施例提供的对话方法的另一种流程示意图;
[0017]图4为本公开实施例提供的对话方法的另一种流程示意图;
[0018]图5为本公开实施例提供的对话装置的组成示意图;
[0019]图6为本公开实施例提供的电子设备的组成示意图。
具体实施方式
[0020]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0021]应当理解,在本公开各实施例中,字符“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
[0022]随着计算机技术的不断发展,聊天机器人被广泛应用于各行各业。
[0023]目前聊天机器人可以获取用户的语音信息,并将该语音信息利用自动语音识别技术(automatic speech recognition,ASR)转换为文本,然后基于对文本的识别,理解用户的查询(query),从而生成回复内容,并将回复内容通过从文本到语言(text to speech,TTS)技术将回复内容复述给用户。
[0024]但是,目前的聊天机器人可能仅局限于文字和语音的识别,无法充分理解用户的意图,无法精准回复用户的查询。
[0025]在此基础上,本公开提供了一种对话方法,可以通过对用户输入的多模态的会话信息(即包括至少两种会话内容的会话信息)进行识别,充分理解用户的查询(query)意图,提高回复话术的精准度。
[0026]本公开实施例提供的对话方法的执行主体可以是计算机或服务器,或者还可以是其他具有数据处理能力的电子设备;或者,该方法的执行主体也可以是上述电子设备中的
处理器(例如中央处理器(central processing unit,CPU));再或者,该方法的执行主体还可以是上述电子设备中安装的提供对话功能的应用程序(application,APP);又或者,该方法的执行主体又可以是上述电子设备中具有对话功能的功能模块或单元等。在此对该方法的执行主体不作限制。
[0027]一些实施例中,服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。
[0028]下面结合附图对该对话方法进行示例性说明。
[0029]图1为本公开实施例提供的对话方法的流程示意图。如图1所示,该方法可以包括:
[0030]S101、接收用户的会话信息。
[0031]其中,会话信息可以包括以下至少两种类型的会话内容:文本、语音、图片、以及视频。
[0032]例如,执行该方法的执行主体可以是聊天机器人服务器,该聊天机器人服务器可以与用户设备(例如手机、平板电脑、或者笔记本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对话方法,其特征在于,所述方法包括:接收用户的会话信息;所述会话信息包括以下至少两种类型的会话内容:文本、语音、图片、以及视频;根据会话内容的类型和识别模型之间的对应关系,确定每种类型的所述会话内容对应的目标识别模型;利用所述目标识别模型分别识别对应类型的所述会话内容,得到每种类型的所述会话内容的识别结果;根据所述至少两种类型的所述会话内容的识别结果,确定目标话术;展示所述目标话术。2.根据权利要求1所述的方法,其特征在于,所述根据所述至少两种类型的所述会话内容的识别结果,确定目标话术,包括:对所述至少两种类型的所述会话内容的识别结果中的字段进行融合,得到目标字段;根据预设字段和预设话术的对应关系,从所述预设话术中确定与所述目标字段匹配的目标话术。3.根据权利要求2所述的方法,其特征在于,所述对所述至少两种类型的所述会话内容的识别结果中的字段进行融合,得到目标字段,包括:获取每种类型的所述会话内容的识别结果中的字段;对所述至少两种类型的所述会话内容的识别结果中的字段取交集,得到所述目标字段。4.根据权利要求1所述的方法,其特征在于,所述根据所述至少两种类型的所述会话内容的识别结果,确定目标话术,包括:获取每种类型的所述会话内容的识别结果中的字段;根据预设字段和预设话术的对应关系,从所述预设话术中确定与所述至少两种类型的所述会话内容的识别结果中的每个字段分别匹配的待选话术;对所有的所述待选话术进行融合,得到所述目标话术。5.根据权利要求4所述的方法,其特征在于,所述对所有的所述待选话术进行融合,得到所述目标话术,包括:对所有的所述待选话术取交集,得到所述目标话术。6.根据权利要求1所述的方法,其特征在于,所述目标话术包括至少两个,所述展示所述目标话术包括:根据所述用户的历史会话记录中的上下文内容,从至少两个所述目标话术中确定与所述上下文内容相关的一个进行展示。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:向服务器发送所述会话信息的每种类型的所述会话内容的识别结果;接收所述服务器发送的推荐信息;所述推荐信息与所述会话内容的识别结果相关;展示会话评价界面;所述会话评价界面包括多个评价选项;响应于所述用户对所述多个评价选项中的任意一个评价选项的触发操作,展示预设信息和所述推荐信息。8.一种对话装置,其特征在于,所述装置包括:
获取模块,接收用户的会话信息;所述会话信息包括以下至少两种类型的会话内容:文本、语音、图片、以及视频;处理模块,用于根据会话内容的类型和识别模型之间的对应关系,确定每种类型...

【专利技术属性】
技术研发人员:李梦倩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1