语音交互方法、车辆和计算机可读存储介质技术

技术编号:23787632 阅读:19 留言:0更新日期:2020-04-15 00:47
本发明专利技术实施例提供了一种语音交互方法、车辆和计算机可读存储介质,其中方法包括:接收并对车辆内用户的语音请求进行语义识别;根据语义识别结果查询除语音模态外相关的模态信息;根据查询结果执行模态关系推理;根据推理获得的若干个候选方案,确定并执行最佳方案以响应语音请求。本发明专利技术中,语音交互的过程会结合除语音模态外相关的模态信息完成对话上下文的判断,不需要用户多次进行语音对话确认,即可完整推断出用户的言外之意,保证了用户使用日常生活中简洁自然的语言来和语音助手进行交互,改善了车载环境下的使用体验。

Voice interaction method, vehicle and computer readable storage medium

【技术实现步骤摘要】
语音交互方法、车辆和计算机可读存储介质
本专利技术涉及语音
,特别是涉及一种语音交互方法、车辆和计算机可读存储介质。
技术介绍
随着新一代智能网联汽车的逐步普及,人与车之间基于自然语音对话的人机交互方式成为强需求。车载场景中人与车的交互过程是多模态交互,人对车的输入除了语音之外,还需要考虑车辆状态以及车载设备的状态,车内用户的表情和情绪,以及对车辆的操控和车载大屏的点击动作等。当前的车载语音对话,使用基于语义的框架表示这种知识表示方法,对用户语音请求(Query)分类别定义好结构化的字段,便于理解和指令执行,这种方法只支持对用户对话在语音模态的上下文计算,无法很好的支持包括多模态交互的复杂场景下的对话。究其原因,是由于基于语义的框架表示方法需要预先设置字段定义,无法描述多模态的动态信息,也无法描述模态间的动态关系。业界对于关系的描述常用的是知识图谱技术。该技术使用语义网络表示方法,将信息定义成实体+关系的网络结构,便于实现知识的查询和推理。但这种方法由于对实体有大量计算,难以描述复杂的模态信息。由上可知,亟需一种支持车载场景下多模态交互的语音交互方法。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音交互方法、车辆和计算机可读存储介质。为了解决上述问题,本专利技术实施例公开了一种语音交互方法,其特征在于,包括:接收并对车辆内用户的语音请求进行语义识别;根据语义识别结果查询除语音模态外相关的模态信息;根据查询结果执行模态关系推理;根据推理获得的若干个候选方案,确定并执行最佳方案以响应语音请求。进一步地,该方法还包括:通过知识表示方法建立包括结构化字段的模板;其中,该字段用于表示模态信息的语义;采集车辆相关的所有数据;利用模板对采集结果进行上下文信息处理,获得单个模态信息的知识表示。进一步地,该方法还包括:预先建立包括模态类型和模态名称在内的多模态信息索引;则根据语义识别结果查询除语音模态外其他的模态信息,包括:根据语义识别结果,利用多模态信息索引查询除语音模态外其他的模态信息。进一步地,根据语义识别结果,利用多模态信息索引查询除语音模态外相关的模态信息包括:通过命名实体识别模型获得槽位实体信息;将槽位实体信息映射到多模态信息索引中的模态类型;查询该模态类型下对应的模态名称;根据模态名称确定除语音模态外相关的模态信息。进一步地,该方法还包括:预先建立包括关系类型和关系在内的关系索引;根据关系类型利用预设的关系规则模板,计算出模态信息间的关系值并存储到关系索引中。进一步地,根据查询结果执行模态关系推理,包括:根据对话意图分类映射到关系索引中,获得和当前意图匹配的关系类型;利用意图信息在多模态信息索引中查找到匹配的模态类型;根据匹配的关系类型和模态类型在关系索引中查询到匹配的关系;根据匹配的关系确定相关车辆部件。进一步地,根据推理结果获得若干个候选方案,包括:根据相关车辆部件,获得包括相关车辆部件的执行指令的若干个候选方案。进一步地,从候选方案中确定并执行最佳方案以响应语音请求,包括:根据预设的业务规则,对若干个候选方案进行排序;根据排序结果确定并执行最佳方案以响应语音请求。本专利技术还提出一种车辆,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的语音交互方法的步骤。本专利技术还提出一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述的语音交互方法的步骤。本专利技术实施例包括以下优点:本专利技术中,语音交互的过程会结合除语音模态外相关的模态信息完成对话上下文的判断,不需要用户多次进行语音对话确认,即可完整推断出用户的言外之意,保证了用户使用日常生活中简洁自然的语言来和语音助手进行交互,改善了车载环境下的使用体验。附图说明图1是本专利技术的一种语音交互方法实施例的步骤流程图;图2是本专利技术的一种车载多模态上下文信息示意图;图3是本专利技术的又一种车载多模态上下文信息示意图;图4是本专利技术的另一种车载多模态上下文信息示意图;图5是本专利技术的再一种车载多模态上下文信息示意图;图6是本专利技术的语音交互装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。大多数车载对话系统,使用基于语义的框架表示这种知识表示方法,对用户语音请求(Query)分类别定义好结构化的字段,便于理解和指令执行,这种方法只支持对用户对话语音模态的上下文计算,无法很好的支持多模态交互场景下的对话。本专利技术实施例的核心构思之一在于,结合了车载场景下的各种模态信息来完成语音交互过程。具体地,在语音交互中能较好的结合当前车辆以及车载设备状态、用户对车辆的操控和车载大屏的点击动作、大屏界面上正在运行的应用程序(即App)、车内的温度等各种模态信息,推测出用户的真实意图。比如:当车辆内的用户说“太热了”,对话系统可以结合车内温度和车外温度,判断是打开车窗通风、或者打开空调降温、或者同时进行等。再比如当用户说“不听他的歌”,对话系统可以根据中控屏幕上正在播放的音乐,切换另外一个歌手。参照图1,示出了本专利技术的一种语音交互方法实施例的步骤流程图,该方法的动作执行对象为车辆,具体可以包括如下步骤:S1,接收并对车辆内用户的语音请求进行语义识别;S2,根据语义识别结果查询除语音模态外相关的模态信息;S3,根据查询结果执行模态关系推理;S4,根据推理结果获得若干个候选方案;S5,从候选方案中确定并执行最佳方案以响应语音请求。本专利技术中,车辆对接收的语音请求进行语义识别后,查询除语音模态外相关的模态信息,并利用相关的模态信息执行模态关系推理,进而完成对话上下文的判断,然后输出若干个可供执行的候选方案,从这些候选方案中确定最佳方案来执行,整个过程不需要用户多次进行语音对话确认,即可完整推断出用户的言外之意,保证了用户使用日常生活中简洁自然的语言来和语音助手进行交互,改善了车载环境下的使用体验。下面具体来说明本方案中的语音交互全过程。S1中,车辆内的用户向车辆上的语音助手或者人工智能(ArtificialIntelligence,缩写为AI)助手发出语音请求(Query),车辆接收该请求并进行语义识别。语义识别的过程可以是由车辆在本地完成,也可以是由车辆通过与语音服务器之间的交互完成,在此不作限制。通常语义识别结果包括领域(Domain)、意图(Intent)和槽本文档来自技高网...

【技术保护点】
1.一种语音交互方法,其特征在于,包括:/n接收并对车辆内用户的语音请求进行语义识别;/n根据语义识别结果查询除语音模态外相关的模态信息;/n根据查询结果执行模态关系推理;/n根据推理结果获得若干个候选方案;/n从候选方案中确定并执行最佳方案以响应语音请求。/n

【技术特征摘要】
1.一种语音交互方法,其特征在于,包括:
接收并对车辆内用户的语音请求进行语义识别;
根据语义识别结果查询除语音模态外相关的模态信息;
根据查询结果执行模态关系推理;
根据推理结果获得若干个候选方案;
从候选方案中确定并执行最佳方案以响应语音请求。


2.如权利要求1所述语音交互方法,其特征在于,该方法还包括:
通过知识表示方法建立包括结构化字段的模板;其中,该字段用于表示模态信息的语义;
采集车辆相关的所有数据;
利用模板对采集结果进行上下文信息处理,获得单个模态信息的知识表示。


3.如权利要求2所述语音交互方法,其特征在于,该方法还包括:预先建立包括模态类型和模态名称在内的多模态信息索引;
则根据语义识别结果查询除语音模态外其他的模态信息,包括:
根据语义识别结果,利用多模态信息索引查询除语音模态外其他的模态信息。


4.如权利要求3所述语音交互方法,其特征在于,根据语义识别结果,利用多模态信息索引查询除语音模态外相关的模态信息包括:
通过命名实体识别模型获得槽位实体信息;
将槽位实体信息映射到多模态信息索引中的模态类型;
查询该模态类型下对应的模态名称;
根据模态名称确定除语音模态外相关的模态信息。


5.如权利要求4所述语音交互方法,其特征在于,该方法还包括:
预先建立包括关...

【专利技术属性】
技术研发人员:易晖赵耀韩传宇翁志伟
申请(专利权)人:广州小鹏汽车科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1