System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及车辆,尤其涉及全场景语音交互,具体涉及一种语音指令交互方法、装置、电子设备及存储介质。
技术介绍
1、由于驾驶员在驾驶过程中需要专注于路况信息,使得语音交互成为智能座舱的标配核心功能。在语音交互过程中,车载终端通常对驾驶员输入的语音转换得到的文本信息进行匹配,然后根据匹配结果,得到操作指令,并执行该操作指令。
2、然而,目前在进行语音交互时,对于连续长语音或特殊说法往往需要采用定制化语音进行交互,才可以匹配到对应的指令,实现驾驶员的操作意图。导致语音交互的泛化能力弱,无法准确洞悉驾驶员的操作意图。
技术实现思路
1、本申请提供一种语音指令交互方法、装置、电子设备及存储介质,以解决相关技术中对于连续长语音或特殊说法往往需要采用定制化语音进行交互的技术问题。本申请的技术方案如下:
2、根据本申请涉及的第一方面,提供一种语音指令交互方法,包括:
3、接收音频信息,并将音频信息转为第一文本信息;音频信息用于反映用户意图;在第一文本信息满足第一条件的情况下,从数据库中获取第一文本信息匹配的第二文本信息;第一条件用于标识第一文本信息为问答类信息或查询类信息;根据音频信息、第一文本信息、第二文本信息和车载终端当前界面的界面信息,生成与用户意图匹配的回复指令。
4、通过上述技术手段,本申请可以在接收到音频信息后,将音频信息转为第一文本信息,并在第一文本信息为问答类信息或查询类信息的情况下,结合音频信息、第一文本信息、与第一文本信息匹配的第二
5、在一种可能的实施方式中,该方法还包括:
6、在第一文本信息满足第二条件的情况下,将音频信息、第一文本信息和车载终端当前界面的界面信息输入至预先训练的多模态模型中,得到与用户意图匹配的操作指令;第二条件用于标识第一文本信息为控制类信息;操作指令用于指示对界面信息中的目标被控对象执行对应的控制操作。
7、通过上述技术方案,本申请可以在第一文本信息为控制类信息的情况下,结合音频信息、第一文本信息和车载终端当前界面的界面信息,得到对界面信息中的目标被控对象执行对应的控制操作的操作指令。因此,可以直接从当前界面的界面信息中匹配与出目标被控对象,并得到对目标被控对象执行控制操作的操作指令,可以有效提高语音交互的效率,快速洞悉驾驶员的操作意图。
8、在一种可能的实施方式中,根据音频信息、第一文本信息、第二文本信息和车载终端当前界面的界面信息,生成与用户意图匹配的回复指令,包括:
9、将音频信息、界面信息、第一文本信息和第二文本信息输入至预先训练的多模态模型中,生成与用户意图匹配的回复指令。
10、通过上述技术方案,可以融合当前界面的界面信息(也即图像信息)、音频信息、第一文本信息和第二文本信息等多模态特征,并结合预先训练的多模态模型,生成与用户意图匹配的指令。因此,可以实现全场景端到端的可见即可说。
11、在一种可能的实施方式中,多模态模型包括图像处理模型、音频处理模型和生成式语言大模型;将音频信息、界面信息、第一文本信息和第二文本信息输入至预先训练的多模态模型中,生成与用户意图匹配的回复指令,包括:
12、将音频信息输入至音频处理模型中,得到音频信息对应的音频特征信息;将界面信息输入至图像处理模型中,得到界面信息对应的界面特征信息;将音频特征信息、界面特征信息、第一文本信息和第二文本信息输入至生成式语言大模型中,生成与用户意图匹配的回复指令。
13、通过上述技术方案,多模态模型中可以包括图像处理模型、音频处理模型和生成式语言大模型,因此,在对界面信息、音频信息、第一文本信息和第二文本信息等多模态信息进行处理时,可以通过图像处理模型对界面信息进行处理,通过音频处理模型对音频信息进行处理,通过生成式语言大模型对多模态特征进行融合处理,因此,在实现全场景端到端的可见即可说的基础上,还可以进一步提升洞悉驾驶员的操作意图的准确性,进而准确指示车载终端执行对应的功能事件。
14、在一种可能的实施方式中,数据库包括向量数据库和文本数据库;从数据库中获取第一文本信息匹配的第二文本信息,包括:
15、确定第一文本信息对应的第一文本向量;从向量数据库中查找与第一文本向量匹配的第二文本向量;从文本数据库中获取第二文本向量对应的第二文本信息。
16、通过上述技术方案,可以在预设的文本数据库中获取到与第一文本信息匹配的第二文本信息,以使后续可以结合第二文本信息对用户意图匹配的指令进行确定,有效提升洞悉驾驶员的操作意图的准确性,进而准确指示车载终端执行对应的功能事件。
17、在一种可能的实施方式中,用户意图为用户查询意图;第一文本信息包括一个或多个关键词;回复指令中包含的内容包括与一个或多个关键词相关的信息。
18、在一种可能的实施方式中,用户意图为用户的车辆控制意图;第一文本信息包括一个或多个关键词;操作指令包括一个或多个关键词对应的功能事件。
19、根据本申请提供的第二方面,提供一种语音指令交互装置,该装置包括:转换单元、获取单元和生成单元,其中:
20、转换单元,用于接收音频信息,并将音频信息转为第一文本信息;音频信息用于反映用户意图;
21、获取单元,用于在第一文本信息满足第一条件的情况下,从数据库中获取第一文本信息匹配的第二文本信息;第一条件用于标识第一文本信息为问答类信息或查询类信息;
22、生成单元,用于根据音频信息、第一文本信息、第二文本信息和车载终端当前界面的界面信息,生成与用户意图匹配的回复指令。
23、在一种可能的实施方式中,该装置还包括处理单元,该处理单元具体用于:
24、在第一文本信息满足第二条件的情况下,将音频信息、第一文本信息和车载终端当前界面的界面信息输入至预先训练的多模态模型中,得到与用户意图匹配的操作指令;第二条件用于标识第一文本信息为控制类信息;操作指令用于指示对界面信息中的目标被控对象执行对应的控制操作。
25、在一种可能的实施方式中,生成单元具体用于:
26、将音频信息、界面信息、第一文本信息和第二文本信息输入至预先训练的多模态模型中,生成与用户意图匹配的回复指令。
27、在一种可能的实施方式中,多模态模型包括图像处理模型、音频处理模型和生成式语言大模型;生成单元具体用于:
28、将音频信息输入至音频处理模型中,得到音频信息对应的音频特征信息;将界面信息输入至图像处理模型中,得到界面信息对应的界面特征信息;将音频特征信息、界面特征信息、第一文本信息和第二文本信息输入至生成式语言大模型中,生成与用户意图匹配的回复指令。
29本文档来自技高网...
【技术保护点】
1.一种语音指令交互方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述音频信息、所述第一文本信息、所述第二文本信息和所述车载终端当前界面的界面信息,生成与所述用户意图匹配的回复指令,包括:
4.根据权利要求3所述的方法,其特征在于,所述多模态模型包括图像处理模型、音频处理模型和生成式语言大模型;
5.根据权利要求1所述的方法,其特征在于,所述数据库包括向量数据库和文本数据库;
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述用户意图为用户查询意图;所述第一文本信息包括一个或多个关键词;所述回复指令中包含的内容包括与所述一个或多个关键词相关的信息。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述用户意图为所述用户的车辆控制意图;所述第一文本信息包括一个或多个关键词;所述操作指令包括所述一个或多个关键词对应的功能事件。
8.一种语音指令交互装置,其特征在于,所述装置包括:转换单元、获
9.根据权利要求8所述的装置,其特征在于,所述装置还包括处理单元,所述处理单元具体用于:
10.根据权利要求8所述的装置,其特征在于,所述生成单元具体用于:
11.一种电子设备,其特征在于,包括:
12.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中存储的计算机执行指令由电子设备的处理器执行时,所述电子设备能够执行如权利要求1-7中任一项所述的语音指令交互方法。
...【技术特征摘要】
1.一种语音指令交互方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述音频信息、所述第一文本信息、所述第二文本信息和所述车载终端当前界面的界面信息,生成与所述用户意图匹配的回复指令,包括:
4.根据权利要求3所述的方法,其特征在于,所述多模态模型包括图像处理模型、音频处理模型和生成式语言大模型;
5.根据权利要求1所述的方法,其特征在于,所述数据库包括向量数据库和文本数据库;
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述用户意图为用户查询意图;所述第一文本信息包括一个或多个关键词;所述回复指令中包含的内容包括与所述一个或多个关键词相关的信息。
【专利技术属性】
技术研发人员:刘大全,张洪健,
申请(专利权)人:重庆长安汽车股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。