System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及车辆领域,具体涉及一种车辆语音交互的方法、装置、设备、车辆及存储介质。
技术介绍
1、随着人工智能和语音识别技术的飞速发展,语音交互技术已经成为汽车智能化的重要组成部分。这种技术允许驾驶者通过语音命令来控制汽车的各种功能,如音乐播放、导航、空调调节等,从而无需手动操作,减少了用户在驾驶过程中的分心,提高驾驶安全。
2、目前,第三方应用如果要支持可见即可说的功能,一般都会提供相关功能接口才能达到该场景功能,实现方案成本较高,接入周期长。针对该问题,目前已有技术通过图文识别技术,提取页面图片的文字以及其对应的坐标,然后通过模拟点击事件达到可见即可说的效果。
3、但是,上述方式只能实现点击显示页面中的某个位置,对于页面中没有直接显示文字的区域不能操作,无法理解用户意图。例如,用户可以通过语音控制播放页面中有的视频,而没办法搜索需要的视频。因此,如何设计能够理解用户意图的可见即可说的方案是亟待解决的问题。
技术实现思路
1、本专利技术的目的之一在于提供一种车辆语音交互的方法,以解决现有技术中不能对页面中没有显示文字的区域执行操作,无法理解用户意图的问题;目的之二在于提供一种车辆语音交互的装置;目的之三在于提供一种电子设备;目的之四在于提供一种车辆;目的之五在于提供一种存储截止。
2、为了实现上述目的,本专利技术采用的技术方案如下:
3、第一方面,本专利技术提供一种车辆语音交互的方法,所述方法包括:
4、获取用户语音文
5、根据所述用户语音文本、所述xml信息和预设的提示词模版,构建提示词;
6、将所述提示词输入视觉语言大模型,得到对车机操作的控制指令;
7、执行所述控制指令。
8、根据上述技术手段,提示词中的xml信息涵盖了页面中所有的控件以及控件属性描述,因此,可以对页面中所有控件都可以执行操作,而不仅局限于对页面中的文字部分进行操作,另外,通过提示词模版中指示了任务以及可供使用的指令,这样可以使视觉语言大模型更容易理解用户意图,提高交互的准确度。
9、进一步,所述方法还包括:
10、在执行所述控制指令之后,获取车机新的显示页面的新的xml信息;
11、根据所述用户语音文本、所述控制指令、所述新的xml信息和预设的交互提示词模版,构建交互提示词,其中,所述交互提示词包括历史操作的控制指令;
12、将所述交互提示词输入所述视觉语言大模型,得到对车机操作的新的控制指令;
13、执行所述新的控制指令,直至所述新的控制指令包括完成用户需求的标识。
14、根据上述技术手段,基于用户最初输入的语音,大模型和车机需要经过多个交互才能到达最后目的,在交互过程中将历史操作都输入到大模型中。自动进行多轮交互,不再需要用户在每个页面都通过语音下达指令,减少用户输入次数,提高用户体验。
15、进一步,若所述控制指令中没有交互控件的标识,所述方法还包括:
16、获取所述车机当前显示页面的截图;
17、将所述截图和所述提示词输入所述视觉语言大模型,得到对车机操作的新的控制指令和交互坐标;
18、对所述交互坐标的控件执行所述新的控制指令。
19、根据上述技术手段,在某些特殊情况下,无法获取某个控件或页面模块的xml信息,此时,大模型无法识别到对应位置而操作失败,通过将截图和提示词发送到大模型中再次尝试,完善只通过xml执行语音交互的缺陷,提高语音交互操作的准确度。
20、进一步,所述根据所述用户语音文本、所述xml信息和预设的提示词模版,构建提示词,包括:
21、在所述提示词模版的第一位置写入所述用户语音文本,并在所述提示词模版的第二位置写入所述xml信息,得到所述提示词;其中,所述xml信息包括所述车机当前显示页面中的每个控件的标识和所述每个控件的属性描述;所述提示词模版包括以下至少一种指示输出的控制指令:点击操作、长按操作、输入操作、滑动操作和完成操作。
22、根据上述技术手段,提示词中包括任务指令、xml信息以及可以使用的指令,这样使输出的指令格式在预设的范围内,保证车机可以执行该指令。
23、进一步,所述提示词模版还包括车机所有应用程序的包名名称。
24、根据上述技术手段,在最初的提示词中包括所有应用程序的包名,应对用户打开某个应用的指令。
25、进一步,获取车机当前显示页面的xml信息,包括:
26、获取车机当前显示页面的控件集合;
27、对于每个控件,将控件的文本属性和描述属性作为xml元素的内容,并将控件的交互属性作为xml元素的标签;
28、为xml元素分配索引号作为控件的标识;
29、根据所述xml元素的内容、所述xml元素的标签和所述索引号,得到所述xml信息。
30、根据上述技术手段,在构建xml信息,对每个xml元素进行索引编号,方便对某一索引号执行控制指令,提高执行效率和准确度。
31、进一步,所述方法还包括:
32、判断所述xml元素的内容中是否包括预设的黑名单词汇;
33、若所述xml元素的内容中包括所述黑名单词汇,则关闭所述xml元素对应的控件,并重新生成xml信息。
34、根据上述技术手段,通过黑名单词汇过滤,可以避免页面中广告对页面的遮挡。
35、第二方面,本专利技术还提供一种车辆语音交互的装置,所述装置包括:
36、获取模块,用于获取用户语音文本和车机当前显示页面的xml信息;
37、提示词模块,用于根据所述用户语音文本、所述xml信息和预设的提示词模版,构建提示词;
38、大模型模块,用于将所述提示词输入视觉语言大模型,得到对车机操作的控制指令;
39、动作模拟模块,用于执行所述控制指令。
40、进一步,
41、获取模块还用于在执行所述控制指令之后,获取车机新的显示页面的新的xml信息;
42、提示词模块还用于根据所述用户语音文本、所述控制指令、所述新的xml信息和预设的交互提示词模版,构建交互提示词,其中,所述交互提示词包括历史操作的控制指令;
43、大模型模块还用于将所述交互提示词输入所述视觉语言大模型,得到对车机操作的新的控制指令;
44、动作模拟模块还用于执行所述新的控制指令,直至所述新的控制指令包括完成用户需求的标识。
45、进一步,
46、获取模块还用于获取所述车机当前显示页面的截图;
47、大模型模块还用于将所述截图和所述提示词输入所述视觉语言大模型,得到对车机操作的新的控制指令和交互坐标;
48、动作模拟模块还用于对所述交互坐标的控件执行所述新的控制指令。
49、进一步,所本文档来自技高网...
【技术保护点】
1.一种车辆语音交互的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,若所述控制指令中没有交互控件的标识,所述方法还包括:
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述用户语音文本、所述xml信息和预设的提示词模版,构建提示词,包括:
5.根据权利要求4所述的方法,其特征在于,所述提示词模版还包括车机所有应用程序的包名名称。
6.根据权利要求1至3任一项所述的方法,其特征在于,获取车机当前显示页面的xml信息,包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.一种车辆语音交互的装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:存储器,处理器;
10.一种车辆,其特征在于,包括车机,所述车机用于执行如权利要求1-7任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指
...【技术特征摘要】
1.一种车辆语音交互的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,若所述控制指令中没有交互控件的标识,所述方法还包括:
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述用户语音文本、所述xml信息和预设的提示词模版,构建提示词,包括:
5.根据权利要求4所述的方法,其特征在于,所述提示词模版还包括车机所有应用程序的包名名称。
6.根据权利要求1至3任一项所述的方法,...
【专利技术属性】
技术研发人员:牛晓龙,
申请(专利权)人:重庆长安汽车股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。