一种基于大语言模型的车载聚合场景交互方法技术

技术编号：43397094 阅读：33 留言：0更新日期：2024-11-19 18:13

本申请公开了一种基于大语言模型的车载聚合场景交互方法，其特征在于，包括：获取用户的输入Query并转化为ASR文本，所述用户的输入Query包括按键输入及语音信号；采用预训练的大语言模型对所述ASR文本进行场景标识得到被场景标识的ASR文本，所述场景标识包括智能车书场景、AI向导场景、多媒体智能搜索场景、百科闲聊场景、AIGC场景及其他场景；设置与场景标识对应的场景处理组并根据所述被场景标识的ASR文本使用对应的所述场景处理组生成回答文本，所述场景处理组包括智能车书场景处理组、AI向导场景处理组、多媒体智能搜索场景处理组、百科闲聊场景处理组、AIGC场景处理组及其他场景处理组；根据场景标识调用不同的HMI将回答后的文本进行展示。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于车载语音领域，具体涉及基于大语言模型的车载聚合场景交互方法。

技术介绍

1、随着智能汽车的发展，语音控制系统作为车载人机交互的重要方式，受到越来越多的关注。然而，传统的语音控制系统存在诸多问题，导致在实际应用中的表现和用户体验欠佳。

2、首先，传统语音控制系统在面对复杂指令或具有歧义的语音输入时，识别准确率往往不尽如人意。这主要是由于传统系统的语音识别和自然语言处理能力有限，难以理解复杂的语义结构和上下文信息。其次，传统系统通常仅能执行单一功能的操作，如播放音乐、拨打电话等，难以满足用户日益多样化的需求。第三，传统语音控制系统与车载其他系统的整合程度未能达到理想状态。这种集成性的缺失导致语音控制系统难以提供完备的一体化服务，用户需要通过不同的界面和操作完成复杂的任务，降低了使用便捷性和体验。最后，传统语音控制技术难以精确理解用户的真实意图，导致系统生成的回复时常无法满足用户的期望。缺乏上下文理解和连续对话能力，使得用户在与系统交互时，体验不佳。综上所述，传统的语音控制系统存在准确性不足、功能表现较为单一、集成性欠佳及交互性较差的缺点。

技术实现思路

1、为解决上述问题，本申请的目的在于，提供一种提升识别精度和提升用户使用体验的基于大语言模型的车载聚合场景交互方法

2、本申请实施例提供了一种基于大语言模型的车载聚合场景交互方法，包括：

3、s1)获取用户的输入query并转化为asr文本，所述用户的输入query包括按键输入及语音信号；

4、s2)采用预训练的大语言模型对所述asr文本进行场景标识得到被场景标识的asr文本，所述场景标识包括智能车书场景、ai向导场景、多媒体智能搜索场景、百科闲聊场景、aigc场景及其他场景；

5、s3)设置与场景标识对应的场景处理组并根据所述被场景标识的asr文本使用对应的所述场景处理组生成回答文本，所述场景处理组包括智能车书场景处理组、ai向导场景处理组、多媒体智能搜索场景处理组、百科闲聊场景处理组、aigc场景处理组及其他场景处理组；

6、s4)根据场景标识调用不同的hmi将回答后的文本进行展示。

7、进一步，所述的车载聚合场景交互方法，步骤s1)获取用户的语音信号并转化为asr文本进一步包括：

8、s11)获取语音信号，所述语音指令通过车内布置的麦克风阵列采集；

9、s12)优化所述语音信号并使用端点检测模型提取有效的语音片段，优化所述语音信号包括去除低频和高频噪声；

10、s13)将所述语音片段转换为声学特征并通过预训练的声学模型和语言模型将所述声学特征转化为所述asr文本。

11、进一步，所述的车载聚合场景交互方法，所述步骤所述大语言模型的预训练使用通用文本数据作为输入数据。

12、进一步，所述的车载聚合场景交互方法，所述步骤s2)进一步包括：

13、s21)预定义词表并将所述asr文本分割成token序列，所述词表包括所有可能的token和所述可能的token对应的id；

14、s22)使用所述大语言模型的嵌入层将所述token序列转化为token序列向量；

15、s23)使用所述大语言模型的多头注意力机制对所述token序列向量进行特征提取和关系建模得到第一高维token特征向量，所述第一高维token特征向量包含上下文信息；

16、s24)使用所述大语言模型的前馈神经网络对所述第一高维token特征向量进行处理得到第二高维token特征向量，所述第二高维token特征向量包含特征信息；

17、s25)使用所述大语言模型的多层感知机对所述第二高维token特征向量进行分类得到所述被场景标识的asr文本。

18、进一步，所述的车载聚合场景交互方法，所述场景处理组包括通过prompt工程和lora层微调的大语言模型。

19、进一步，所述的车载聚合场景交互方法，所述智能车书场景处理组包括第一知识库及车书场景大语言模型，所述第一知识库为车书手册构建的知识库。

20、进一步，所述的车载聚合场景交互方法，所述其他场景处理组包含拒识模块，所述拒识模块识别所述被场景标识的asr文本是否为系统误识别的指令，若是，则不产生任何结果并返回，若不是，则将所述被场景标识的asr文本分发给所述百科闲聊场景处理组。

21、本申请还公开了一种基于大语言模型的车载聚合场景交互装置，包括存储器和处理器；

22、所述存储器用于存储计算机程序；

23、所述处理器，用于当执行所述计算机程序时，实现如上所述的基于大语言模型的车载聚合场景交互方法。

24、本申请还公开了一种计算机可读存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的基于大语言模型的车载聚合场景交互方法。

25、本申请实施例提供的技术方案具有如下优点：

26、1.由于采用了将用户的输入query并转化为asr文本，从而有效地提升了输入数据的精确性；

27、2.由于采用了预训练的大语言模型对asr文本的预分类，有效地减少了计算量提高了运算效率；

28、3.由于设置了与场景标识对应的场景处理组能更有针对性地处理用户信息提升处理效率；

29、4.通过对asr文本设置场景标识，能调用不同的hmi使界面更加美观。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的车载聚合场景交互方法，其特征在于，包括：

2.根据权利要求1所述的车载聚合场景交互方法，其特征在于，步骤S1)获取用户的语音信号并转化为ASR文本进一步包括：

3.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述步骤所述大语言模型的预训练使用通用文本数据作为输入数据。

4.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述步骤S2)进一步包括：

5.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述场景处理组包括通过prompt工程和Lora层微调的大语言模型。

6.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述智能车书场景处理组包括第一知识库及车书场景大语言模型，所述第一知识库为车书手册构建的知识库。

7.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述其他场景处理组包含拒识模块，所述拒识模块识别所述被场景标识的ASR文本是否为系统误识别的指令，若是，则不产生任何结果并返回，若不是，则将所述被场景标识的ASR文本分发给所述百科闲聊场景处理组。

8.一种基于大语言模型的车载聚合场景交互装置，其特征在于，包括存储器和处理器；

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至7任一项所述的基于大语言模型的车载聚合场景交互方法。

...

【技术特征摘要】

1.一种基于大语言模型的车载聚合场景交互方法，其特征在于，包括：

2.根据权利要求1所述的车载聚合场景交互方法，其特征在于，步骤s1)获取用户的语音信号并转化为asr文本进一步包括：

3.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述步骤所述大语言模型的预训练使用通用文本数据作为输入数据。

4.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述步骤s2)进一步包括：

5.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述场景处理组包括通过prompt工程和lora层微调的大语言模型。

6.根据权利要求1所述的车载聚合场景交互方法，其特征在于，所述...

【专利技术属性】
技术研发人员：陈艳梅，李云，于利恩，王峰，
申请(专利权)人：上汽大众汽车有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人