具备语音和视频识别功能的智能车顶控制系统技术方案

技术编号:38824192 阅读:12 留言:0更新日期:2023-09-15 20:03
本发明专利技术公开了一种具备语音和视频识别功能的智能车顶控制系统,具体包括图像识别控制模块、语音识别控制模块、车顶灯光控制模块、开关按键控制模块、高速总线通信模块、综合控制模块和电源供电模块。本发明专利技术基于深度学习和注意力机制,对驾驶员的驾驶行为和语音进行识别,提高了驾驶行为识别和语音识别精度;并在电源电路模块采用负载自适应调整技术,降低供电电路的损耗,具有高可靠性和高智能化优势。具有高可靠性和高智能化优势。具有高可靠性和高智能化优势。

【技术实现步骤摘要】
具备语音和视频识别功能的智能车顶控制系统


[0001]本专利技术隶属于汽车智能控制
本专利技术采用驾驶行为识别和语音识别技术提升车内安全控制能力,提供了一种具备语音和视频识别功能的智能车顶控制系统,实现高安全性和高可靠性。
技术背景
[0002]随着我国经济的迅速发展以及人民生活水平的不断提高,我国普通家庭以及单位的车辆保有量不断上升。人们在享受汽车带来的便捷同时,更多地考虑到车辆的舒适性和安全性。因此,设计针对汽车上述安全事故的预警和事故发生时的判别和管理系统,具有很强的现实需求。
[0003]传统的汽车车顶控制面板主要为简单的车内照明系统的开启与关闭操作,完全依靠安装在汽车上的按钮开关,驾驶员采用手动的接触操作控制,这样存在的缺点是:一方面是按钮经过长时间使用会产生损坏,易导致在危险情况下无法打开车灯的问题;另一方面是在汽车内安装多个按钮,占用汽车的空间,影响美观,同时在多个车灯之间切换不便。汽车顶灯处于汽车内部空间的最高位置,将上述针对紧急情况的预警和求救系统和汽车顶灯控制系统进行融合设计,是一种较好的实现方式。随着智能识别技术的发展,图像和语音识别技术已经广泛应用于各类安防监控系统。采用类似的技术,提高驾驶员的行为识别,提高车内安全监控效果,是一种很有应用价值的技术手段。因此,提供一种结合驾驶员视频行为识别和语音识别安全控制技术提升车内安全控制能力的智能车顶控制系统,对于提升汽车安全有着重要意义。
[0004]在视频监控下,视频行为识别主要应用在佩戴识别、吸烟识别、手持电话识别、人员入侵识别等等。视频行为识别可以理解为某个时间段人的一个动作,并将该动作数据进行输出后,判断是否违规并进行预警。驾驶员行为识别属于视频行为识别范畴,在智能汽车领域具有重要应用价值。多数交通事故是由驾驶员疲劳驾驶或分心驾驶导致对车辆操控能力下降造成的。为了降低人为导致的交通事故率,在驾驶员处于疲劳或分心状态时,对驾驶员的状态和行为进行识别并给予相应警告,能有效提高驾驶员的安全意识从而规范驾驶行为。驾驶行为识别方法大致可分为两类:1)生理测量方法,通过分析传感器采集的生理信号去判断驾驶员的状态,如心电图信号和脑电图信号。2)行为测量方法,分析以图像形式呈现的信息从而去判断驾驶员是否发生分心行为。随着深度学习技术的发展,基于深度学习的行为测量方法更具发展前景,并将在未来的智能汽车领域得到广泛的应用。然而行为测量方法仅基于深度学习技术难于满足高准确率的要求,考虑自注意力机制有助于深度学习模型提取更高层次的语义信息,因此采用深度学习技术和自注意力机制相结合的方法来进行驾驶员行为识别,有待提高驾驶员行为识别的准确率。
[0005]语音识别,作为一种能够将人类声音转化为文字的有效方法,凭借自身的优势已在语音拨号、网络信息查询、声控玩具、银行语音服务、工业语音控制等多个领域成为主要的技术手段。早期的研究中,基于GMM

HMM的语音识别模型应用最广,但该模型的识别效果
并不是很理想。随着深度学习技术的引入,基于深度学习的语音识别模型拥有了更强的建模能力,识别效果也得到大幅度提高。虽然基于深度学习框架的语音识别模型比较完善,但是以注意力机制为主的端到端模型在训练语音数据时,不需要提前进行语音帧对齐操作,直接可以采用带标签的语音进行训练,其训练更加简洁,对参数的优化更加直接,具有较强的通用性,能够减少对语言知识的依赖,大大降低了系统搭建难度。近年来,Conformer模型作为注意力模型的典型代表,因其优越的性能,逐渐成为语音识别领域的主流模型,但是该模型中采用的注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度高,当对长语音进行识别时计算资源消耗大,并且识别速度慢,因此在维持Conformer模型的建模能力的同时,减少注意力机制的计算复杂度将成为语音识别领域的重要研究方向。

技术实现思路

[0006]本专利技术的目的是克服现有技术中存在的不足,提供一种具备语音和视频识别功能的智能车顶控制系统。
[0007]本专利技术的目的可以通过以下技术方案实现:一种具备语音和视频识别功能的智能车顶控制系统,其特征是,包括图像识别控制模块、语音识别控制模块、车顶灯光控制模块、开关按键控制模块、高速总线通信模块、综合控制模块和电源供电模块;
[0008]所述综合控制模块的第一控制信号输出端连接到驾驶行为识别控制模块的控制信号输入端,所述综合控制模块的第二控制信号输出端连接到语音识别控制模块的控制信号输入端,所述综合控制模块的第三控制信号输出端连接到车顶灯光控制模块的控制信号输入端,所述综合控制模块的第四控制信号输出端连接到开关按键控制模块的控制信号输入端,所述综合控制模块的第五控制信号输出端连接到高速总线通信模块的控制信号输入端,所述综合控制模块的第六控制信号输出端连接到电源供电模块的控制信号输入端;所述综合控制模块的第一数据输入端连接到驾驶行为识别控制模块的数据输出端,所述综合控制模块的第二数据输入端连接到语音识别控制模块的数据输出端,所述综合控制模块的第三数据输入端连接到车顶灯光控制模块的数据输出端,所述综合控制模块的第四数据输入端连接到开关按键控制模块的数据输出端,所述综合控制模块的第五数据输入端连接到高速总线通信模块的数据输出端,所述综合控制模块的第六数据输入端连接到电源供电模块的供电状态输出端;所述电源供电模块为上述所有电路提供供电。
[0009]进一步的,系统启动时,按照先后次序依次开启不同的功能模块:首先开启电源供电模块、高速总线通信模块和综合控制模块;其次开启开关按键控制模块、驾驶行为识别控制模块和语音识别控制模块,根据驾驶行为识别数据、语音识别数据和开关按键的指令进行功能控制;当所有功能模块都开启后,所述综合控制模块根据驾驶行为识别控制模块、语音识别控制模块、车顶灯光控制模块、开关按键控制模块、高速总线通信模块和电源供电模块通过各自数据输出端所提供的所有输出数据,综合判决并决定所述智能车顶控制系统的工作状态是否正常;所述驾驶行为识别控制模块和语音识别控制模块中任意一种或多种信号指示非正常时,所述综合控制模块开启应急报警状态,此时高速总线通信模块对外发送求救信号。
[0010]具体的,所述的语音识别模块对原始音频数据提取声学特征,然后依次通过卷积
降采样层、16个门控线性注意力Conformer模块、1个双向LSTM模块组合而成的声学模型,获取语音发音底层特征,再通过全连接层、Softmax层映射到合适的维度,生成音素串;
[0011]所述的门控线性注意力Conformer模块由第一个前馈神经网络模块、一个门控线性注意力模块、一个一维卷积神经网络模块、以及第二个前馈神经网络模块组成;
[0012]所述的门控线性注意力模块利用门控单元对线性注意力进行控制,通过以下步骤建立门控线性注意力模块的输入输出关系:
[0013]步骤1,基于门控线性注意力模块的输入,分别构建查询矩阵、键矩阵、值矩阵和门控单元;
[0014]步骤2,利用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种具备语音和视频识别功能的智能车顶控制系统,其特征是,包括图像识别控制模块、语音识别控制模块、车顶灯光控制模块、开关按键控制模块、高速总线通信模块、综合控制模块和电源供电模块;所述综合控制模块的第一控制信号输出端连接到驾驶行为识别控制模块的控制信号输入端,所述综合控制模块的第二控制信号输出端连接到语音识别控制模块的控制信号输入端,所述综合控制模块的第三控制信号输出端连接到车顶灯光控制模块的控制信号输入端,所述综合控制模块的第四控制信号输出端连接到开关按键控制模块的控制信号输入端,所述综合控制模块的第五控制信号输出端连接到高速总线通信模块的控制信号输入端,所述综合控制模块的第六控制信号输出端连接到电源供电模块的控制信号输入端;所述综合控制模块的第一数据输入端连接到驾驶行为识别控制模块的数据输出端,所述综合控制模块的第二数据输入端连接到语音识别控制模块的数据输出端,所述综合控制模块的第三数据输入端连接到车顶灯光控制模块的数据输出端,所述综合控制模块的第四数据输入端连接到开关按键控制模块的数据输出端,所述综合控制模块的第五数据输入端连接到高速总线通信模块的数据输出端,所述综合控制模块的第六数据输入端连接到电源供电模块的供电状态输出端;所述电源供电模块为上述所有电路提供供电。2.根据权利要求1所述的具备语音和视频识别功能的智能车顶控制系统,其特征是系统启动时,按照先后次序依次开启不同的功能模块:首先开启电源供电模块、高速总线通信模块和综合控制模块;其次开启开关按键控制模块、驾驶行为识别控制模块和语音识别控制模块,根据驾驶行为识别数据、语音识别数据和开关按键的指令进行功能控制;当所有功能模块都开启后,所述综合控制模块根据驾驶行为识别控制模块、语音识别控制模块、车顶灯光控制模块、开关按键控制模块、高速总线通信模块和电源供电模块通过各自数据输出端所提供的所有输出数据,综合判决并决定所述智能车顶控制系统的工作状态是否正常;所述驾驶行为识别控制模块和语音识别控制模块中任意一种或多种信号指示非正常时,所述综合控制模块开启应急报警状态,此时高速总线通信模块对外发送求救信号。3.根据权利要求1所述的具备语音和视频识别功能的智能车顶控制系统,其特征是所述的语音识别模块对原始音频数据提取声学特征,然后依次通过卷积降采样层、16个门控线性注意力Conformer模块、1个双向LSTM模块组合而成的声学模型,获取语音发音底层特征,再通过全连接层、Softmax层映射到合适的维度,生成音素串;所述的门控线性注意力Conformer模块由第一个前馈神经网络模块、一个门控线性注意力模块、一个一维卷积神经网络模块、以及第二个前馈神经网络模块组成;所述的门控线性注意力模块利用门控单元对线性注意力进行控制,通过以下步骤建立门控线性注意力模块的输入输出关系:步骤1,基于门控线性注意力模块的输入,分别构建查询矩阵、键矩阵、值矩阵和门控单元;步骤2,利用查询矩阵、键矩阵、值矩阵构建线性注意力矩阵;步骤3,将门控单元和线性注意力矩阵进行哈达玛积运算,再通过一个线性映射层获得门控线性注意力模块的输出。4.根据权利要求1所述的具备语音和视频识别功能的智能车顶控制系统,其特征是所述的驾驶行为识别控制模块基于训练样本数据,结合VGG13深度网络和自注意力模块来构
建网络,然后训练网络以获取优选网络模型;所述的驾驶行为识别控制模块包括6级子网络,具体包括:第1级子网络以分辨率为(224,224,3)的RGB图像块作为输入,图像块由224*224像素、3种颜色(红、绿、蓝)通道组成,依次通过2个64通道的3*3卷积层/Relu激活层、2个自注意力模块、2*2最大池化层,输出分辨率为(112,112,64)的特征图,其中特征图由112*112像素、64个特征通道组成;第2级子网络以分辨率为(112,112,64)的特征图作为输入,依次通过2个128通道的3*3卷积层/Relu激活层、2个自注意力模块、2*2最大池化层,输出分辨率为(56,56,128)的特征图,其中特征图由56*56像素、128个特征通道组成;第3级子网络以分辨率为(56,56,128)的特征图作为输入,依次通过2个256通道的3*3卷积层/Relu激活层、2个自注意力模块、2*2最大池化层,输出分辨率为(28,28,256)的特征图,其中特征图由28*28像素、256个特征通道组成;第4级子网络以分辨率为(28,28,256)的特征图作为输入,依次通过2个512通道的3*3卷积层/Relu激活层、2个自注意力模块、2*2最大池化层,输出分辨率为(14,14,512)的特征图,其中特征图由14*14像素、512个特征通道组成;第5级子网络以分辨率为(14,14,512)的特征图作为输入,依次通过2个512通道的3*3卷积层/Relu激活层、2个自注意力模块、2*2最大池化层,输出分辨率为(7,7,512)的特征图,其中特征图由7*7像素、512个特征通道组成;第6级子网络以分辨率为(7,7,512)的特征图作为输入,依次通过4096节点的全连接层、1000节点的全连接层、5节点的全连接层、Softmax标准化层,输出5维的特征向量,分别表示5种不同驾驶行为出现的概率,5种不同驾驶行为包括正常驾驶、打电话、玩手机、抽烟、喝水;所述的自注意力模块用于获取高层次语义特征,该自注意力模块的输出与输入的特征图形状相同,即分辨率相同,通过以下步骤生成各级子网络自注意力特征:步骤1,应用3个不同的1*1...

【专利技术属性】
技术研发人员:陈珍海侯丽汪伟何千道黄正能
申请(专利权)人:黄山市瑞兴汽车电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1