【技术实现步骤摘要】
基于深度学习的语音提示作弊行为检测方法及电子设备
[0001]本专利技术属于驾驶考试检测
,具体涉及一种基于深度学习的语音提示作弊行为检测方法及电子设备。
技术介绍
[0002]随着驾考领域的不断发展,对于规范考试纪律越来越至关重要。在驾考考试过程中,检测安全员在车内是否存在通过语音形式提示考生的行为。若安全员存在咳嗽、敲击车体、说话的任意一种语音提示行为,则将被判定为安全员疑似作弊,并将疑似作弊数据推荐给管理人员进行复核。管理人员的复核工作只需要针对性的关注疑似作弊部分的语音片段,以及结合该语音片段对应的视频中的动作。
[0003]检测安全员是否在考试中存在语音提示行为是驾驶考试规范的重要一部分,它是保证驾驶考试公平公正的关键,能在一定程度上规范驾考纪律,减少作弊行为的发生。目前驾考中的语音提示作弊行为的发现主要依赖于后台管理人员的人工听和看,他们需要对所有考试的全程数据进行审核,存在耗时、效率低下等亟需改进的地方。
技术实现思路
[0004]为解决上述问题,本专利技术提供一种基于深度学习的语 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的语音提示作弊行为检测方法,其特征在于,包括以下步骤:步骤1:对获取的车内视频数据进行滑动切片得到若干子视频,提取切所述子视频中的音频部分,经格式转换后,输出若干具有相同时间维度和统一格式的音频数据;步骤2:对所述音频数据分别进行预处理以生成对应的时域信号,再通过短时傅里叶变换将所述时域信号转换为具有振幅和频率信息的语谱图,最后使用梅尔滤波器组对各语谱图进行滤波,生成对应的梅尔频谱;步骤3:将所述梅尔频谱输入至训练后的目标深度神经网络模型,所述深度神经网络模型包括特征提取网络模块和多标签分类器网络模块,所述梅尔频谱经特征提取网格模块输出音频数据的一维特征向量,并将所述一维特征向量输入到多标签分类器网络模块中,输出所述音频数据中包含的声音类别;若所述声音类别包含疑似作弊行为的语音提示类别,则初步判定为疑似作弊。2.如权利要求1所述的检测方法,其特征在于,所述步骤1具体包括:步骤1.1:通过固定在车内的摄像机获取车内视频数据,将所述视频数据统一转换为mp4格式;步骤1.2:以定长为t的时间窗口对所述视频数据进行滑动切片,获得多个等时长的子视频;步骤1.3:提取所述子视频中的pcm格式音频流,获得等时长的音频数据,再将所述pcm格式音频流转换为wav格式;步骤1.4:对时长不足t的音频数据进行尾部padding填充操作,以保证输出的音频数据具有相同的时间维度。3.如权利要求1所述的检测方法,其特征在于,所述步骤2中,预处理是指采用预加重、分帧和加窗技术对所述音频数据中的语音信号进行操作,生成对应的时域信号;所述预加重用于补偿对所述音频数据中高频部分的衰减;所述分帧用于获取语音信号的短时平稳性;所述加窗是将分帧后的语音信号与窗函数相乘,使语音信号呈现出周期函数的部分特征。4.如权利要求3所述的检测方法,其特征在于,所述预加重采用的是一阶高通滤波器;所述分帧采用交叠分段方法;所述窗函数选用汉明窗。5.如权利要求1所述的检测方法,其特征在于,所述步骤3中,特征提取网络模块采用CNN14网络架构;所述CNN14网络架构的主干网络由6个CNN Block块组成,每个CNN Block块内部结构为2*(Conv+BN+ReLU)+avg pooling网络层,每个CNN Block块后连接Dropout层,网络末端通过结合max pooling和avg pooling两种池化方式以及全连接层的flatten操作,输出特征融合后的一维特征向量;所述多标签分类器网络模块包含一层神经元结构的全连接网络...
【专利技术属性】
技术研发人员:杨军,章道扬,章安强,张铁监,汪洋,叶剑,
申请(专利权)人:多伦科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。