一种应用于科目三考试的语音识别方法和系统技术方案

技术编号:37640307 阅读:19 留言:0更新日期:2023-05-25 10:07
本发明专利技术公开了一种应用于科目三考试的语音识别方法和系统,本发明专利技术基于视频数据与音频数据,筛选出疑似作弊音频片段;进而,通过构建的语音识别模型将语音数据处理为简单的图像分类的方式处理,在保证精度的同时,在语音识别模型的网络结构中,去除对语音分类效果不明显的mobieNetV3中Squeeze

【技术实现步骤摘要】
一种应用于科目三考试的语音识别方法和系统


[0001]本专利技术属于语音识别
,具体涉及一种应用于科目三考试的语音识别方法和系统。

技术介绍

[0002]随着人们生活水平的不断提高,便捷的交通出行是人们的一大需求,因而机动车驾驶技能考试越来越受到人们的关注和欢迎,每年都有成千上万的学员考取驾驶证。但由于需要考取驾驶证的人群众多,不免存在一些作弊现象。比如机动车道路驾驶考试项目(科目三)中经常存在考试作弊的现象;上述作弊现象的频发会导致驾驶人在驾驶汽车行驶的过程中容易发生交通事故,事故的发生不仅仅会对车辆本身造成一定的影响,对于人们的经济和生命安全都会产生非常严重的威胁。
[0003]由此一来,实有必要实现对科目三考试进行监管,以进一步改进和规范机动车驾驶人考试工作。我国现阶段的机动车驾驶人驾驶技能考试采用的是计算机评判和考试员人工评判相结合的评判方式。目前仅实现了部分考试项目的数据采集和自动考核评分,还有部分考试项目仍需要监考人员随车监考。由于科目三考试监考人员人手不足,采用教练员或驾考中心的工作人员作为科目三考试的辅助安全员,这样在科目三考试的过程中会出现安全员做出语音提示等作弊行为,上述的作弊行为很难被发现,也很难杜绝,从而影响了整个驾考行业的公平、公正性。

技术实现思路

[0004]针对于上述问题,本专利技术提供一种应用于科目三考试的语音识别方法和系统,以解决现有技术中机动车驾驶人驾驶技能考试中的评判方式仅实现了部分考试项目的数据采集和自动考核评分,无法实现在科目三考试的过程中对安全员做出语音提示等作弊行为进行有效判断的问题。
[0005]为解决上述技术问题,本专利技术采用以下技术方案:
[0006]一种应用于科目三考试的语音识别方法,步骤如下:
[0007]步骤1:实时采集预设时长内的科目三考试车内的音频数据;
[0008]步骤2:将预设时长内的科目三考试车内的音频数据转化为对应的语谱图;
[0009]步骤3:基于预设时长内的科目三考试车内的音频数据对应的语谱图,利用语音识别模型,判断安全员是否存在预设安全员语音作弊行为,对科目三车内安全员的语音作弊行为进行识别。
[0010]优选的,所述语音识别模型采用去除对语音分类效果不明显的mobieNetV3中Squeeze

and

Excitatio模块的网络,在网络预设前部分使用relu激活函数,预设后部分使用hardwish函数;模型的损失函数使用缓解数据不平衡问题的Focal Loss函数。
[0011]优选的,所述语音识别模型的构建步骤如下:
[0012]步骤3.1:获取训练数据,训练数据包括正样本音频、负样本音频,正样本音频为属
于预设安全员语音作弊行为的音频,负样本音频为不属于预设安全员语音作弊行为的音频;
[0013]步骤3.2:针对训练数据包括的正样本音频、负样本音频分别将其转化为对应的语谱图;
[0014]步骤3.3:基于训练数据包括的正样本音频、负样本音频分别对应的语谱图,进行模型训练,获得以语谱图为输入、以是否存在语音作弊行为的结果为输出的语音识别模型,用于对机动车驾驶人科目三考试车内安全员的语音作弊行为进行监控。
[0015]优选的,所述步骤3.1中的训练数据,通过以下步骤获得:
[0016]步骤3.1.1:获取科目三考试车内安全员视频数据、以及与视频数据同步的音频数据;
[0017]步骤3.1.2:基于安全员视频数据,结合安全员视频数据中安全员的动作和面部表情,针对同步的音频数据进行标注标签,将音频数据中属于预设安全员语音作弊行为的音频标注为正样本,不属于预设安全员语音作弊行为的音频标注为负样本。
[0018]优选的,所述步骤3.1.2中,基于安全员视频数据,结合安全员视频数据中安全员的动作和面部表情,具体执行以下过程,针对同步的音频数据进行标注标签:
[0019]基于安全员视频数据,结合安全员视频数据中安全员的动作和面部表情,将安全员视频数据中安全员的动作为预设安全员语音作弊行为对应的动作、安全员的的面部表情为预设安全员语音作弊行为对应的面部表情的视频片段进行标注标签;并将同步的音频数据中与视频片段对应的音频标注为正样本,同步的音频数据中剩余的的音频标注为负样本。
[0020]优选的,所述预设安全员语音作弊行为对应的动作包括安全员敲击车体动作。
[0021]优选的,所述预设安全员语音作弊行为对应的面部表情包括假意咳嗽面部表情、讲话面部表情。
[0022]优选的,所述预设安全员语音作弊行为包括安全员假意咳嗽声、安全员敲击车体声、安全员说话声。
[0023]一种应用于科目三考试的语音识别系统,应用于所述的应用于科目三考试的语音识别方法,包括:数据采集模块、数据转换模块、数据识别模块;
[0024]数据采集模块,用于实时采集预设时长内的科目三考试车内的音频数据;
[0025]数据转换模块,用于针对预设时长内的科目三考试车内的音频数据转化为对应的语谱图;
[0026]数据识别模块,用于判断安全员是否存在预设安全员语音作弊行为。
[0027]一种应用于科目三考试的语音识别终端,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行所述的应用于科目三考试的语音识别方法。
[0028]本专利技术的有益效果:
[0029]本专利技术首先基于视频数据与音频数据,筛选出疑似作弊音频片段;进而,通过构建的语音识别模型将语音数据处理为简单的图像分类的方式处理,在保证精度的同时,在语音识别模型的网络结构中,去除对语音分类效果不明显的mobieNetV3中Squeeze

and

Excitatio模块,以此来提速,兼顾精度和速度,在网络前部分使用relu激活函数,后部分使
用hardwish函数。另外语音识别模型损失函数使用缓解数据不平衡问题的Focal Loss函数,以解决语音数据不平衡问题。并且解决现有技术中无法对科目三考试车辆上安全员发出的语音作弊行为进行监控的问题。
附图说明
[0030]图1是本专利技术实施例中语音识别方法流程图;
[0031]图2是本专利技术实施例的生成语谱图的流程图。
具体实施方式
[0032]下面结合附图对本专利技术进行进一步说明。下面的实施例可使本专业技术人员更全面地理解本专利技术,但不以任何方式限制本专利技术。
[0033]本专利技术设计了一种应用于科目三考试的语音识别系统,应用于所述一种应用于科目三考试的语音识别方法,包括数据采集模块、数据转换模块、数据识别模块;
[0034]数据采集模块,用于实时采集预设时长内的科目三考试车内的音频数据;
[0035]数据转换模块,用于针对预设时长内的科目三考试车内的音频数据转化为对应的语谱图;
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于科目三考试的语音识别方法,其特征在于,步骤如下:步骤1:实时采集预设时长内的科目三考试车内的音频数据;步骤2:将预设时长内的科目三考试车内的音频数据转化为对应的语谱图;步骤3:基于预设时长内的科目三考试车内的音频数据对应的语谱图,利用语音识别模型,判断安全员是否存在预设安全员语音作弊行为,对科目三车内安全员的语音作弊行为进行识别。2.根据权利要求1所述的应用于科目三考试的语音识别方法,其特征在于,所述语音识别模型采用去除对语音分类效果不明显的mobieNetV3中Squeeze

and

Excitatio模块的网络,在网络预设前部分使用relu激活函数,预设后部分使用hardwish函数;模型的损失函数使用缓解数据不平衡问题的Focal Loss函数。3.根据权利要求1所述的应用于科目三考试的语音识别方法,其特征在于,所述语音识别模型的构建步骤如下:步骤3.1:获取训练数据,训练数据包括正样本音频、负样本音频,正样本音频为属于预设安全员语音作弊行为的音频,负样本音频为不属于预设安全员语音作弊行为的音频;步骤3.2:针对训练数据包括的正样本音频、负样本音频分别将其转化为对应的语谱图;步骤3.3:基于训练数据包括的正样本音频、负样本音频分别对应的语谱图,进行模型训练,获得以语谱图为输入、以是否存在语音作弊行为的结果为输出的语音识别模型,用于对机动车驾驶人科目三考试车内安全员的语音作弊行为进行监控。4.根据权利要求3所述的应用于科目三考试的语音识别方法,其特征在于,所述步骤3.1中的训练数据,通过以下步骤获得:步骤3.1.1:获取科目三考试车内安全员视频数据、以及与视频数据同步的音频数据;步骤3.1.2:基于安全员视频数据,结合安全员视频数据中安全员的动作和面部表情,针对同步的音频数据进行标注标签,将音频数据中属于预设安全员语音作弊行为的音频标注为正样本,不属于预设安...

【专利技术属性】
技术研发人员:孙茂芬张铁监汪洋叶剑章道扬
申请(专利权)人:多伦科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1