基于音视频的学习投入度资源优化式精准检测方法及系统技术方案

技术编号：41096173 阅读：3 留言：0更新日期：2024-04-25 13:54

本发明专利技术公开了一种基于音视频的学习投入度资源优化式精准检测方法及系统，涉及音视频数据处理技术领域。该方法包括：采集学生课堂学习过程中的音视频数据；利用基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对语音信号进行去噪处理；利用基于编码匹配的HMM与LSTM智能使用式语音识别模型，对去噪语音信号进行识别；利用基于关键区域精准比对的变化显著帧图像选取式专注度检测模型，对视频信号进行检测；根据去噪语音识别结果和面部专注度检测结果生成对应学生的学习投入度检测结果。本发明专利技术结合多种智能模型，进行低耗且高质量的语音去噪、语音识别及专注度检测，实现对学生学习投入度的精准检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音视频数据处理，具体而言，涉及一种基于音视频的学习投入度资源优化式精准检测方法及系统。

技术介绍

1、随着社会的不断发展，人们对教育的重视程度越来越高；在全球化、信息化的背景下，教育的重要性愈发凸显。学习投入度作为一项重要的教育质量评价指标，越来越受到学校、教师和家长们的关注。

2、然而，传统的学习投入度检测方法往往会占用较多的计算资源，尽管部分耗能较低的投入度检测方法已经被应用，但检测精度却并不理想。随着音视频领域相关技术的不断更新换代，能够为学习投入度资源优化式精准检测提供直接的支持。因此，提出一种基于音视频的学习投入度资源优化式精准检测方法及系统有非常重要的价值和意义。

技术实现思路

1、为了克服上述问题或者至少部分地解决上述问题，本专利技术提供一种基于音视频的学习投入度资源优化式精准检测方法及系统，结合基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型、基于编码匹配的hmm与lstm智能使用式语音识别模型、基于关键区域精准比对的变化显著帧图像选取式面部专注度检测模型，进行低耗且高质量的语音去噪、语音识别及专注度检测，进而实现对学生学习投入度的精准检测。

2、为解决上述技术问题，本专利技术采用的技术方案为：

3、第一方面，本专利技术提供一种基于音视频的学习投入度资源优化式精准检测方法，包括以下步骤：

4、采集学生课堂学习过程中的音视频数据；所述音视频数据包括语音信号及包含学生完整面部图像的视频信号；

5、利用基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对音视频数据中的语音信号进行去噪处理，以得到去噪语音信号；

6、利用基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别，以得到去噪语音识别结果；

7、利用基于关键区域精准比对的变化显著帧图像选取式专注度检测模型，对音视频数据中的视频信号进行检测，以得到对应学生的面部专注度检测结果；

8、根据去噪语音识别结果和面部专注度检测结果生成对应学生的学习投入度检测结果。

9、首先，本专利技术提出了基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对语音信号进行去噪；该模型首先以分解层数递进的方式实现语音信号的小波去噪，当分解到特定层数并进行相关处理仍然无法满足要求时，再利用基于深度神经网络的语音去噪模型对语音信号进行去噪，较为合理地使用了计算资源，能够保证利用较少的计算资源完成高质量的语音去噪。其次，本专利技术提出了基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别；该模型首先利用语音编码匹配的方式对去噪语音信号进行分析，如果绝大多数的等分去噪语音信号两两之间匹配度较高，直接利用hmm模型对去噪语音信号进行语音识别；反之，则利用lstm模型对去噪语音信号进行语音识别。根据语音信号的分析结果使用更有针对性的语音识别模型，较为合理地使用了计算资源，能够保证利用较少的计算资源实现高精度的语音识别。最后，本专利技术提出了基于关键区域精准比对的变化显著帧图像选取式面部专注度检测模型，对面部专注度进行检测；该模型通过关键区域精准比对的方式，挑选出变化显著帧图像，并使用基于svm的面部专注度检测模型对它们进行面部专注度检测，避免了对整个视频中所有帧图像的检测，较为合理地使用了计算资源，能够保证利用较少的计算资源实现高精度的专注度检测。

10、基于第一方面，进一步地，上述利用基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对音视频数据中的语音信号进行去噪处理的方法包括以下步骤：

11、利用小波变换方法对音视频数据中的语音信号进行一层小波分解，对高频系数进行阈值量化处理，处理后重构语音信号，以得到初始去噪结果；

12、对初始去噪结果进行峰值信噪比检测，以得到初始信噪比检测结果；

13、若初始信噪比检测结果大于预置的信噪比阈值，则将初始去噪结果作为最终的去噪语音信号；反之，则利用小波变换方法对语音信号进行二层小波分解，对高频系数进行阈值量化处理，处理后重构语音信号，以得到二次去噪结果；

14、对二次去噪结果进行峰值信噪比检测，以得到二次信噪比检测结果；

15、若二次信噪比检测结果大于预置的信噪比阈值，则将二次去噪结果作为最终的去噪语音信号；反之，则利用小波变换方法对语音信号进行三层小波分解对高频系数进行阈值量化处理，处理后重构语音信号，以得到三次去噪结果；

16、对三次去噪结果进行峰值信噪比检测，以得到三次信噪比检测结果；

17、若三次信噪比检测结果大于预置的信噪比阈值，则将三次去噪结果作为最终的去噪语音信号；反之，则利用小波变换方法对语音信号进行四层小波分解对高频系数进行阈值量化处理，处理后重构语音信号，以得到四次去噪结果；

18、对四次去噪结果进行峰值信噪比检测，以得到四次信噪比检测结果；

19、若四次信噪比检测结果大于预置的信噪比阈值，则将四次去噪结果作为最终的去噪语音信号；反之，则利用基于深度神经网络的语音去噪模型对语音信号进行去噪，输出最终的去噪语音信号。

20、基于第一方面，进一步地，上述利用基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别的方法包括以下步骤：

21、将去噪语音信号进行多等分处理，以得到多段等分去噪语音信号；

22、对各段等分去噪语音信号进行编码，并进行各段等分去噪语音信号匹配；

23、若各段等分去噪语音信号两两之间匹配度高于预置的匹配度阈值，则利用hmm模型对去噪语音信号进行语音识别，以得到去噪语音识别结果；反之，则利用lstm模型对去噪语音信号进行语音识别，以得到去噪语音识别结果。

24、基于第一方面，进一步地，上述利用基于关键区域精准比对的变化显著帧图像选取式专注度检测模型，对音视频数据中的视频信号进行检测的方法包括以下步骤：

25、针对视频信号中第一帧图像之外的每一帧图像，均与上一帧图像进行关键区域相似度比对，以得到对应两帧图像之间的比对结果；

26、若某一帧图像与上一帧图像之间的比对结果小于预设的相似度阈值，则将该帧图像作为变化显著帧图像；

27、利用基于svm的面部专注度检测模型对每个变化显著帧图像进行面部专注度检测，以得到对应的专注度检测结果；

28、根据各个专注度检测结果确定最终的面部专注度检测结果。

29、基于第一方面，进一步地，上述根据去噪语音识别结果和面部专注度检测结果生成对应学生的学习投入度检测结果的方法包括以下步骤：

30、若去噪语音识别结果中仅包含预置的学习内容，且面部专注度检测结果为专注度高，则认定对应学生的学习投入度高，生成对应的高学习投入度检测结果；反正，则认定对应学生的学习投入度低，生成对应的低学习投入度检测结果。

本文档来自技高网...

【技术保护点】

1.一种基于音视频的学习投入度资源优化式精准检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于音视频的学习投入度资源优化式精准检测方法，其特征在于，所述利用基于分解层数递进式小波去噪和深度神经网络去噪联合应用的语音去噪模型，对音视频数据中的语音信号进行去噪处理的方法包括以下步骤：

3.根据权利要求1所述的一种基于音视频的学习投入度资源优化式精准检测方法，其特征在于，所述利用基于编码匹配的HMM与LSTM智能使用式语音识别模型，对去噪语音信号进行识别的方法包括以下步骤：

4.根据权利要求1所述的一种基于音视频的学习投入度资源优化式精准检测方法，其特征在于，所述利用基于关键区域精准比对的变化显著帧图像选取式专注度检测模型，对音视频数据中的视频信号进行检测的方法包括以下步骤：

5.根据权利要求1所述的一种基于音视频的学习投入度资源优化式精准检测方法，其特征在于，所述根据去噪语音识别结果和面部专注度检测结果生成对应学生的学习投入度检测结果的方法包括以下步骤：

6.根据权利要求1所述的一种基于音视频的学习投入度

7.一种基于音视频的学习投入度资源优化式精准检测系统，其特征在于，包括：数据采集模块、语音去噪模块、语音识别模块、专注度检测模块及投入度结果生成模块，其中：

8.一种电子设备，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。

...

【技术特征摘要】

1.一种基于音视频的学习投入度资源优化式精准检测方法，其特征在于，包括以下步骤：

3.根据权利要求1所述的一种基于音视频的学习投入度资源优化式精准检测方法，其特征在于，所述利用基于编码匹配的hmm与lstm智能使用式语音识别模型，对去噪语音信号进行识别的方法包括以下步骤：

4.根据权利要求1所述的一种基于音视频的学习投入度资源优化式精准检测方法，其特征在于，所述利用基于关键区域精准比对的变化显著帧图像选取式专注度检测模型，对音视频数据中的视频信...

【专利技术属性】
技术研发人员：于晓，
申请(专利权)人：北京林业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人