一种讲话状态识别方法、装置、存储介质及终端制造方法及图纸

技术编号：25637956 阅读：20 留言：0更新日期：2020-09-15 21:30

本发明专利技术公开了一种讲话状态识别方法、装置、存储介质及终端，所述方法包括：获取目标人体在连续时刻的多个视频图像帧；将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；提取所述多个人脸图像中的嘴巴区域数据；将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值；基于所述变化特征值识别讲话状态。因此，采用本申请实施例，能够通过分析视频文件自动判断视频中的目标人物是否在讲话，从而解决了在大量教学视频资源中自动提取关键点信息数据这一大难题，提高了数据处理的自动化程度和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种讲话状态识别方法、装置、存储介质及终端
本专利技术涉及图像识别
，特别涉及一种讲话状态识别方法、装置、存储介质及终端。
技术介绍
随着教育信息化2.0时代的到来，在课堂上利用人工智能、大数据分析等新兴技术将会驱动教学效率，进而提升教学质量。例如很多教育录播厂商都提出了基于AI分析的贯穿于教、学、研的综合教学评价系统，通过实现深度的数据挖掘与模型构建并经过多维度数据关联后，将课程背后真正反映教学意义的数据信息呈现出来，帮助学校构建数据驱动教学的生态圈。目前厂商提供的综合教学评价系统在上课期间会录制大量的关于老师、学生、PPT以及板书等视频文件，为了更加高效的建立多维度数据关联，需要提取一些关键点信息，比如客户更关注在教师讲课期间学生的专注度、活跃度，参与度等学生行为信息，或者通过分析老师讲话的频率来分析教师的讲课类型如：讲授型、互动型等。目前在提取关键点信息时人们通过采集、存储对应的音频信号，然后手动提取教师讲话的时间点。由于这种关键点信息提取方式需要大量人力、物力和财力，那如何自动高效提取教师上课期间讲话的关键点成为一个值得关注的重要话题。
技术实现思路
本申请实施例提供了一种讲话状态识别方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。第一方面，本申请实施例提供了一种讲话状态识...

【技术保护点】
1.一种讲话状态识别方法，其特征在于，所述方法包括：/n获取目标人体在连续时刻的多个视频图像帧；/n将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；/n提取所述多个人脸图像中的嘴巴区域数据；/n将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值；/n基于所述变化特征值识别讲话状态。/n

【技术特征摘要】
1.一种讲话状态识别方法，其特征在于，所述方法包括：
获取目标人体在连续时刻的多个视频图像帧；
将所述连续时刻的多个视频图像帧输入初始化后的人脸检测器中生成多个人脸图像；
提取所述多个人脸图像中的嘴巴区域数据；
将所述嘴巴区域数据输入预先创建的嘴巴状态判别函数模型中，生成嘴巴区域的变化特征值；
基于所述变化特征值识别讲话状态。

2.根据权利要求1所述的方法，其特征在于，所述获取连续时刻的多个视频图像帧之前，还包括：
接收人脸检测器初始化指令，初始化人脸检测器。

3.根据权利要求1或2所述的方法，其特征在于，所述接收人脸检测器初始化指令，初始化人脸检测器之前，还包括：
采集连续时刻的多个人脸图像中的嘴巴区域；
获取所述嘴巴区域的嘴唇位置坐标点；
基于所述嘴唇位置坐标点计算嘴唇内外区域面积以及其变化规律；
根据所述嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型。

4.根据权利要求1所述的方法，其特征在于，所述基于所述变化特征值识别讲话状态，包括：
当所述变化特征值在预设区间阈值内时，确定为讲话状态。

5.根据权利要求3所述的方法，其特征在于，所述根据所述嘴唇内外区域面积以及其变化规律创建嘴巴状态判别函数模型，包括：
采用支持向量机对所述嘴唇内外区域面积以及其变化规律训练，生成训练后的数据参数；
采用训练后的数据参数创建嘴巴状态判别函数模型。

6.一种讲话状态识别...

【专利技术属性】
技术研发人员：王宁，苗鱼，骆新，赵玺，
申请(专利权)人：北京中广上洋科技股份有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人