一种基于视频分析的说话识别方法、系统、设备及介质技术方案

技术编号：29462121 阅读：22 留言：0更新日期：2021-07-27 17:33

本发明专利技术提供一种基于视频分析的说话识别方法，包括对目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像；对所有输入图像进行人脸检测处理，得到人脸检测框；对所有输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为这一帧的最终人脸检测框；根据最终人脸检测框中嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果，将含有若干特征结果输入至预设说话识别模型中进行识别，得到与待识别人物对应的说话识别结果。本发明专利技术的一种基于视频分析的说话识别方法，使得到的说话识别结果更加精准，而且可以适应待识别人物说话时的不同形态。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视频分析的说话识别方法、系统、设备及介质
本专利技术涉及智能交互领域，尤其涉及一种基于视频分析的说话识别方法、系统、设备及介质。
技术介绍
在智能交互领域，在启动智能交互系统时，需要先判断待识别人物是否说话，当待识别人物处于说话状态时，智能交互系统启动拾音功能并执行后续的语音交互功能。目前智能交互领域对于待识别人物是否处于说话状态的判断为基于唇部特征点结合简单的阈值分析来判断是否说话或通过音频分析再结合唇部特征分析来判断是否说话。上述的说话识别过程前者阈值分析无法做到模型的鲁棒性，不适用于复杂多变的场景；后者则需要借助音频信息进一步辅助判断，显得不够智能化。因此传统的智能交互系统中对于视频中人物的说话识别存在一定局限性而且不够智能化。
技术实现思路
为了克服现有技术的不足，本专利技术的目的之一在于提供一种基于视频分析的说话识别方法，其能解决传统的智能交互系统中对于待识别人物的说话识别存在一定局限性而且不够智能化的问题。本专利技术的目的之二在于提供一种基于视频分析的说话识别系统，其能解决传统...

【技术保护点】
1.一种基于视频分析的说话识别方法，所述方法应用于智能交互系统中，其特征在于：包括以下步骤：/n读取视频数据，读取智能交互系统中摄像头采集到的目标视频数据；/n图像预处理，对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像；/n人脸检测，对每一视频帧对应的输入图像进行人脸检测处理，得到与每一输入图像对应的人脸检测框；/n人脸筛选，对每一视频帧对应的输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框；/n关键点提取，对每一最终人脸检测框进行关键点提取处理，提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸...

【技术特征摘要】
1.一种基于视频分析的说话识别方法，所述方法应用于智能交互系统中，其特征在于：包括以下步骤：
读取视频数据，读取智能交互系统中摄像头采集到的目标视频数据；
图像预处理，对所述目标视频数据中每一视频帧进行裁剪处理以及灰度化处理，得到每一视频帧对应的输入图像；
人脸检测，对每一视频帧对应的输入图像进行人脸检测处理，得到与每一输入图像对应的人脸检测框；
人脸筛选，对每一视频帧对应的输入图像对应的人脸检测框进行筛选，将符合预设人脸筛选规则的每一视频帧对应的人脸检测框作为最终人脸检测框；
关键点提取，对每一最终人脸检测框进行关键点提取处理，提取最终人脸检测框中的嘴唇轮廓和含有若干脸部关键点的脸部关键点集合；
生成特征列表，根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果，并将所有特征结果存储至预先设置的特征列表中；
说话识别，将所述含有若干特征结果的特征列表输入至预设说话识别模型中进行识别，得到与待识别人物对应的说话识别结果。

2.如权利要求1所述的一种基于视频分析的说话识别方法，其特征在于：所述特征结果包括嘴唇开合横纵比和嘴唇张开程度，所述嘴唇轮廓包括若干嘴唇轮廓点。

3.如权利要求2所述的一种基于视频分析的说话识别方法，其特征在于：所述根据所述嘴唇轮廓和脸部关键点计算出每一最终人脸检测框对应的特征结果具体为：将脸部关键点集合中位于脸部两侧最高位置处的脸部关键点之间的距离作为第一距离，将嘴唇轮廓中两侧嘴角处对应的嘴唇轮廓点之间的距离作为第二距离，将两侧嘴角上部的嘴唇轮廓作为上嘴唇轮廓，将两侧嘴角下部的嘴唇轮廓作为下嘴唇轮廓，将上嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为上嘴唇轮廓外圈中心点，将下嘴唇轮廓外圈中心点位置处的嘴唇轮廓点作为下嘴唇轮廓外圈中心点，将上嘴唇轮廓外圈中心点与下嘴唇轮廓外圈中心点的距离作为第三距离，将上嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点与对应的下嘴唇轮廓外圈中心点两侧相邻的嘴唇轮廓点之间的距离作为第四距离和第五距离，根据预设函数、第一距离、第二距离、第三距离、第四距离以及第五距离计算出嘴唇开合横纵比和嘴唇张开程度。

4.如权利要求1所述的一种基于视频分析的说话识别方法，其特征在于：所述说话识别具体为：将不同特征结果中嘴唇开合横纵比和嘴唇张开程度输入至预设说话识别模型中进行识别，所述预设说话模型根据嘴唇开合横纵比和嘴唇张开程度判断待识别人物的说话状态，得到与待识别人物对应的说话识别结果，所述预设说话识别模型为经过预先采集...

【专利技术属性】
技术研发人员：黄欢，尹士朝，
申请(专利权)人：广州广电运通智能科技有限公司，广州广电运通金融电子股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人