一种手语视频中自动裁剪多模态数据的方法技术

技术编号：22974999 阅读：35 留言：0更新日期：2019-12-31 23:32

本发明专利技术公开了一种手语视频中自动裁剪多模态数据的方法，该方法：把手语视频裁剪为图像、视频、语音以及手语四个模态的数据集合，基于感知哈希算法把视频关键帧与自定义人脸特征库进行比对，实现视频裁剪过程全自动。本发明专利技术通过利用自定义的人脸库裁剪视频中的多模态数据，提高构建多模态数据集的效率。

A method of automatically cutting multimodal data in sign language video

全部详细技术资料下载

【技术实现步骤摘要】
一种手语视频中自动裁剪多模态数据的方法
本专利技术涉及一种手语视频中自动裁剪多模态数据的方法，属于数字图像处理、深度学习领域。
技术介绍
在多模态表示学习中，多模态数据作为自然存在的一种数据，被广泛应用于语音识别、计算机视觉等领域，用来提升例如声音分离、自动驾驶中的激光雷达目标检测等具体任务的性能。目前，多模态的研究主要集中在图像、视频、语音、语义之间的学习。手语作为聋哑人之间信息交互的主要渠道，能够携带一定的信息，可以作为一个模态为现实中的任务提供辅助监督信息。另外，制作大型数据集的过程需要投入大量的人力标注成本及大容量的存储介质，浪费资源与金钱。在标注过程中，若发生错误标注且没有及时发现，对最终深度神经网络模型计算得出的结果会产生不可预估的影响。综上所述，构建一个全自动的包含手语的多模态数据集不仅可以节省大量的人力成本以及解决由于错误标注引起的一系列问题，而且可以把手语信息作为其中一个模态进行更加深入的研究，进一步推动多模态表示学习的发展。
技术实现思路
本专利技术的目的是提供一种手语...

【技术保护点】
1.一种手语视频中自动裁剪多模态数据的方法，其特征在于，具体步骤如下：/n步骤1，构建自定义的人脸特征库/n1.1，收集电视台公开的手语视频，所述手语视频包含图像、视频、语音以及手语四个模态的信息；/n1.2，利用OpenCV获取对1.1中的手语视频的关键帧图片，同时剔除不包含图像、视频、语音以及手语四个模态信息的关键帧图片；/n1.3，通过多任务级联卷积神经网络MTCNN在1.2中剩余的关键帧图片中截取人脸；/n1.4，将1.3截取的人脸送到FaceNet神经网络中提取人脸特征，形成人脸特征库；/n步骤2，对待裁剪手语视频进行全自动裁剪/n2.1，根据1.2至1.4中的方法提取待裁剪手语视频...

【技术特征摘要】
1.一种手语视频中自动裁剪多模态数据的方法，其特征在于，具体步骤如下：
步骤1，构建自定义的人脸特征库
1.1，收集电视台公开的手语视频，所述手语视频包含图像、视频、语音以及手语四个模态的信息；
1.2，利用OpenCV获取对1.1中的手语视频的关键帧图片，同时剔除不包含图像、视频、语音以及手语四个模态信息的关键帧图片；
1.3，通过多任务级联卷积神经网络MTCNN在1.2中剩余的关键帧图片中截取人脸；
1.4，将1.3截取的人脸送到FaceNet神经网络中提取人脸特征，形成人脸特征库；
步骤2，对待裁剪手语视频进行全自动裁剪
2.1，根据1.2至1.4中的方法提取待裁剪手语视频的人脸特征，并通过FaceNet神经网络判断待裁剪手语视频的人脸特征是否在人脸特征库中，若是则执行下一步，否则将待裁剪手语视频的人脸特征加入人脸特征库后执行下一步；
2.2，将待裁剪手语视频的关键帧图片转化为用浮点型表示的灰度图；
2.3，使用感知哈希算法计算某关键帧与前一关键帧对应的灰度图之间的汉明距离，若汉明距离大于12，则表示两者不为同一剪辑段，将该关键帧作为特殊帧；
2.4，以2.3中的特殊帧为片段的初始帧，通过FFmpeg将待裁剪手语视频切割...

【专利技术属性】
技术研发人员：伍家松，李桃桃，舒华忠，孔佑勇，杨冠羽，杨淳沨，姜龙玉，章品正，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人