一种基于人脸识别的影像审看及编辑系统设计方法技术方案

技术编号:36803851 阅读:13 留言:0更新日期:2023-03-09 00:02
本发明专利技术涉及一种基于人脸识别的影像审看及编辑系统设计方法,属于计算机软件领域。本发明专利技术通过训练先后建立人像检测模型和人脸识别模型,通过视频抽帧,对图像内容进行检测识别,首先通过人像检测获取人脸结果坐标,自动计算识别目标区域像素大小,进行目标人像的画面占比估算,形成画面信息组成部分;通过人脸识别将人像检测输出的人脸图像进行身份识别,将识别结果整合画面布局信息返回至视频编辑界面,智能化标注当前帧的画面信息,形成帧轨附加信息。本发明专利技术将人脸识别应用于影像审看、影像编辑领域的设计,并针对该领域工作选取合适的算法,优化框架,加入向量数据库,大大提升识别准确率与效率。识别准确率与效率。识别准确率与效率。

【技术实现步骤摘要】
一种基于人脸识别的影像审看及编辑系统设计方法


[0001]本专利技术属于计算机软件领域,具体涉及一种基于人脸识别的影像审看及编辑系统设计方法。

技术介绍

[0002]如今,影像审看、编辑已经成为各领域的重要工作部分,特别是在新闻工作、自媒体等多个领域。然而目前市场上的影像编辑工具主要以本地软件化为主,对协同办公并不友好,且主打编辑功能多样,缺少智能化,用户仍需要观看整个视频后才能获取影像内容信息,然后再进行审核或者编辑。对于需要审看、编辑的视频数量多、内容杂,必然会产生工作量大、影像内容定位困难的问题,将大量时间浪费在视频内容查找上,导致工作效率低下。
[0003]针对目前影像审看、编辑工具的痛点,现有利用图像检测和人脸识别技术,提供一种可行的在线智能影像审看及编辑系统实现方案,并通过算法、框架进行优化,提升识别准确率与效率。以人物为主体,通过人像检测获取图片、视频画面内的人脸区域,并通过区域像素估算人物画面占比,并通过人脸识别对目标人物进行识别,将识别结果以及时间戳、画面占比信息进行整合,形成视频脚本展现给用户,有效辅助对申请、报送的图片、音视频等资料快速进行审看把关,使用户更好地专注于视频审看、编辑,而不是内容查找。

技术实现思路

[0004](一)要解决的技术问题
[0005]本专利技术要解决的技术问题是如何提供一种基于人脸识别的影像审看及编辑系统设计方法,以解决影像审看、编辑工作效率低下的问题。
[0006](二)技术方案
[0007]为了解决上述技术问题,本专利技术提出一种基于人脸识别的影像审看及编辑系统设计方法,该方法包括如下步骤:
[0008]S1、上传视频:使用对象存储技术,将视频上传至存储服务,不同用户根据对应权限拉取相关数据,在线对视频进行播放观看、编辑,实现协同办公;
[0009]S2、上传报道人物画像:根据需求可以选择是否上传报道人物画像,如果选择上传,执行步骤S3;否则,执行步骤S4;
[0010]S3、图像解析:图像解析会调用训练好的人脸识别模型,负责将上传的人物画像提取为多维向量特征,存入Mi lvus向量数据库,从而更新模型的特征库;
[0011]S4、视频解析:视频解析包括人像检测和人脸识别两部分;首先使用人像检测模型对视频的帧画面进行人像检测,将检测到包含人脸的图像进行处理;使用人脸识别模型对处理过的人脸图像进行人脸识别;
[0012]S5、对视频解析的结果进行包装,传入前端渲染,按人员或内容进行标记,生成两种形式的结果;第一种为时间轨形式的轨道结果;第二种为显式显示的文字结果;
[0013]S6、人工评审:人工审看S5的结果,记录/标记每幅或每帧画面或每个镜头具体的
意见,综合生成最终的审看结果清单,相关清单文本文件支持导出。
[0014]进一步地,所述影像审看及编辑系统包括:表示层、传输层、服务层以及数据层;
[0015]表示层是面向用户的Web端,实现Web式的在线影像编辑,方便协同办公,数据共享;
[0016]传输层负责表示层与服务层之间进行数据传输;
[0017]服务层负责本系统所有业务功能的实现;
[0018]数据层负责对用户信息、历史数据进行存储。
[0019]进一步地,表示层采用React开发框架进行构建;传输层采用HTTP网络请求相关技术进行数据传输,同时在接口设计上保持RESTful风格;服务层采用SpringBoot技术,利用SpringAOP实现系统的日志、异常处理以及权限控制功能,采用Pytorch、Opencv相关技术实现人像检测算法以及人脸识别算法,同时利用FlaskPythonWeb框架对算法进行线上部署,最后使用ResTemplate实现业务服务器与算法服务器之间的通讯;数据层采用Mi lvus向量数据库对模型提取的向量特征进行存储、检索和比对,采用MySQL数据库进行用户个人信息以及系统相关数据的存储,采用OOS对象存储服务对各类办件、活动音视频、活动图片进行存储。
[0020]进一步地,所述步骤S4中,第一种为时间轨形式的轨道结果,在现有视频进度条上显示,列出时码、主体人员和画面占比信息,相同的人物识别结果会进行多帧聚合。
[0021]进一步地,所述步骤S4中,第二种为显式显示的文字结果,包括:时间戳、人物姓名和画面占比信息,形成视频脚本,以便人工审看时能够快速查找,提供辅助参考。
[0022]进一步地,所述人像检测模型选取YOLOv5模型,训练集与验证集使用CelebA Dataset,选取要训练的图片并制作YOLO格式标签,测试数据集使用LFW,来测量模型的效果。
[0023]进一步地,所述人像检测的步骤如下:
[0024]S31、首先搭建人像检测模型进行调用;
[0025]S32、对视频进行抽帧处理;
[0026]S33、将抽取的图片进行人脸检测,判断是否存在符合要求的人脸图片,如果是执行步骤S34,如果否,执行步骤S32;
[0027]S34、当检测结果中有符合要求的人脸图片,保存输出人脸坐标;
[0028]S35、将归一化处理之后的坐标值还原,通过还原后的坐标计算画面占比;
[0029]S36、对检测到的人脸目标进行裁剪,以视频时间戳、画面占比数标注保存,供后续人脸识别使用。
[0030]进一步地,所述人脸识别模型选取以加性角度边距损失Arcface为支撑的FaceMobi leNet,通过数据爬取或者档案系统对接获取人像数据集,并生成标签文本文件,人脸识别模型的backbone选取以Mobi leNet为基础的FaceMobi leNet,堆叠多种不同的卷积块,然后接一个Flatten块把输入展平,再接一个全连接层和1维的BatchNorm层,损失函数选取Focal Loss。
[0031]进一步地,所述人脸识别模型的度量函数实现CosFace以及ArcFace两种,以Softmax Loss为基础,在分类边界上增加Margin,先将特征映射到角度特征空间中,再增加类间距;优先使用ArcFace,由于ArcFace存在越界问题,因此对人脸识别过程进行优化,增
加ArcFace是否越界的判定逻辑,ArcFace的越界通过额外的角度是否超过180度判定,如果发生越界,便使用CosFace代替ArcFace。
[0032]进一步地,所述人脸识别的步骤包括:
[0033]S41、首先调用训练好的人脸识别模型;
[0034]S42、判断是否上传已标注的报道人物图片,如果传入了报道人物照片,执行步骤S43,否则执行步骤S44;
[0035]S43、利用加载的模型提取人脸图像特征,将特征均值存入Mi lvus向量数据库中;
[0036]S44、将人像检测模型的输出的人脸图像作为人脸识别模型的输入进行人脸识别,通过Arcface特征计算,将人脸图像提取成一个512维度的特征向量;
[0037]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人脸识别的影像审看及编辑系统设计方法,其特征在于,该方法包括如下步骤:S1、上传视频:使用对象存储技术,将视频上传至存储服务,不同用户根据对应权限拉取相关数据,在线对视频进行播放观看、编辑,实现协同办公;S2、上传报道人物画像:根据需求可以选择是否上传报道人物画像,如果选择上传,执行步骤S3;否则,执行步骤S4;S3、图像解析:图像解析会调用训练好的人脸识别模型,负责将上传的人物画像提取为多维向量特征,存入Milvus向量数据库,从而更新模型的特征库;S4、视频解析:视频解析包括人像检测和人脸识别两部分;首先使用人像检测模型对视频的帧画面进行人像检测,将检测到包含人脸的图像进行处理;使用人脸识别模型对处理过的人脸图像进行人脸识别;S5、对视频解析的结果进行包装,传入前端渲染,按人员或内容进行标记,生成两种形式的结果;第一种为时间轨形式的轨道结果;第二种为显式显示的文字结果;S6、人工评审:人工审看S5的结果,记录/标记每幅或每帧画面或每个镜头具体的意见,综合生成最终的审看结果清单,相关清单文本文件支持导出。2.如权利要求1所述的基于人脸识别的影像审看及编辑系统设计方法,其特征在于,所述影像审看及编辑系统包括:表示层、传输层、服务层以及数据层;表示层是面向用户的Web端,实现Web式的在线影像编辑,方便协同办公,数据共享;传输层负责表示层与服务层之间进行数据传输;服务层负责本系统所有业务功能的实现;数据层负责对特征向量数据以及用户信息、系统历史数据进行存储。3.如权利要求2所述的基于人脸识别的影像审看及编辑系统设计方法,其特征在于,表示层采用React开发框架进行构建;传输层采用HTTP网络请求相关技术进行数据传输,同时在接口设计上保持RESTful风格;服务层采用SpringBoot技术,利用SpringAOP实现系统的日志、异常处理以及权限控制功能,采用Pytorch、Opencv相关技术实现人像检测算法以及人脸识别算法,同时利用FlaskPythonWeb框架对算法进行线上部署,最后使用ResTemplate实现业务服务器与算法服务器之间的通讯;数据层采用Milvus向量数据库对模型提取的向量特征进行存储、检索和比对,采用MySQL数据库进行用户个人信息以及系统相关数据的存储,采用OOS对象存储服务对各类办件、活动音视频、活动图片进行存储。4.如权利要求1所述的基于人脸识别的影像审看及编辑系统设计方法,其特征在于,所述步骤S4中,第一种为时间轨形式的轨道结果,在现有视频进度条上显示,列出时码、主体人员和画面占比信息,相同的人物识别结果会进行多帧聚合。5.如权利要求1所述的基于人脸识别的影像审看及编辑系统设计方法,其特征在于,所述步骤S4中,第二种为显式显示的文字结果,包括:时间戳、人物姓名和画面占比信息,形成视频脚本,以便人工审看时能够快速查找,提供辅助参考。6.如权利要求1

【专利技术属性】
技术研发人员:樊一航杨芳彭璐
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1