一种声像档案的智能著录系统与方法技术方案

技术编号:26172774 阅读:17 留言:0更新日期:2020-10-31 13:52
本发明专利技术适用于图像处理技术领域,提供了一种声像档案的智能著录系统与方法,通过设置图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、人脸特征提取模块、数据库模块,图像采集模块连接图像分类模块,图像分类模块和特征组合模块均连接OCR字符检测识别模块和人脸检测模块,人脸特征提取模块连接特征组合模块,数据库模块连接人脸特征提取模块,利用图像分类、OCR字符检测识别、人脸检测识别等深度学习技术,实现声像档案的智能著录。

【技术实现步骤摘要】
一种声像档案的智能著录系统与方法
本专利技术属于图像处理
,尤其涉及一种声像档案的智能著录系统与方法。
技术介绍
档案著录是在编制档案目录时,对档案的内容和形式特征进行分析、选择和记录的过程。档案著录包括著和录两种。著,即标引,将其内容的主题的自然语言转化成检索的标准语言的过程。录,即抄录,是将文案文献的形式特征例如作者、时间等照录在著录条目上。标引是针对档案的内容而言,而抄录则是其形式特征,是文献本身固有的自然语言。标引是著录的核心。随着声像采集设备的发展,人们越来越喜欢使用声像形式来记录相关的事件。声像档案主要以磁性材料、感光材料、电脑磁盘等为载体、以图像、视频、音频等为主要反映方式、记录在政治、经济、科学、技术、文化等各项活动中直接形成的、具有保存价值的包括照片、录音带、录像带、影视片等专门载体的历史记录。然而在庞大的声像档案中,查找出我们需要的信息也变得越来越困难。目前的声像档案的著录大多通过人工的方式,首先将整理声像数据经过人工查看,确定声像档案的内容描述、事件包含的任务、事件发生的时期、事件发生的地点等一系列声像档案信息。目前的声像档案著录方式有以下几个缺点:一是效率低,一段声像资料可能大部分都不含有需要著录的信息,工作人员首先要都先查看一遍,这导致大量的事件浪费在浏览无用的信息上;二是难度高,声像档案中有时会出现大量的人物,工作人员需要将重要的人物都识别出来,这无疑对工作人员的要求很高,容易造成遗漏或者错误。三是校验困难,对于著录人员提供的著录结果,需要其余工作人员再去查看视频校验,校验难度大;四是成本高,需要大量的人力去完成声像档案的著录。
技术实现思路
本专利技术提供一种声像档案的智能著录系统与方法,旨在解决现有技术存在的问题。本专利技术是这样实现的,提供一种声像档案的智能著录系统,包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块;所述图像采集模块用于采集待录入的声像档案中的视频图像;所述图像分类模块连接所述图像采集模块,所述图像采集模块将采集的视频图像输送到所述图像分类模块,所述图像分类模块用于对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据所述特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面;所述OCR字符检测识别模块连接所述图像分类模块,所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块,所述字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息;所述人脸检测模块连接所述图像分类模块,所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中,所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息;所述特征组合模块连接所述OCR字符检测识别模块和所述人脸检测模块,所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块,所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块;所述特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题;所述信息匹配模块连接所述图像分类模块和所述OCR字符检测识别模块,所述图像分类模块将所述图像的特征输送到所述信息匹配模块,所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块,所述信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块;所述人脸特征提取模块连接所述特征组合模块,所述特征组合模块将所述人脸集输送到所述人脸特征提取模块,所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中,建立人脸库索引。优选的,所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。优选的,所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取;所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。本专利技术还提供如上述任意一种声像档案的智能著录系统的著录方法,包括以下步骤:S1、通过图像采集模块采集待录入的声像档案中的视频图像;S2、所述图像分类模块对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据所述特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面;S3、所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块,所述字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息;S4、所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中,所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息;S5、所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块,所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块;所述特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题;S6、所述图像分类模块将所述图像的特征输送到所述信息匹配模块,所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块,所述信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块;S7、所述特征组合模块将所述人脸集输送到所述人脸特征提取模块,所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中,建立人脸库索引。优选的,所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。优选的,所述OCR字符检测识别模块通过字符检测识别算法实现文字特征的提取;所述字符检测识别算法为Faster-RCNN算法、RRPN算法、CRNN算法和EAST算法中的一种。与现有技术相比,本专利技术的有益效果是:本专利技术的一种声像档案的智能著录系统与方法,通过设置图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、人脸特征提取模块、数据库模块,图像采集模块连接图像分类模块,图像分类模块和特征组合模块均连接OCR字符检测识别模块和人脸检测模块本文档来自技高网
...

【技术保护点】
1.一种声像档案的智能著录系统,其特征在于:包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块;/n所述图像采集模块用于采集待录入的声像档案中的视频图像;/n所述图像分类模块连接所述图像采集模块,所述图像采集模块将采集的视频图像输送到所述图像分类模块,所述图像分类模块用于对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据所述特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面;/n所述OCR字符检测识别模块连接所述图像分类模块,所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块,所述字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息;/n所述人脸检测模块连接所述图像分类模块,所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中,所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息;/n所述特征组合模块连接所述OCR字符检测识别模块和所述人脸检测模块,所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块,所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块;所述特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题;/n所述信息匹配模块连接所述图像分类模块和所述OCR字符检测识别模块,所述图像分类模块将所述图像的特征输送到所述信息匹配模块,所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块,所述信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块;/n所述人脸特征提取模块连接所述特征组合模块,所述特征组合模块将所述人脸集输送到所述人脸特征提取模块,所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中,建立人脸库索引。/n...

【技术特征摘要】
1.一种声像档案的智能著录系统,其特征在于:包括图像采集模块、图像分类模块、OCR字符检测识别模块、人脸检测模块、特征组合模块、信息匹配模块、人脸特征提取模块、数据库模块;
所述图像采集模块用于采集待录入的声像档案中的视频图像;
所述图像分类模块连接所述图像采集模块,所述图像采集模块将采集的视频图像输送到所述图像分类模块,所述图像分类模块用于对视频中每一帧的图像提取包括但不限于人脸、横幅、席卡、会议画面的特征,根据所述特征为每一帧的图像进行分类,分为正面会议画面、会议横幅画面、人脸画面、席卡画面和其他画面;
所述OCR字符检测识别模块连接所述图像分类模块,所述图像分类模块将所述正面会议画面、会议横幅画面、席卡画面输送到所述OCR字符检测识别模块,所述字符识别模块用于利用卷积神经网络提取画面中的文字特征,利用字符检测算法,框定文字的位置,将文字区域的特征输入到字符识别算法中,识别出文字的具体内容,组成图像的文字信息;
所述人脸检测模块连接所述图像分类模块,所述图像分类模块将正面会议画面和人脸画面送入到所述人脸检测模块中,所述人脸检测模块用于利用卷积神经网络提取画面中人脸的关键点、位置的人脸信息;
所述特征组合模块连接所述OCR字符检测识别模块和所述人脸检测模块,所述OCR字符检测识别模块将识别得到的席卡画面的文字信息输送到所述特征组合模块,所述人脸检测模块将识别得到的人脸位置信息和人脸关键点信息输送到所述特征组合模块;所述特征组合模块用于将字符识别结果和图像的特征结合,如果图像的分类为一个会议并且在图像的上部分有横幅的特征,将字符识别结果放入一个利用已有文本数据训练出的命名实体识别模型中,得到字符识别结果是会议名称的置信度,从而判断出档案的内容主题;
所述信息匹配模块连接所述图像分类模块和所述OCR字符检测识别模块,所述图像分类模块将所述图像的特征输送到所述信息匹配模块,所述OCR字符检测识别模块将识别得到的文字的位置信息和相应的文字内容信息输送到所述信息匹配模块,所述信息匹配模块用于将每个席卡和人脸匹配,形成包含席卡文字内容信息和人脸信息的人脸集并存储到所述数据库模块;
所述人脸特征提取模块连接所述特征组合模块,所述特征组合模块将所述人脸集输送到所述人脸特征提取模块,所述人脸特征提取模块用于将每一张人脸的特征存入到所述数据库模块中,建立人脸库索引。


2.如权利要求1所述的一种声像档案的智能著录系统,其特征在于:所述关键点包括左眼、右眼、鼻子、左嘴角和右嘴角。


3.如权利要求1所述的一种声像档案的智能著录系统,其特...

【专利技术属性】
技术研发人员:周钊郑莹斌叶浩
申请(专利权)人:上海兑观信息科技技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1