一种基于深度学习的视频中试卷纸质文档信息提取系统及方法技术方案

技术编号:23288809 阅读:40 留言:0更新日期:2020-02-08 18:41
本发明专利技术涉及图像目标检测与识别技术领域,且公开了一种基于深度学习的视频中试卷纸质文档信息提取系统及方法,方法主要包含文档页面提取、图表检测、文字区域检测、文字行检测、公式检测、OCR识别和后处理;该系统提出一种针对试卷的视频中纸质文档信息提取新方法,填补了视频中试卷文本信息提取空白、实现了试卷文档信息的便捷式转录。本方法主要针对包含数学、语文、英语等常用试卷在内的拍摄视频数据,实现试卷文档内容从视频分析到电子版之间的自动化信息提取。本发明专利技术所述视频中试卷纸质文档信息提取是指,拍摄一段常用多张试卷视频,通过本方法实现视频中每一页试卷文档信息的自动化提取,从而实现试卷视频数据到电子版之间的自动化转换。

A paper document information extraction system and method in video based on deep learning

【技术实现步骤摘要】
一种基于深度学习的视频中试卷纸质文档信息提取系统及方法
本专利技术涉及图像目标检测与识别
,具体为一种基于深度学习的视频中试卷纸质文档信息提取系统及方法。
技术介绍
近年来,随着人工智能技术的不断发展,以卷积神经网络为基础的深度学习技术在图像/语音识别、图像分类、视频分析、目标跟踪等领域算法层出不穷,并取得了超越人类的巨大效果,极大提升了图像处理技术。很多以深度学习为支撑的研究成果已经广泛应用在人脸识别、视频监控、无人驾驶和无人超市等场景。当前,随着深度学习技术的发展,更多以深度学习为核心技术的人工智能已经在交通、医疗、教育等行业普遍落地。目前,基于深度学习的人工智能产品正在教育行业逐渐落地,主要应用于校园安防、试卷图文分离以及试卷文字识别等场景。试卷文档具有重要的试题、知识点汇集、难易程度分布、考点分布等知识,对试卷文档信息提取与分析有助于对大量同类型试卷知识统计分析,便于教师选择性重新组题,有利于解决信息传输与存储问题。而从视频中提取试卷纸质文档中的有用信息为以上问题的解决提供了方案,对大量待提取试卷文档拍摄视频,通过本文档来自技高网...

【技术保护点】
1.一种基于深度学习的视频中试卷纸质文档信息提取系统及方法,其特征在于:该系统基于深度学习技术,主要包含文档页面提取、图表检测、文字区域检测、文字行检测、公式检测、OCR识别和后处理等步骤。/n

【技术特征摘要】
1.一种基于深度学习的视频中试卷纸质文档信息提取系统及方法,其特征在于:该系统基于深度学习技术,主要包含文档页面提取、图表检测、文字区域检测、文字行检测、公式检测、OCR识别和后处理等步骤。


2.根据权利要求1所述的一种基于深度学习的视频中试卷纸质文档信息提取的方法,其特征在于:所述主要特征具体描述为:文档页面提取算法主要对拍摄的试卷翻页视频进行分析,从视频中提取出所有不同试卷文档页面,该步骤输出试卷文档页面数与用户拍摄的试卷页面数一致;图表检测步骤主要对上一步中提取到的所有试卷页面进行图片或表格检测,目标是定位含有图表区域的试卷页,便于在后处理过程对该区域文档信息进行过滤;文字区域检测步骤目标是从每一张提取的试卷页面中定位文字区域,从而过滤掉因试卷拍摄过程镜头远近不同造成的噪声区域,只保留需要提取的试卷文档区域。文字行检测步骤目标是从检测到的文档页面中对所有文字行进行检测,检测过程包括中文、英文等在内的试卷中常出现的所有文字行的检测;公式检测步骤负责对每一个文字行中是否含有公式进行检测,为后续字符识别和公式识别提供依据;OCR识别步骤中分为字符识别和公式识别,负责对所有输入序列中的字符或公式识别;后处理步骤综合图表检测和OCR识别结果,对提取到的文档信息重组输出。


3.根据权利要求1所述的一种基于深度学习的视频中试卷纸质文档信息提取的方法,其特征在于:所述文档页面提取具体描述为:通过对拍摄的试卷文档视频进行分析,得到视频中每一帧图像,然后运用轻量级的Mobilenetv2作为分类网络,从而对视频中每一帧图像是否为文档页面进行判断;本方法中规定非文档页面记为0,文档页面记为1,拍摄试卷文档视频过程中,拍摄者可能拍摄多张不同试卷纸质文档,中间存在对试卷页面的稳定拍摄和非试卷页面拍摄内容,且每张试卷稳定拍摄时长不一定相同,而拍摄设备的帧率固定,每秒会产生多帧图像,因此通过文档页面提取,可以从视频中提取到一系列连续排列的1或者0,如[1111110000011111000000]序列,代表一段视频中每帧图像经过Mobilenetv2网络后的分类值,从该序列得知该视频中存在2张试卷页面;通过对该序列分析,得到两个片段为1的序列及对应的帧编号,最后在每个单独的片段中寻找出拍摄最为清晰的一帧图像作为当前试卷的图像输出;经过文档页面提取步骤可得到视频中所有拍摄到的试卷纸质文档帧图像,后续对这些帧图像分析提取信息。


4.根据权利要求1所述的一种基于深度学习的视频中试卷纸质文档信息提取的方法,其特征在于:所述图表检测具体描述为:上一步骤提取到若干试卷纸质文档页面图像,本步骤对这些图像分析,采用FasterR-CNN网络对图像中的图片和表格进行检测,从而得到试卷页面中图表区域坐标信息,为后续识别结果的后处理提供参考。


5.根据权利要求1所述的一种基于深度学习的视频中试卷纸质文档信息提取的方法,其特征在于:所述文字区域检测具体描述为:使用SSD算法对提取到的图像进行文字区域检测,目标是过滤掉非文字区域的噪声数据干扰;由于视频图像在拍摄过程中因镜头距离远近导致的试卷背景杂物等问题,对其先作文字区域检测可以缩小后续处理图像范围,降低噪声数据影响,提高试卷文档信息提取准确率。


6.根据权利要求1所述的一种基于深度学习的视频中试卷纸质文档信息提取的方法,其特征在于:所述文字行检测具体描述为:使用自然场景下的文字行检测算法PixelLink作为文字行检测网络,考虑到视频拍摄过程不稳定导致的试卷图像存在角度倾斜,如果使用常规目标检测方法,很难对其定位。因此本方法选用自然场景下的四点定位算法PixelLink进行文字行检测,即使文字区域存在倾斜,本步骤检测到每个文字行的四个点坐标,通过透视变换即可将文字行摆正,为后续OC...

【专利技术属性】
技术研发人员:严军峰邱英秋陈家海叶家鸣吴波
申请(专利权)人:安徽七天教育科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1