【技术实现步骤摘要】
一种有限表格自动识别与解析方法
本专利技术属于图像识别
,涉及一种有限表格自动识别与解析方法。
技术介绍
图像识别技术是人工智能的一个重要领域,它是立体视觉、运动分析、数据融合等实用技术的基础,在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域具有重要的应用价值。图片目标识别对行人、车牌、人脸等特征识别已经较为成熟。对文本的研究是建立在已有的文本上,对词义转换,词频统计等方面。虽然目前研究已有对PDF文本表格信息处理等纯文字或者高度统一的弱图像分析,但是正确率,适用性等方面依然无法保证。人们在通讯交流、科学研究以及数据分析活动当中广泛采用着形形色色的表格,对于各种形态和结构的表格,实体关系建模需要考虑周全,深度学习在本项目上的应用也需要灵活多变。
技术实现思路
本专利技术的目的是提供一种有限表格自动识别与解析方法,具有对PDF中的表格进行筛选定位,并将有效表格进行输出的特点。本专利技术所采用的技术方案是,一种有限表格自动识别与解析方法,具体按照以下步骤实 ...
【技术保护点】
1.一种有限表格自动识别与解析方法,其特征在于,具体按照以下步骤实施:/n步骤1、对表格进行筛选;/n步骤2、使用opencv库对筛选出的表格进行定位。/n
【技术特征摘要】 【专利技术属性】
1.一种有限表格自动识别与解析方法,其特征在于,具体按照以下步骤实施:
步骤1、对表格进行筛选;
步骤2、使用opencv库对筛选出的表格进行定位。
2.根据权利要求1所述的一种有限表格自动识别与解析方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、输入原文档记为A,经过图片转换函数F(X),将pdf文件A转化成图片集B=F(A);
步骤1.2、利用灰度化和自适应阈值及二值化处理图片;
步骤1.3、通过腐蚀膨胀对处理后的图片进行筛选;
步骤1.4、使用opencv库二次进行筛选。
3.根据权利要求2所述的一种有限表格自动识别与解析方法,其特征在于,所述步骤1.2具体为:
先将图片集合B进行灰度化处理,找到阈值,再进行高斯滤波,最后用自适应阈值函数进行二值化处理,将图片集B中的图片转化为新的二值化图片集C=M(B)。
4.根据权利要求2所述的一种有限表格自动识别与解析方法,其特征在于,所述步骤1.3具体为:
通过在二值化图片集C的基础上,用长横条、长竖条进行操作,将图片分别化为全横线与全竖线,叠加后获取该图片所有的交点,然后提取出表格框中的各个交点,寻找出图像的轮廓,记录为接着求出各个轮廓的面积,并对过小面积的轮廓利用条件H(x)进行排除,得到第一次筛选过后的目标图像Mp1=H(Dp1);
表达式为:
5.根据权利要求4所述的一种有限表格自动识别与解析方法,其特征在于,所述步骤1.3中的i为所使用筛选算法的种类包括:腐蚀、寻找图像轮廓、对图像进行二进制“非”和图像轮廓面积计算,j为进行筛选的序数,n≥0。
技术研发人员:张贝贝,郭仲穗,郑浩然,李虹岩,邬凛,魏嵬,
申请(专利权)人:西安理工大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。