【技术实现步骤摘要】
通过表格线复原法识别环评报告书复杂表格的方法及系统
[0001]本专利技术涉及环境影响评价领域以及图像识别
,并特别涉及一种基于表格线复原的环评报告书复杂表格信息提取方法及系统。
技术介绍
[0002]环境评价报告书,简称“环评报告书”是由具有相应资质的单位组织,由取得环境影响评价工程师职业资格证书的专业人员编写,对可能造成重大环境影响的建设项目编制的对产生的环境影响进行全面评价的一种环境影响评价文件。
[0003]环评报告书需要对新建、扩建、改建项目对环境造成的影响进行预见性评估。根据对项目所在地的地下水、土壤的监测,对项目所用原材料、可能产生的废弃物、项目的环保设施的设计的评价,从而评估项目建成对环境的影响。环评报告书的编写需要依据各类环境保护法律法规及相关环境评价技术导则文件,通常在国家级相关法规导则的基础上,各地政府还可以基于本地具体情况制定和发布地方标准、规定、导则文件。同时,根据领域方向的不同,分为化工石化医药类、建材火电类、轻工纺织化纤类、冶金机电类、交通运输类、农林水利类、采掘类、海洋工程类、输 ...
【技术保护点】
【技术特征摘要】
1.一种通过表格线复原法识别环评报告书复杂表格的方法,其特征在于,包括:步骤1、获取环评报告书中复杂表格,对该复杂表格中各单元格字符进行OCR识别,得到每个单元格对应的OCR识别结果,并记录每个OCR识别结果在复杂表格中的位置及尺寸;步骤2、剔除该复杂表格中所有字符,得到空表格,对该空表格中所有横向和竖向线段的交叉点进行定位,以每个交叉点为坐标,向横向和竖向进行线段延伸,形成不存在合并单元格的规范表格;步骤3、从所有OCR识别结果选择第一项OCR识别结果作为当前识别结果;步骤4、基于当前识别结果的尺寸及其在该复杂表格中位置的中心点,向上下左右延伸,直至与其在复杂表格中单元格的表格线碰撞,将该规范表格中与碰撞的表格线位置相同的表格线围成范围内的所有单元格均赋值为该当前识别结果;步骤5、从所有OCR识别结果选择下一项作为当前识别结果,再次执行该步骤4,至直所有OCR识别结果均赋值到该规范表格,保存当前规范表格作为该复杂表格的复原识别结果。2.如权利要求1所述的通过表格线复原法识别环评报告书复杂表格的方法,其特征在于,该复杂表格已经过二值化处理。3.如权利要求1所述的通过表格线复原法识别环评报告书复杂表格的方法,其特征在于,步骤1中该环评报告书中复杂表格的格式为PDF。4.一种通过表格线复原法识别环评报告书复杂表格的系统,其特征在于,包括:模块1,用于获取环评报告书中复杂表格,对该复杂表格中各单元格字符进行OCR识别,得到每个单元格对应的OCR识别结果,并记录每个OCR...
【专利技术属性】
技术研发人员:高爽,韩鑫勇,屈加豹,易爱华,陈陆霞,雷团团,王龙飞,
申请(专利权)人:生态环境部环境工程评估中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。