System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 多源测绘数据智能上图方法技术_技高网

多源测绘数据智能上图方法技术

技术编号:40147884 阅读:10 留言:0更新日期:2024-01-24 00:41
本发明专利技术公开了一种多源测绘数据智能上图方法。本发明专利技术针对现有测绘报告文件类型多样、信息内容表达标准不统一,数据提取困难、识别度低的问题,首先将测绘报告文件按文件类别分别进行文件格式标准化,然后提取文件内容信息,并将数据中的坐落字第号、中央经线、坐标系、界址点坐标集等进行标准统一化,使得整体上图过程自动化处理,降低人员工作量,提高上图效率。

【技术实现步骤摘要】

本专利技术涉及数据采集、测绘、地图等,具体涉及一种可适配多格式多模态的多源测绘数据智能上图方法


技术介绍

1、在全国性的房地产管理机构对房地产坐落管理的场景中,有一项非常重要的数据即是坐落的界址点坐标集,该数据都是经过测绘后得出,会附在测绘报告中。但因为全国各地房地产坐落多,在不同地域会选择不同的测绘公司来进行测绘,最终导致测绘报告格式不统一,除界址信息外的其他关键信息标准不统一,还有些因为时间久远,只剩下一些测绘报告图片或pdf。这给房地产坐落管理带来了不少麻烦,因此目前为了统一格式房地产管理机构希望将这些数据统一,并放到信息系统中的地图上,实现一张图管地。

2、测绘数据上图的过程中,因测绘数据的格式不统一,使得上图过程变得非常困难,常规的上图过程如下:首先收集各种格式的测绘报告信息,包括word、excel、pdf、图片等格式;然后读取其中内容,人工制作关键信息模板,里面包括坐落名、坐落省市县位置、坐落界址坐标集、坐标系和中央经线等。并将测绘报告的内容填入模板;最后将维护好的模板导入系统。上述过程的问题在于,测绘报告有上万的量级,用这种方式将耗费大量的人工,效率极低,对于word、excel还能复制文字,对于图片、pdf只能手动输入。


技术实现思路

1、有鉴于此,本专利技术提供了一种多源测绘数据智能上图方法,输入测绘报告word、excel、pdf、图片文件后可以输出界址坐标集等关键信息,并可直接入库上图,能有效解决界址图片识别率低、非标准数据提取困难的问题,节省人员工作量,提升测绘数据上图效率。

2、本专利技术的多源测绘数据智能上图方法,包括:

3、步骤1,提取测绘文件,并按文件类型,将各类型文件的格式进行统一;

4、步骤2,对测绘文件的内容信息进行识读;其中,对于word文件和excel文件,直接进行文字识读;对于图片文件,利用深度学习算法构建的模型进行文字识读;

5、步骤3,提取关键信息,所述关键信息包括:坐落字第号、中央经线、界址点坐标集、坐标系和省市县位置;

6、其中,坐落字第号的提取具体为:构建一套坐落字的标准值表,所述标准值表由坐落字所有可能的数据值构成;利用所述标准值表识别出坐落字后,再通过游标后移的方式,寻找四位的坐落号,获取坐落唯一标识;

7、中央经线的提取具体为:首先利用中央经线所有可能的历史名称进行匹配,然后基于数据单位“度”或“°”进行截取,得到其标准值;若中央经线缺失,则利用界址点位的三度投影分带带号或者各省市位置或者坐落字号匹配得到中央经线;

8、界址点坐标集的提取具体为:首先统一坐标系为cscg2000;然后对因表格合并单元格导致的重复数据进行去重。针对重复出现的相同编号,需判断两个相同编号中间是否有其他编号值,若无,则删除该重复的相同编号,若两个相同编号中间存在有其他编号值,则保留该重复的相同编号,如两次出现j2,中间还有j3、j4……的值,说明这是一个闭环了坐标点的地块,无需去重。若部分坐落存在界址点坐标不闭合的情况,则在坐标集中加入坐标强制闭合坐标集以形成地块,如一个坐标集只有j1、j2、j3、j4,则说明坐标集未闭合,在最后补上一个j1的坐标,使界址点坐标闭环;

9、步骤4,将识别出的信息通过坐落字第号与数据库中存在的坐落实体信息进行关联,更新数据库,实现上图。

10、较优的,所述步骤1中,首先对文件进行解压缩,然后将pdf文件转化为word文件或图片文件;将word文件统一为docx格式;将excel文件统一为xls格式;将图片文件统一为jpg格式。

11、较优的,所述步骤2中,图片文件的文字识读具体为:

12、s2.1,对图片进行腐蚀操作和膨胀操作,进行去噪和平滑处理;

13、s2.2,利用db方法区分文字区域和背景区域,对文字区域进行划分和标记;

14、s2.3,通过crnn模型对标记的文字区域进行识别。

15、较优的,所述步骤3中,中央经线缺失时,具体获得方法如下:

16、①将界址点位的三度投影分带带号的值乘以3,则是中央经线;

17、②通过数据汇总,得到各坐落省市县位置与中央经线对应的字典表,通过该字典表匹配获得中央经线;

18、③通过数据汇总,得到各坐落字与中央经线对应的字典表,通过该字典表匹配得到中央经线。

19、较优的,所述步骤3中,采用双重json数组的数据结构对界址坐标集数据进行存储。

20、有益效果:

21、本专利技术针对现有测绘报告文件类型多样、信息内容表达标准不统一,数据提取困难、识别度低的问题,首先将测绘报告文件按文件类别分别进行文件格式标准化,然后提取文件内容信息,并将数据中的坐落字第号、中央经线、坐标系、界址点坐标集等进行标准统一化,使得整体上图过程自动化处理,降低人员工作量,提高上图效率。

本文档来自技高网...

【技术保护点】

1.一种多源测绘数据智能上图方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述步骤1中,首先对文件进行解压缩,然后将pdf文件转化为word文件或图片文件;将word文件统一为docx格式;将excel文件统一为xls格式;将图片文件统一为jpg格式。

3.如权利要求1所述的方法,其特征在于,所述步骤2中,图片文件的文字识读具体为:

4.如权利要求1所述的方法,其特征在于,所述步骤3中,中央经线缺失时,具体获得方法如下:

5.如权利要求1所述的方法,其特征在于,所述步骤3中,采用双重JSON数组的数据结构对界址坐标集数据进行存储。

【技术特征摘要】

1.一种多源测绘数据智能上图方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述步骤1中,首先对文件进行解压缩,然后将pdf文件转化为word文件或图片文件;将word文件统一为docx格式;将excel文件统一为xls格式;将图片文件统一为jpg格式。

3....

【专利技术属性】
技术研发人员:李成杰田丙华许长朋
申请(专利权)人:中国电子科技集团公司第十五研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1