一种结合图像校正的文本数据采集系统及方法技术方案

技术编号:38401434 阅读:11 留言:0更新日期:2023-08-07 11:13
本发明专利技术公开了一种结合图像校正的文本数据采集方法和系统,其中采集方法包括以下步骤:步骤S1、对目标文档图像进行校正,得到校正后的目标文档图像;步骤S2、对校正后的目标文档图像进行文本数据采集。本发明专利技术解决了现有基于图像分类模型的图像校正方法需要大量标注数据,数据需求量大且人工标注困难的问题;还可以解决现有基于特征点匹配的图像校正方法难以同时获取目标图像左右视角数据,校正方法适用性有限,难以推广的问题;并且还解决现有方法没有将图像校正与文本数据采集过程有机结合,文本数据采集和预处理困难的问题。文本数据采集和预处理困难的问题。文本数据采集和预处理困难的问题。

【技术实现步骤摘要】
一种结合图像校正的文本数据采集系统及方法


[0001]本专利技术涉及文本数据采集领域。更具体地说,本专利技术涉及一种结合图像校正的文本数据采集方法与系统。

技术介绍

[0002]文本数据采集是建造场景知识图谱构建任务体系中的重要环节,但通常所获取的建造场景数据是无法直接编辑的文件格式,例如工程方案的PDF扫描件或移动设备拍摄的图像(统称为文档图像)。同时由于各种人为操作或其他因素的原因,导致文档图像不可避免地存在一定的倾斜角度。为了提取出文档图像中的文字信息,常用的方式为光学字符识别(OCR)。但由于工程文档版面复杂,直接对带有倾斜角度的文档图像进行字符识别,效果往往不佳,尤其是对于同时包含文字、图像、表格与特殊符号的倾斜文档图像,OCR识别精度尤其低下。
[0003]对文档图像进行校正是提高OCR识别率的重要手段,且目前也提出了一些方法。
[0004]方法1:在基于图像分类模型的方法中,分类模型由包含预先估计倾斜角度的标注图像训练得到;
[0005]方法2:在基于图像特征点匹配的方法中,特征点匹配对集合的建立是基于目标文档图像的左右视角数据得到的;
[0006]方法3:在基于局部信息的校正方法中,其在确定文本行的尺度后,通过对文本行的跟踪与分割处理后,依次对文字块进行处理;
[0007]对于方法1,图像分类模型的训练需要大量的带标注图像数据集,同时该方法需要实现对文档图像倾斜角的事先估计,从而实现图像的标注。因此,数据标注过程人为主观性高,同时数据需求量大,导致该方面成本较高且分类模型的精度难以保障;
[0008]对于方法2,为了实现特征点的匹配,需要同时获取目标件左、右视角的拍摄图像。对于来自第三方的工程文档图像数据,由于难以获取原件,以至于无法满足目标图像的左右视角拍摄条件,导致该方法的可行性受到极大限制;
[0009]对于方法3,其关键是确定文本行的尺度与行边界以及文字笔画的间距。则对于版面复杂而不具备大段文本条件的复杂布局文本图像,此方法流程较为复杂且适用性不足。
[0010]此外,现有的方法都仅进行了文档图像倾斜角度的校正,而没有将图像校正与文本数据采集过程进行有机结合。OCR技术尽管可以实现对图像中文字或字符(统称为文本)的获取,但计算机却无法直接对该文本进行处理。因此,有必要研究一种同时融合图像校正与数据采集的方法与系统,为知识图谱构建任务的后续环节提供便利。

技术实现思路

[0011]为了实现根据本专利技术的这些目的和其它优点,一方面,本专利技术的提供了一种结合图像校正的文本数据采集方法,包括以下步骤:
[0012]步骤S1、对目标文档图像进行校正,得到校正后的目标文档图像;
[0013]步骤S2、对校正后的目标文档图像进行文本数据采集。
[0014]优选地,所述步骤S1、对目标文档图像进行校正,得到校正后的文档图像,具体包括以下步骤:
[0015]步骤S11、读取待校正的目标文档图像数据;
[0016]步骤S12、对目标文档图像进行形态学处理,生成包含有关键信息的文档页面区域的掩膜,得到文档页面区域干净的目标文档图像的空白页面;
[0017]步骤S13、去除目标文档图像的图像背景;
[0018]步骤S14、检测文档页面区域的边缘与轮廓;
[0019]步骤S15、对文档页面区域进行角点检测;
[0020]步骤S16、对目标文档图像进行透视变换,此时完成目标文档图像的校正处理。
[0021]优选地,所述步骤S1中,在所述步骤S16之后还包括以下步骤:
[0022]S17、对目标文档图像进行剪裁,保留校正处理之后的文档页面区域。
[0023]优选地,所述步骤S15、对文档页面区域进行角点检测,具体包括以下步骤:
[0024]通过角点检测的方式,首先定位识别到文档页面区域的四个角,同时获取文档页面区域的四个角点平面坐标。
[0025]优选地,所述步骤S16、对目标文档图像进行透视变换,具体包括以下步骤:
[0026]结合文档页面区域的角点坐标以及文档图像的长度和宽度信息,对文档页面区域进行透视变换,实现文档页面区域与目标文档图像的空间对齐。
[0027]优选地,所述步骤S2、对校正后的目标文档图像进行文本数据采集,具体包括以下步骤:
[0028]步骤S21、利用OCR技术进行字符识别提取,并将识别提取的文本数据以txt的形式存储;
[0029]步骤S22、对提取得到的文本数据进行中文分词处理;
[0030]步骤S23、去除文本数据中的停用词;
[0031]步骤S24、对文本数据进行编码处理,以构建词向量;
[0032]步骤S25、对词向量进行聚类处理;
[0033]步骤S26、结合文本聚类结果将采集得到的文本数据分别存储到数据库中。
[0034]另一方面,本专利技术的一优选实施方案提供了一种结合图像校正的文本数据采集系统,包括文档图像校正模块和文本数据采集模块,其中,所述文档图像校正模块用于对目标文档图像进行校正处理,所述文本数据采集模块用于对校正后的目标文档图像进行文本数据采集。
[0035]优选地,其中所述文档图像校正模块包括文档图像数据转换模块、数字图像处理模块、透视变换与校正模块以及文档图像存储模块,其中,
[0036]所述文档图像数据转换模块用于将待处理的目标文档图像读取载入到文档图像数据校正系统,为后续处理步骤提供数据支撑;
[0037]所述数字图像处理模块用于对读取载入的目标文档图像进行一次预处理,该一次预处理包括形态学处理、文档图像背景消除、文档页面区域的边缘轮廓检测处理;
[0038]所述透视变换与校正模块用于对经过边缘轮廓检测处理的目标文档图像进行二次预处理,该一次预处理包括角点检测、透视变换、以及文档图像页面区域的裁剪对齐处
理;
[0039]所述文档图像存储模块用于对经过二次预处理的目标文档图像校正对齐后的文档图像数据进行格式化存储。
[0040]优选地,所述文本数据采集模块包括OCR模块、文本数据预处理模块以及结构化存储模块,其中,
[0041]所述OCR模块用于对讲过文档校正处理后的文档图像数据进行关键信息的识别提取,对识别提取到的文本数据以txt格式进行存储;
[0042]所述文本数据预处理模块用于对txt格式的文本数据进行系列预处理,该系列预处理包括对提取得到的文本数据进行中文分词处理,去除文本数据中的停用词,对文本数据进行编码处理,以构建词向量,对词向量进行聚类处理;
[0043]所述结构化存储模块用于将经过系列预处理的文本数据进行结构化存储。
[0044]本专利技术至少包括以下有益效果:
[0045]一、本专利技术解决现有基于图像分类模型的图像校正方法需要大量标注数据,数据需求量大且人工标注困难的问题;
[0046]二、本专利技术解决现有基于特征点匹配的图像校正方法难以同本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合图像校正的文本数据采集方法,其特征在于,包括以下步骤:步骤S1、对目标文档图像进行校正,得到校正后的目标文档图像;步骤S2、对校正后的目标文档图像进行文本数据采集。2.根据权利要求1所述的结合图像校正的文本数据采集方法,其特征在于,所述步骤S1、对目标文档图像进行校正,得到校正后的文档图像,具体包括以下步骤:步骤S11、读取待校正的目标文档图像数据;步骤S12、对目标文档图像进行形态学处理,生成包含有关键信息的文档页面区域的掩膜,得到文档页面区域干净的目标文档图像的空白页面;步骤S13、去除目标文档图像的图像背景;步骤S14、检测文档页面区域的边缘与轮廓;步骤S15、对文档页面区域进行角点检测;步骤S16、对目标文档图像进行透视变换,此时完成目标文档图像的校正处理。3.根据权利要求2所述的结合图像校正的文本数据采集方法,其特征在于,所述步骤S1中,在所述步骤S16之后还包括以下步骤:S17、对目标文档图像进行剪裁,保留校正处理之后的文档页面区域。4.根据权利要求2所述的结合图像校正的文本数据采集方法,其特征在于,所述步骤S15、对文档页面区域进行角点检测,具体包括以下步骤:通过角点检测的方式,首先定位识别到文档页面区域的四个角,同时获取文档页面区域的四个角点平面坐标。5.根据权利要求2所述的结合图像校正的文本数据采集方法,其特征在于,所述步骤S16、对目标文档图像进行透视变换,具体包括以下步骤:结合文档页面区域的角点坐标以及文档图像的长度和宽度信息,对文档页面区域进行透视变换,实现文档页面区域与目标文档图像的空间对齐。6.根据权利要求1所述的结合图像校正的文本数据采集方法,其特征在于,所述步骤S2、对校正后的目标文档图像进行文本数据采集,具体包括以下步骤:步骤S21、利用OCR技术进行字符识别提取,并将识别提取的文本数据以txt的形式存储;步骤S22、对提取得到的文本数据进行中文分词处理;步骤S23、去除文本数据中的停用...

【专利技术属性】
技术研发人员:张永涛田唯王永威肖垚李焜耀朱浩陈圆杨华东刘志昂吕丹枫薛现凯徐双双郑建新王紫超李浩代百华周浩孙南昌
申请(专利权)人:中交公路长大桥建设国家工程研究中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1