当前位置: 首页 > 专利查询>暨南大学专利>正文

一种碎片复原方法技术

技术编号:22136166 阅读:35 留言:0更新日期:2019-09-18 09:45
本发明专利技术公开了一种碎片复原方法,包括步骤:建立碎片的电子图像,并转化为二值化电子图像;提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符;建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;分行聚类,将属于同一横行的碎片聚为同一类;行内拼接,将同一类碎片拼接;拼接不同行的碎片。本发明专利技术可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符,在保证准确率的前提下自动复原碎纸片。

A debris recovery method

【技术实现步骤摘要】
一种碎片复原方法
本专利技术涉及图像处理
,特别涉及一种基于字符提取技术和边缘字符识别技术的碎片复原方法。
技术介绍
破碎纸片的修复技术常运用在司法取证、历史文献修复以及军事情报的获取等领域上,但面对数量巨大的碎片,人工修复方式效率显得低下,需要开发复原效率高的自动拼接技术,以提高需求方的工作效率,最大化地从碎纸片中获取到准确度高的信息。有许多的研究人员研究了纵横切碎片文本自动重建问题,Schauer等人[1]定义了三种类型的碎纸片目,分别是①具有不规则边缘的手撕型碎片,②被碎纸机切碎的条型碎片,③被碎纸机粉碎的横纵切的碎片。特别是第③种碎纸片,由于光滑的边缘、很少的信息、较难去除的噪声,是难以还原的。Prandstetter证明纵横切文本文档的重构是一个NP问题[SchauerC,PrandtstetterM,GüntherR.Raidl.AMemeticAlgorithmforReconstructingCross-CutShreddedTextDocuments[C]//InternationalConferenceonHybridMetaheuristics.Springer-Verlag,2010]。HedongXu等学者[XuH,ZhengJ,ZhuangZ,etal.Asolutiontoreconstructcross-cutshreddedtextdocumentsbasedoncharacterrecognitionandgeneticalgorithm[C]//AbstractandAppliedAnalysis.Hindawi,2014,2014.]提出了一个基于字符识别和遗传算法的方法去重构纵横切文本碎片,可以有效地重构文本文档。JunhuaChen等学者[ChenJ,KeD,WangZ,etal.Ahighsplicingaccuracysolutiontoreconstructionofcross-cutshreddedtextdocumentproblem[J].MultimediaToolsandApplications,2018,77(15):19281-19300]基于HedongXu等学者提出的方法,引入了组合策略和分而治之的策略来提高准确率。然而对纵横切文本碎片的扫描图像进行重构中还存在很多的问题,首要的问题就是前人的研究大部分是基于电子的纵横切文本碎片进行的[ChenJ,TianM,QiX,etal.ASolutiontoReconstructCross-CutShreddedTextDocumentsBasedonConstrainedSeedK-meansAlgorithmandAntColonyAlgorithm[J].ExpertSystemswithApplications,2019],当使用这些研究在真实的碎片(将文本文档打印在纸上,并且切割、扫描)是不合适的。因为大部分的研究是基于碎片边缘和基准线信息的,然而由于碎片可能会倾斜、裁剪时边缘缺失、扫描仪的曝光,难以判断边缘和基准线。第二个问题是复杂度,由于碎片仅有少量信息和大量难以去除的噪声(比如碎片电子图像中存在大量黑色像素点比较多的多墨行和多墨列),这个NP问题变得更加复杂。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种碎片复原方法,此方法通过行、列投影的方法,可实现在有噪声的碎片图像中找到字符所在行并且准确地提取出字符,在保证准确率的前提下自动复原碎纸片。本专利技术的目的通过以下的技术方案实现:一种碎片复原方法,包括步骤:建立纵横切文本碎片的电子图像,并转化为二值化电子图像;提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符,从而去掉二值化电子图像的噪音;建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;分行聚类,通过确定文本最左侧碎片聚类中心,将其他碎片根据聚类距离分配到离其距离最短的聚类中心所述类,从而将属于同一横行的碎片聚为同一类;行内拼接,通过估计碎片中边缘字符相对于数据库中字符的距离和缺失度,进一步计算任意两张碎片之间的距离,根据两张碎片最小距离的排列将同一类碎片进行行内拼接;拼接不同行的碎片。优选的,所述建立碎片的电子图像包括步骤:将纵横切文本碎片放在异色卡纸上;扫描文本碎片;从彩色的扫描图像中提取纵横切文本碎片的电子图像。更进一步的,所述建立碎片电子图像的具体步骤为:将纵横切文本碎片放在异色的背景(如蓝色)上并且扫描这些文档,扫描过程中保证碎片边缘和扫描仪平行;得到的扫描彩色图像是由rgb矩阵表示,也即由代表红、绿、蓝的三个矩阵表示;通过判断彩色图像中的各矩阵像素点的差异,找出碎片边缘并截出纵横切文本的图像。优选的,所述将碎片的电子图像转化为二值化电子图像的步骤为:将碎片的电子图像转化为灰度图像;设置像素点阈值Y,即灰度矩阵中像素点数值超过Y的点被0代替,其他点的被1代替,得到纵横切文本碎片的二值化电子图像。优选的,所述提取字符行的具体步骤为:做纵横切文本碎片的行投影,即做每行的黑色点个数的函数图像;设置行投影数值的阈值为h1,行投影数值即每行黑色点个数大于h1的行被记录为多墨行;将所有的多墨行的索引放在一个向量中,这样的向量成为多墨行向量,即保存多墨行信息的向量;因为字符的长度是较大的,只有连着的几行都为多墨行的行才为字符行;假设最小的字符长度为T1,记录连续的并且连接起来的长度大于T1的多墨行为字符行。更进一步的,所述提取字符列的步骤为:在一次提取的字符行中做列投影,即做每列的黑色点个数的函数图像;设置列投影数值的阈值为h2,列投影数值即每列黑色点个数大于h2的列被记录为多墨列;将所有的多墨列的索引放在一个向量中,即保存多墨列信息的向量;因为字符的宽度是较大的,只有连着的几列都为多墨列的列才为字符列;假设最小的字符宽度为T2,记录连续的并且连接起来的长度大于T2的多墨列为字符列。更进一步的,所述二次提取字符行的步骤为:通过一次提取字符行、提取字符列,得到单个字符的大致边缘;执行行投影,去除头部和尾部的非多墨行,就得到比较精准的字符的边缘和单个字符的矩阵。优选的,在所述字符数据库的字符图像中,以字符提取技术得到每个字符的边缘;以边缘为边界,提取出每个字符的矩阵L=(lub)x×z,x×z为字符矩阵的规模,x为行数,z为列数;u、b分别为字符矩阵中的点的横坐标和纵坐标。优选的,所述分行聚类的步骤具体为:确定聚类向量v=(a1,a2,a3,a4)T,其中a1为碎片中第一个字符行顶部位置,a2为第一个字符行底部位置,a3为最后一个字符行顶部位置,a4为最后一个字符行底部位置,这里所说的位置为图像的坐标点,也即行索引;选取聚类中心,根据原始文档中最左端的碎片的左侧存在较大面积的留白,筛选出文档中Sm个最左侧碎片。由于最左侧的碎片包含着每个文本行的信息,将这些最左侧的碎片作为聚类中心cp。聚类,将除聚类中心以外的其它碎片根据聚类距离分配到离其距离最短的聚类中心所属类;聚类距离指的是其它碎片q的聚类向量vq=(a'1,a'2,a'3,a'4)T和聚类中心cp的聚类向量之间的距离,a1'为其他碎片本文档来自技高网
...

【技术保护点】
1.一种碎片复原方法,其特征在于,包括步骤:建立纵横切文本碎片的电子图像,并转化为二值化电子图像;提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符;建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;分行聚类,通过确定文本最左侧碎片聚类中心,将其他碎片根据聚类距离分配到离其距离最短的聚类中心所述类,从而将属于同一横行的碎片聚为同一类;行内拼接,通过估计碎片中边缘字符相对于数据库中字符的距离和缺失度,进一步计算任意两张碎片之间的距离,根据两张碎片最小距离的排列将同一类碎片进行行内拼接;拼接不同行的碎片。

【技术特征摘要】
1.一种碎片复原方法,其特征在于,包括步骤:建立纵横切文本碎片的电子图像,并转化为二值化电子图像;提取碎片字符,在一次提取字符行的基础上进一步提取字符列,再二次提取字符行,提取到所需的单个字符;建立字符数据库,数据库中的字符图像为与碎片中的字符相同字体的二值化矩阵;分行聚类,通过确定文本最左侧碎片聚类中心,将其他碎片根据聚类距离分配到离其距离最短的聚类中心所述类,从而将属于同一横行的碎片聚为同一类;行内拼接,通过估计碎片中边缘字符相对于数据库中字符的距离和缺失度,进一步计算任意两张碎片之间的距离,根据两张碎片最小距离的排列将同一类碎片进行行内拼接;拼接不同行的碎片。2.根据权利要求1所述的碎片复原方法,其特征在于,所述提取字符行的具体步骤为:做纵横切文本碎片的行投影,即做每行的黑色点个数的函数图像;设置行投影数值的阈值为h1,行投影数值大于h1的行被记录为多墨行;将所有的多墨行的索引放在一个向量中,这样的向量成为多墨行向量,即保存多墨行信息的向量;假设最小的字符长度为T1,记录连续的并且连接起来的长度大于T1的多墨行为字符行。3.根据权利要求2所述的碎片复原方法,其特征在于,所述提取字符列的步骤为:在一次提取的字符行中做列投影,即做每列的黑色点个数的函数图像;设置列投影数值的阈值为h2,列投影数值即每列黑色点个数大于h2的列被记录为多墨列;将所有的多墨列的索引放在一个向量中,即保存多墨列信息的向量;因为字符的宽度是较大的,只有连着的几列都为多墨列的列才为字符列;假设最小的字符宽度为T2,记录连续的并且连接起来的长度大于T2的多墨列为字符列。4.根据权利要求2所述的碎片复原方法,其特征在于,所述二次提取字符行的步骤为:通过一次提取字符行、提取字符列,得到单个字符的大致边缘;执行行投影,去除头部和尾部的非多墨行,就得到比较精准的字符的边缘和单个字符的矩阵。5.根据权利要求1所述的碎片复原方法,其特征在于,在所述字符数据库的字符图像中,以字符提取技术得到每个字符的边缘,以边缘为边界,提取出每个字符的矩阵L=(lub)x×z;x×z为字符矩阵的规模,x为行数,z为列数;u、b分别为字符矩阵中的点的横坐标和纵坐标。6.根据权利要求1所述的碎片复原方法,其特征在于,所述分行聚类的步骤具体为:确定聚类向量v=(a1,a2,a3,a4)T,其中a1为碎片中第一个字符行顶部位置,a2为第一个字符行底部位置,a3为最后一个字符行顶部位置,a4为最后一个字符行底部位置;选取聚类中心,根据原始文档中最左端的碎片的左侧存在较大面积的留白,筛选出文档中Sm个最左侧碎片,将这些最左侧的碎片作为聚类中心cp;聚类,将除聚类中心以外的其它碎片根据聚类距离分配到离其距离最短的聚类中心所属类;聚类距离指的是其它碎片q的聚类向量vq=(a′1,a'2,a'3,a'4)T和聚类中心cp的聚类向量vcp=(a1,a2,a3,a4)T之间的距离,a1'为其他碎片中第一个字符行顶部位置,a2'为其他碎片第一个字符行底部位置,a3'为其他碎片最后一个字符行顶部位置,a4'为其他碎片最后一个字符行底部位置;聚类距离利用上述步骤将所有碎片归为Sm类,并统计每一类的碎片数目。7.根据权利要求1所述的碎片复原方法,其特征在于,将同一类碎片进行行内拼接前,计算每两张碎片的最小距离,具体步骤为:提取碎片的边缘字符,计算边缘字符和字符库中每个字符的距离,得到边缘字...

【专利技术属性】
技术研发人员:郑蕾樊锁海
申请(专利权)人:暨南大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1