基于水平投影和种子点约束K均值聚类的横纵切碎纸片重建方法技术

技术编号:16233888 阅读:24 留言:0更新日期:2017-09-19 15:03
本发明专利技术公布了一种基于水平投影和种子点约束K均值聚类的横纵切碎纸片重建方法,把文件碎片的图像向水平方向投影,用投影的来的一维信号进行聚类分行。以每一行首个碎片转化而来的一维信号为种子点约束K均值聚类中的初始种子点,应用K均值算法分行聚类。应用引入惩罚系数的距离计算公式计算每行内碎片之间的距离,并建立碎片之间距离的邻接矩阵,从而把碎片的行内拼接问题转化为旅行商问题。应用蚁群算法求解由行内拼接问题转化而来的旅行商问题,引入合并和分治策略提高行内拼接精度。最后使用行碎片的特征向量匹配实现行碎片的拼接。

Horizontal and longitudinal shredding disk reconstruction method based on horizontal projection and seed point constraint K mean clustering

The invention discloses a shredding disc reconstruction method of transverse and longitudinal horizontal projection and seed point constraint based on K mean clustering, the image file fragments of the horizontal projection, the cluster with the branch of one-dimensional signal projection. To each of the one-dimensional signal fragments transformation from the seed point constrained K clustering in the initial seed point, using K means algorithm branch clustering. Applying the distance formula of penalty coefficient, the distance between the fragments in each line is calculated, and the adjacency matrix between the fragments is established, so that the inner join problem of the fragments is transformed into the traveling salesman problem. Ant colony algorithm (ACO) is used to solve the traveling salesman problem, and the merging and dividing strategy is introduced to improve the alignment accuracy. Finally, the line fragments are spliced using the feature vector matching of row fragments.

【技术实现步骤摘要】
基于水平投影和种子点约束K均值聚类的横纵切碎纸片重建方法
本专利技术属于图像处理领域,涉及的是一种基于横纵切碎纸片图像的文字信息复原拼接方法,是水平投影、种子点受限的K均值聚类以及蚁群方法在碎纸片拼接中的应用。技术背景文件检验是法医学的一个重要子领域,其与刑事、军事、民事、政府执法、司法等领域有重大的联系。文件检验的关键是利用一系列已知的标准并应用科学的方法对可疑文件进行检验对比,例如签名验证、笔迹鉴定等。为了得到可靠的结果,法医工作者必须依靠保存完整的文件。很多时候可疑文件会受到不同程度的毁坏,文件可能被撕去边角,虫蛀,浸湿,以及撕碎。在最后一种情况中,文件可能被人手或者机器撕毁,无论哪种情况,法医工作者们都需要修复文件才能完成下面的鉴定工作。通过碎片的大小和数量以人工的方式来修复粉碎的文件需要大量的时间,修复几份文件可能需要几天甚至几周的时间。而且文件修复拼接是一件非常无聊沉闷的工作,因此设计一个高效的自动文件修复方法显得非常的必要。碎纸机作为保护用户纸质文件信息安全的工具,要求粉碎文件信息不可被复原。多数碎纸机把文件粉碎成横纵向小块状,因此研究横纵切碎纸片修复方法同时可以指导碎纸机的升级设计,更好地保护用户的信息安全。
技术实现思路
本专利技术旨在提出了一种重建横纵切碎纸片拼接方法,该方法较国内外已有的方法拥有更高的精度、更自动化。该方法较之于人工拼接技术,可大大提高工作效率。具体
技术实现思路
如下:1.1.对每一个碎片进行水平投影,把每一个碎片转化为一个一维信号;1.2.根据碎片的一维信号,应用种子点受限的K均值聚类算法实现碎片的分行聚类;1.3.对每一行进行排序,把碎片行内拼接问题转化为旅行商问题,应用蚁群方法求解这个旅行商问题;1.4.使用行碎片的特征向量FC=[a1,a2,a3,a4]进行匹配实现行碎片的拼接。2.所述的步骤1.1包括:2.1.把每一个碎纸片的图像进行二值化处理,当像素点的灰度值大于阈值时二值化为1,灰度值小于阈值时二值化为0;2.2.从左到右累加图像每一行中为黑色的像素点的个数,该过程的数学表达式如下所示:其中f(y)表示图像在y行中黑色的像素点的个数;I(x,y)表示图像I在点(x,y)处的灰度值,当该点是黑色时该点的灰度值为0,当该点是白色时该点的灰度值为1;N表示碎片图像的水平分辨率;2.3.经过步骤2.2.,碎片图像i转化为一个有m维的一维向量di,其中m表示碎片图像的垂直分辨率。3.所述的步骤1.2包括:3.1.根据每行碎片中首个碎片的左部是白的这个特点确定每一行的首个碎片及其一维信号CVF1...CVFt,根据每行碎片中最后一个碎片的右部是白的这个特点确定每一行的最后一个碎片及其一维信号CVL1...CVLt,其中t表示碎片被粉碎的行数;3.2.把每行首个碎片对应的一维信号CVF1...CVFt作为聚类算法中初始的聚类中心向量C1...Ct;3.3.利用欧式距离计算公式计算每一个碎片的一维向量di到各类中心C1...Ct的距离,该步骤的数学表达形式如下所示:disted(di,Cj)=||di-Cj||2其中disted(di,Cj)表示碎片i的一维向量di与聚类中心Cj之间的距离;3.4.把碎片i聚类到离其距离最小的聚类中心j对应的类别中;3.5.根据3.4步骤中的聚类结果重新计算聚类中心,计算公式如下所示:其中|Ci|表示被聚类为i的碎片的个数,C′i表示更新过后的聚类中心Ci,d表示被聚类到聚类中心Ci对应的类的碎片的一维向量;3.6.迭代步骤3.3.-3.5.直到每一类中碎片不再变化;3.7.返回聚类结果。4.所述的步骤1.3包括:4.1.聚类分行结果中的每一类都单独处理,把每行的碎纸片抽象成图论中的顶点,碎片边缘矩阵之间的匹配度抽象成顶点之间的距离;4.2.利用公式计算顶点i到顶点j(的距离dm(i,j),即碎纸片i的右边缘与碎纸片j的左边缘;计算任意顶点之间的距离得到一张完全赋权图;其中p是一个惩罚系数,惩罚系数的定义如下:其中xi表示碎纸片i图像的右边缘所对应的向量;xj表示碎纸片j图像的左边缘对应的向量;xju表示向量xi在位置u处对应的灰度值,xju与xiu类似;T是一个常数,其中可以通过试验确定,经过试验发现,当M被设置为该行碎片中纵向边缘像素点灰度值为0(即该像素点为黑)的个数的平均值时拼接精度较高。4.3.使用蚁群方法计算结果,蚁群方法的参数设为α=1,β=5,ρ=0.5,(其中α代表启发因子,β代表自启发量因子,ρ代表信息素残留系数)蚁群方法中的蚂蚁数量设置为碎纸片的数量。4.4.根据蚁群计算结果重建出行碎片的结果。5.所述的步骤1.4包括:5.1.如果行碎纸片的顶部是白的,则该行碎片顶部中不存在不完整的文字行,令行碎片i的特征向量FCi的第一个分量a1=0;5.2.如果行碎纸片的顶部第一行文字是完整的,则令a1=0,即该行文字的上边界与行碎纸片的上边界重叠;否则令a1=l1,其中l1是行碎片顶部不完整的文字行的底部在碎纸片的位置;5.3.如果行碎纸片的底部是白的,则该行碎片的底部不存在不完整的文字行,令a4=0;5.4.如果行碎纸片的底部最后一行文字是完整的,则令a4=0,(即该行文字的上边界与行碎纸片的下边界重叠);否则令a4=l4,其中l4是行碎片底部不完整文字行的顶部在碎纸片中的位置;5.5.如果行碎纸片中包含任意一行完整的文字,则令a2=l2,a3=l3,其中l2是最靠近行碎纸片底部的那行完整的文字的上边界在碎纸片中的位置,l3是最靠近碎纸片底部的那行完整的文字的下边界在碎纸片中的位置,否则令a2=0,a3=0并跳转执行步骤5.7.;同时令l=l2-l3,l′=a4-a3,其中l是一行文字的字高,l′是文字行之间空隙的高度,如果某个行碎片中没有任何完整的行,导致无法计算l,l′,此时用来自于同一个文件的其他行碎片的平均值代替;5.6.如果a2<L-l-l′,其中L是碎纸片的高度,把a2,A2修正为a2=a2+l+l′,a3=a3+l+l′;如果修正后的a3和未修正的a4满足条件a3+l′≤L∪a4=0,则把a4修正为a4=a3+l′;如果修正后的a2和未修正的a1满足条件(0≤a2-N(l′+l)≤l)∪a1=0时,把a1修正为a1=a2-R(l′+l),其中R是一个常数并且满足R∈{1,2,3};结束特征向量提取;5.7.如果a1=0,a4=0,这意味着该碎纸片中没有文字信息,把该碎片从重建复原问题中移除;否则利用a1,a4,l,l′对a2,a3进行修正并结束特征向量FCi=[a1,a2,a2,a4]提取。5.8.根据碎纸片第一行上部空白没有文字的特点确定碎纸片的第一行以及其特征向量为FC1,令当前待拼接行的特征向量为FCc初始值设定为FCc=FC1。5.9.若某行碎纸片的特征向量FCi的分量与当前待拼接特征向量FCc满足条件或者(表示当前待拼接行的特征向量FCc的分量a4,表示某行碎纸片的特征向量FCi的分量a1;表示当前待拼接行的特征向量FCc的分量a3,表示某行碎纸片的特征向量FCi的分量a2)时认为行碎纸片i与当前待拼接纸片相邻,完成对行碎纸片i的拼接,令FCc=FCi,其中δ是随机误差容忍度可以设定为3。附图说本文档来自技高网...
基于水平投影和种子点约束K均值聚类的横纵切碎纸片重建方法

【技术保护点】
基于水平投影和种子点约束K均值聚类的横纵切碎纸片重建方法,其特征在于,包括如下步骤:1.1.对每一个碎片进行水平投影,把每一个碎片转化为一个一维信号;1.2.根据碎片的一维信号,应用种子点受限的K均值聚类算法实现碎片的分行聚类;1.3.对每一行进行排序,把碎片行内拼接问题转化为旅行商问题,应用蚁群方法求解这个旅行商问题;1.4.使用行碎片的特征向量FC‑[a1,a2,a3,a4]进行匹配实现行碎片的拼接。

【技术特征摘要】
1.基于水平投影和种子点约束K均值聚类的横纵切碎纸片重建方法,其特征在于,包括如下步骤:1.1.对每一个碎片进行水平投影,把每一个碎片转化为一个一维信号;1.2.根据碎片的一维信号,应用种子点受限的K均值聚类算法实现碎片的分行聚类;1.3.对每一行进行排序,把碎片行内拼接问题转化为旅行商问题,应用蚁群方法求解这个旅行商问题;1.4.使用行碎片的特征向量FC-[a1,a2,a3,a4]进行匹配实现行碎片的拼接。2.根据权利要求1所述的方法,其特征在于:所述的步骤1.1包括:2.1.把每一个碎纸片的图像进行二值化处理,当像素点的灰度值大于阈值时二值化为1,灰度值小于阈值时二值化为0;2.2.从左到右累加图像每一行中为黑色的像素点的个数,该过程的数学表达式如下所示:其中f(y)表示图像在y行中黑色的像素点的个数;I(x,y)表示图像I在点(x,y)处的灰度值,当该点是黑色时该点的灰度值为0,当该点是白色时该点的灰度值为1;N表示碎片图像的水平分辨率;2.3.经过步骤2.2.,碎片图像i转化为一个有m维的一维向量di,其中m表示碎片图像的垂直分辨率。3.根据权利要求1所述的方法,其特征在于:所述的步骤1.2包括:3.1.根据每行碎片中首个碎片的左部是白的这个特点确定每一行的首个碎片及其一维信号CVF1...CVFt,根据每行碎片中最后一个碎片的右部是白的这个特点确定每一行的最后一个碎片及其一维信号CVL1...CVLt,其中t表示碎片被粉碎的行数;3.2.把每行首个碎片对应的一维信号CVF1...CVFt作为聚类算法中初始的聚类中心向量C1...Ct;3.3.利用欧式距离计算公式计算每一个碎片的一维向量di到各类中心C1...Ct的距离,该步骤的数学表达形式如下所示:disted(di,Cj)=||di-Cj||2其中disted(di,Cj)表示碎片i的一维向量di与聚类中心Cj之间的距离;3.4.把碎片i聚类到离其距离最小的聚类中心j对应的类别中;3.5.根据3.4步骤中的聚类结果重新计算聚类中心,计算公式如下所示:其中|Ci|表示被聚类为i的碎片的个数,C′i表示更新过后的聚类中心Ci,d表示被聚类到聚类中心Ci对应的类的碎片的一维向量;3.6.迭代步骤3.3.-3.5.直到每一类中碎片不再变化;3.7.返回聚类结果。4.根据权利要求1所述的方法,其特征在于:所述的步骤1.3包括:4.1.聚类分行结果中的每一类都单独处理,把每行的碎纸片抽象成图论中的顶点,碎片边缘矩阵之间的匹配度抽象成顶点之间的距离;4.2.利用公式计算顶点i到顶点j的距离dm(i,j),即碎纸片i的右边缘与碎纸片j的左边缘;计算任意顶点之间的距离得到一张完全赋权图;其中p是一个惩罚系数,惩罚系数的定义如下:其中xi...

【专利技术属性】
技术研发人员:刘有军陈军华王文馨齐兴明
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1