一种基于DFS与改进中心聚类法的破碎文档拼接方法技术

技术编号：16346543 阅读：55 留言：0更新日期：2017-10-03 22:32

本发明专利技术属于破碎文档拼接技术领域，公开了一种基于DFS与改进中心聚类法的破碎文档拼接方法，包括：使用相似度进行拼接，再基于差异度进行纠错；基于改进中心聚类法以及DFS复原拼接算法，并在DFS拼接复原算法中综合相似度、差异度、留黑阈值参数来充分挖掘两张碎片的匹配程度。本发明专利技术进一步降低了人为因素，并取得了很好的聚类效果；使用相似度进行拼接，再基于差异度进行纠错；避开遗传算法，增加了算法的正确率。本发明专利技术通过推导阈值范围公式使得中心聚类法效果更好，并在DFS拼接复原算法中综合相似度、差异度、留黑阈值等参数来充分挖掘两张碎片的匹配程度，进一步降低了人工干预次数。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于DFS与改进中心聚类法的破碎文档拼接方法
本专利技术属于破碎文档拼接
，尤其涉及一种基于DFS与改进中心聚类法的破碎文档拼接方法。
技术介绍
现阶段规则切割文档碎片拼接问题的处理大多分两步，第一步，使用聚类方法对所有碎片进行聚类，以便找出原本属于一行的碎片，方便后续处理。第二步，对属于一行碎纸片，基于相似度算法或者遗传算法单独进行拼接，部分特殊拼接情况进行人工干预。但是，由于碎纸片切割情况复杂，导致聚类方法和拼接算法经常无法应对特殊情况。现阶段拼接算法主要包含以下缺点：聚类算法易失效。对于文档中分段造成的段前空白等特殊情况，现阶段聚类算法往往会无法应对而失效。基于相似度的拼接算法原则太过单一，缺乏鲁棒性，并不能涵盖拼接过程中所有的可能性。对于碎纸片拼接这类NP难问题，随着碎片拼接规模的上升，该方法并不能取得很好的效果。另一方面，用于解决NP难问题常用的优化算法—遗传算法，实际效果并不好，这主要是因为遗传算法中种群规模、种群变异率与交叉率等参数需要进行人为设定，若设置不合理将使得计算结果收敛到局部最优而达不到期望的效果。综上所述，现有技术存在的问题是：...
一种基于DFS与改进中心聚类法的破碎文档拼接方法

【技术保护点】
一种基于DFS与改进中心聚类法的破碎文档拼接方法，其特征在于，所述基于DFS与改进中心聚类法的破碎文档拼接方法包括以下步骤：步骤一，首先使用相似度进行拼接，再基于差异度进行纠错；步骤二，基于改进中心聚类法以及DFS复原拼接算法，通过推导阈值范围公式使得中心聚类法将同一行纸片汇集的效果更好，并在DFS拼接复原算法中综合相似度、差异度、留黑阈值等参数来充分挖掘两张碎片的相似程度。

【技术特征摘要】
1.一种基于DFS与改进中心聚类法的破碎文档拼接方法，其特征在于，所述基于DFS与改进中心聚类法的破碎文档拼接方法包括以下步骤：步骤一，首先使用相似度进行拼接，再基于差异度进行纠错；步骤二，基于改进中心聚类法以及DFS复原拼接算法，通过推导阈值范围公式使得中心聚类法将同一行纸片汇集的效果更好，并在DFS拼接复原算法中综合相似度、差异度、留黑阈值等参数来充分挖掘两张碎片的相似程度。2.如权利要求1所述的基于DFS与改进中心聚类法的破碎文档拼接方法，其特征在于，所述基于DFS与改进中心聚类法的破碎文档拼接方法具体包括以下步骤：步骤一：预处理，包括将所有碎片图像灰度化、归一化并反色，使得有字部分像素值为1，无字部分像素值为0；步骤二：提取特征并获得中心向量，提取每张纸片两侧的像素向量作为特征向量，并根据特征向量是否连续出现0获得每行字中心位置以得到中心向量；对两张待拼接的碎纸片来说，计算出各自的中心向量；分别记作hi和hj；设定中线偏移误差阈值t1，将第一个向量的各个分量与第二个向量的某分量分别相减，满足条件：的纸片才属于同一行，其中W表示中心向量的维度，符号表示向上取整；重复判断步骤即可将所有碎纸片按行归类；步骤三：将每张纸片特征向量的内积作为两张纸片间的相似度：Si,j＝VeciTVecj；其中Veci与Vecj...

【专利技术属性】
技术研发人员：李玲娜，杨丰祥，彭凯巍，唐瑞，
申请(专利权)人：西南石油大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人