一种多方向文本比对方法技术

技术编号：32322627 阅读：26 留言：0更新日期：2022-02-16 18:28

本发明专利技术提供一种多方向文本比对方法，包括：将包装设计图导出为PDF格式，并解析出文本内容和对应的位置信息；将PDF解析出来的文本按照间隔拆分文本，并判断拆分后的文本是否一致；利用大量中文语料计算2－gram词频，计算文本正序和反序的概率，并以此作为依据判断文本是否为逆序；根据位置坐标对所有文本分块处理，根据文本正反序判断文本块的方向，然后对文本块内的文本排序并合并；将PDF文本内容与审查用标准文本内容进行比对，匹配相似行，并对相似行差异进行标注。处理结果可以大大降低解析文本和实际文本的结构化差异，提高解析文本和实际文本的检测精度，降低人工干预的工作量，从而降低包装设计成本和精度。从而降低包装设计成本和精度。从而降低包装设计成本和精度。

全部详细技术资料下载

【技术实现步骤摘要】
一种多方向文本比对方法

[0001]本专利技术涉及图像处理领域，更具体地，本专利技术涉及一种基于机器学习的文本方向矫正和文本比对方法。

技术介绍

[0002]在包装设计领域中，为了保证包装设计图中的文字信息的准确，通常会需要在设计图定稿前对其中的文本内容进行审查，尤其是各种许可证编号等重要信息，如果出现错误将造成不可逆的损失。
[0003]常规文本错误比对大多是以人工的方式完成，但是人工方法不仅人工和时间成本较大，而且容易出现漏检和误检等问题。由于印刷设计图可以通过解析获得文本内容，也有一些厂家会使用机器学习的方法进行比对，在其他印刷设计领域是可以达到需求的效果的。但是，包装设计图中会对包装的拆解图进行设计，这是会出现较多旋转成不同角度的文本贴图，在对设计图文件进行解析的时候会导致文本出现逆序、分行、重叠等问题，直接比对会导致大量文本无法被比对成功，影响比对结果。

技术实现思路

[0004]本专利技术针对现有技术中存在的技术问题，提供一种多方向文本比对方法，基于利用机器学习对文本正反序进行判别，利用2－gram计算文本正反序的概率作为判别标准，结合正反序结果和文本坐标分布对分行、重叠文本进行合并或处理。处理结果可以大大降低解析文本和实际文本的结构化差异，提高解析文本和实际文本的检测精度，降低人工干预的工作量，从而降低包装设计成本和精度。
[0005]本专利技术解决上述技术问题的技术方案如下：一种多方向文本比对方法，
[0006]其包括以下步骤：
[0007]S10：将包...

【技术保护点】

【技术特征摘要】
1.一种多方向文本比对方法，其特征在于，其包括以下步骤：S10：将包装设计图导出为PDF格式，并从导出的PDF文件中解析出文本内容和对应的位置信息；S20：将PDF解析出来的文本按照间隔拆分文本，并判断拆分后的文本是否一致，从而判断文本是否重叠；S30：利用大量中文语料计算2－gram词频，计算文本正序和反序的概率，并以此作为依据判断文本是否为逆序；S40：根据位置坐标对所有文本分块处理，根据文本正反序判断文本块的方向，然后对文本块内的文本排序并合并；S50：将PDF文本内容与审查用标准文本内容进行比对，匹配相似行，并对相似行差异进行标注，在处理后作为最终结果。2.根据权利要求1所述的一种多方向文本比对方法，其特征在于，所述步骤S20中，将PDF解析出来的文本进行拆分时，间隔拆分为两个文本，将拆分的两个文本进行比对，若拆分出来的两个文本一致，则原文本为重叠文本，取拆分后的任意文本作为新的文本替换原文本进行后续操作；若拆分出来的两个文本不一致，则说明原文本不是重叠文本，此时不进行操作，以原文本进行后续操作。3.根据权利要求2所述的一种多方向文本比对方法，其特征在于，在步骤S30中，将步骤S20中的输出文本作为步骤S30的输入文本，去除其中的纯数字文本以及文本中的英文字母部分，然后将文本进行反序处理，获得正反两种语序的文本，根据计算好的2－gram模型，对正反语序的两种文本分别...

【专利技术属性】
技术研发人员：吕松南，罗诚，
申请(专利权)人：苏州方正璞华信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人