一种多方向文本比对方法技术

技术编号:32322627 阅读:26 留言:0更新日期:2022-02-16 18:28
本发明专利技术提供一种多方向文本比对方法,包括:将包装设计图导出为PDF格式,并解析出文本内容和对应的位置信息;将PDF解析出来的文本按照间隔拆分文本,并判断拆分后的文本是否一致;利用大量中文语料计算2-gram词频,计算文本正序和反序的概率,并以此作为依据判断文本是否为逆序;根据位置坐标对所有文本分块处理,根据文本正反序判断文本块的方向,然后对文本块内的文本排序并合并;将PDF文本内容与审查用标准文本内容进行比对,匹配相似行,并对相似行差异进行标注。处理结果可以大大降低解析文本和实际文本的结构化差异,提高解析文本和实际文本的检测精度,降低人工干预的工作量,从而降低包装设计成本和精度。从而降低包装设计成本和精度。从而降低包装设计成本和精度。

【技术实现步骤摘要】
一种多方向文本比对方法


[0001]本专利技术涉及图像处理领域,更具体地,本专利技术涉及一种基于机器学习的文本方向矫正和文本比对方法。

技术介绍

[0002]在包装设计领域中,为了保证包装设计图中的文字信息的准确,通常会需要在设计图定稿前对其中的文本内容进行审查,尤其是各种许可证编号等重要信息,如果出现错误将造成不可逆的损失。
[0003]常规文本错误比对大多是以人工的方式完成,但是人工方法不仅人工和时间成本较大,而且容易出现漏检和误检等问题。由于印刷设计图可以通过解析获得文本内容,也有一些厂家会使用机器学习的方法进行比对,在其他印刷设计领域是可以达到需求的效果的。但是,包装设计图中会对包装的拆解图进行设计,这是会出现较多旋转成不同角度的文本贴图,在对设计图文件进行解析的时候会导致文本出现逆序、分行、重叠等问题,直接比对会导致大量文本无法被比对成功,影响比对结果。

技术实现思路

[0004]本专利技术针对现有技术中存在的技术问题,提供一种多方向文本比对方法,基于利用机器学习对文本正反序进行判别,利用2-gram计算文本正反序的概率作为判别标准,结合正反序结果和文本坐标分布对分行、重叠文本进行合并或处理。处理结果可以大大降低解析文本和实际文本的结构化差异,提高解析文本和实际文本的检测精度,降低人工干预的工作量,从而降低包装设计成本和精度。
[0005]本专利技术解决上述技术问题的技术方案如下:一种多方向文本比对方法,
[0006]其包括以下步骤:
[0007]S10:将包装设计图导出为PDF格式,并从导出的PDF文件中解析出文本内容和对应的位置信息;
[0008]S20:将PDF解析出来的文本按照间隔拆分文本,并判断拆分后的文本是否一致,从而判断文本是否重叠;
[0009]S30:利用大量中文语料计算2-gram词频,计算文本正序和反序的概率,并以此作为依据判断文本是否为逆序;
[0010]S40:根据位置坐标对所有文本分块处理,根据文本正反序判断文本块的方向,然后对文本块内的文本排序并合并;
[0011]S50:将PDF文本内容与审查用标准文本内容进行比对,匹配相似行,并对相似行差异进行标注,在处理后作为最终结果。
[0012]在上述技术方案的基础上,本专利技术还可以作出如下改进。
[0013]可选的,所述步骤S20中,将PDF解析出来的文本进行拆分时,间隔拆分为两个文本,将拆分的两个文本进行比对,若拆分出来的两个文本一致,则原文本为重叠文本,取拆
分后的任意文本作为新的文本替换原文本进行后续操作;若拆分出来的两个文本不一致,则说明原文本不是重叠文本,此时不进行操作,以原文本进行后续操作。
[0014]可选的,在步骤S30中,将步骤S20中的输出文本作为步骤S30的输入文本,去除其中的纯数字文本以及文本中的英文字母部分,然后将文本进行反序处理,获得正反两种语序的文本,根据计算好的2-gram模型,对正反语序的两种文本分别计算概率值,其中,概率高的为正确文本顺序,输出结果包括正确语序的文本、原文本的正反序布尔值以及文本位置坐标;其中,文本正反序布尔值中,正序为0,反序为1。
[0015]可选的,在步骤S40中,将步骤S30中输出的信息作为输入,根据文本的坐标位置计算文本之间的距离,设定一个阈值作为聚类的范围,距离在阈值内的文本聚为一类,作为一个文本块。
[0016]可选的,统计文本块中的文本正反序布尔值的数量,定义:反序多的情况,则文本块整体为反序,其中的所有文本都为反序,将原本为正序的文本做反序处理;正序多的情况则文本块整体为正序,其中所有的文本都为正序,将原本反序的文本做正序处理。
[0017]可选的,根据文本块中文本的位置坐标对文本进行排序,文本块为正序则采用升序,文本块为反序则采用降序;再根据位置坐标判断文本间的位置关系为同行还是同列,以同行优先于同列的顺序进行文本拼接,并将其作为新的文本内容,且计算文本块的最大包含矩形的坐标为新的位置坐标。
[0018]可选的,在步骤S50中,处理后的文本与审查用标准文本进行文本比对时,逐条计算两组文本间的相似度进行组合,对每对文本进行差异提取,判断文本之间的差异类型,并输出最终结果。
附图说明
[0019]图1为本专利技术的一种多方向文本比对方法的流程示意图。
[0020]图2为本专利技术的一种多方向文本比对方法的文本重叠识别与处理方法的流程示意图。
[0021]图3为本专利技术的一种多方向文本比对方法的文本正反序检测与处理方法的流程示意图。
[0022]图4为本专利技术的一种多方向文本比对方法的文本分块合并处理方法的流程示意图。
具体实施方式
[0023]下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。
[0024]在本专利技术的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0025]图1为本专利技术提供的一种多方向文本比对方法的流程示意图,如图1所示,本实施例公开的一种多方向文本比对方法,
[0026]其包括以下步骤:
[0027]S10:将包装设计图导出为PDF格式,并从导出的PDF文件中解析出文本内容和对应的位置信息;
[0028]S20:将PDF解析出来的文本按照间隔拆分文本,并判断拆分后的文本是否一致,从而判断文本是否重叠;
[0029]S30:利用大量中文语料计算2-gram词频,计算文本正序和反序的概率,并以此作为依据判断文本是否为逆序;
[0030]S40:根据位置坐标对所有文本分块处理,根据文本正反序判断文本块的方向,然后对文本块内的文本排序并合并;
[0031]S50:将PDF文本内容与审查用标准文本内容进行比对,匹配相似行,并对相似行差异进行标注,在处理后作为最终结果。
[0032]可以理解的是,基于
技术介绍
中的缺陷,本专利技术实施例提出了一种多方向文本比对方法,基于利用机器学习对文本正反序进行判别,利用2-gram计算文本正反序的概率作为判别标准,结合正反序结果和文本坐标分布对分行、重叠文本进行合并或处理。本实施例的多方向文本比对方法的处理结果可以大大降低解析文本和实际文本的结构化差异,提高解析文本和实际文本的检测精度,降低人工干预的工作量,从而降低包装设计成本和精度。
[0033]可选的,所述步骤S20中,将PDF解析出来的文本进行拆分时,间隔拆分为两个文本,将拆分的两个文本进行比对,若拆分出来的两个文本一致,则原文本为重叠文本,取拆分后的任意文本作为新的文本替换原文本进行后续操作;若拆分出来的两个文本不一致,则说明原文本不是重叠文本,此时不进行操作,以原文本进行后续操作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多方向文本比对方法,其特征在于,其包括以下步骤:S10:将包装设计图导出为PDF格式,并从导出的PDF文件中解析出文本内容和对应的位置信息;S20:将PDF解析出来的文本按照间隔拆分文本,并判断拆分后的文本是否一致,从而判断文本是否重叠;S30:利用大量中文语料计算2-gram词频,计算文本正序和反序的概率,并以此作为依据判断文本是否为逆序;S40:根据位置坐标对所有文本分块处理,根据文本正反序判断文本块的方向,然后对文本块内的文本排序并合并;S50:将PDF文本内容与审查用标准文本内容进行比对,匹配相似行,并对相似行差异进行标注,在处理后作为最终结果。2.根据权利要求1所述的一种多方向文本比对方法,其特征在于,所述步骤S20中,将PDF解析出来的文本进行拆分时,间隔拆分为两个文本,将拆分的两个文本进行比对,若拆分出来的两个文本一致,则原文本为重叠文本,取拆分后的任意文本作为新的文本替换原文本进行后续操作;若拆分出来的两个文本不一致,则说明原文本不是重叠文本,此时不进行操作,以原文本进行后续操作。3.根据权利要求2所述的一种多方向文本比对方法,其特征在于,在步骤S30中,将步骤S20中的输出文本作为步骤S30的输入文本,去除其中的纯数字文本以及文本中的英文字母部分,然后将文本进行反序处理,获得正反两种语序的文本,根据计算好的2-gram模型,对正反语序的两种文本分别...

【专利技术属性】
技术研发人员:吕松南罗诚
申请(专利权)人:苏州方正璞华信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1