文本比对方法、装置、计算机设备和可读存储介质制造方法及图纸

技术编号:39194830 阅读:9 留言:0更新日期:2023-10-27 08:41
本公开提供了一种文本比对方法、装置、计算机设备和可读存储介质,比对系统分别计算第一待比对文本的各个第一段落与第二待比对文本的各个第二段落之间的段落距离,并基于最大流最小费用算法和各段落距离确定各第一段落与各第二段落之间的配对关系,得到若干个配对段落集。比对系统计算各个配对段落集中第一配对段落的各个第一短句与第二配对段落的各个第二短句之间的短句距离。最后基于最大流最小费用算法和各短句距离,确定各个第一短句与各个第二短句之间的配对关系,从各个配对段落集中筛选出不具有配对关系的若干个第一短句和第二短句作为区别文本。本公开整体的处理逻辑的复杂度较低,具有较快的处理速度,同时对应用硬件的资源要求较低。用硬件的资源要求较低。用硬件的资源要求较低。

【技术实现步骤摘要】
文本比对方法、装置、计算机设备和可读存储介质


[0001]本公开涉及文本处理
,特别涉及一种文本比对方法、装置、计算机设备和可读存储介质。

技术介绍

[0002]不管是在金融还是办公领域,都涉及到对商业文本、办公文本(包括docx文本、pdf文本和扫描件等)的比对,以便于定位和发现两份文本之间的差异。现有的文本比对方法,通常需要预先进行神经网络模型训练,借助训练好的神经网络模型进行文本比对。这种方法不仅成本较高,且对应用硬件的资源要求较高,不利于大规模应用。

技术实现思路

[0003]本公开目的在于:提供了一种文本比对方法、装置、计算机设备和可读存储介质,其在进文本比对时不需要借助神经网络模型,对应用硬件的资源要求低,整体应用成本较低。
[0004]为达上述目的,本公开采用以下技术方案:一种文本比对方法,其中,包括:
[0005]分别计算第一待比对文本的各个第一段落与第二待比对文本的各个第二段落之间的段落距离,其中,单个所述段落距离对应单个所述第一段落与单个所述第二段落;
[0006]基于最大流最小费用算法和各所述段落距离,确定各所述第一段落与各所述第二段落之间的配对关系,得到若干个配对段落集,其中,单个所述配对段落集包含具有配对关系的一个第一配对段落和一个第二配对段落;
[0007]分别计算各所述配对段落集中,所述第一配对段落的各个第一短句与所述第二配对段落的各个第二短句之间的短句距离,其中,单个所述短句距离对应单个所述第一短句与单个所述第二短句;
[0008]基于最大流最小费用算法和各所述短句距离,确定各所述第一短句与各所述第二短句之间的配对关系;
[0009]从各所述配对段落集中筛选出不具有配对关系的若干个第一短句和第二短句作为区别文本。
[0010]本公开还提供了一种文本比对装置,其中,包括:
[0011]第一计算模块,用于分别计算第一待比对文本的各个第一段落与第二待比对文本的各个第二段落之间的段落距离,其中,单个所述段落距离对应单个所述第一段落与单个所述第二段落;
[0012]第一配对模块,用于基于最大流最小费用算法和各所述段落距离,确定各所述第一段落与各所述第二段落之间的配对关系,得到若干个配对段落集,其中,单个所述配对段落集包含具有配对关系的一个第一配对段落和一个第二配对段落;
[0013]第二计算模块,用于分别计算各所述配对段落集中,所述第一配对段落的各个第一短句与所述第二配对段落的各个第二短句之间的短句距离,其中,单个所述短句距离对
应单个所述第一短句与单个所述第二短句;
[0014]第二配对模块,用于基于最大流最小费用算法和各所述短句距离,确定各所述第一短句与各所述第二短句之间的配对关系;
[0015]筛选模块,用于从各所述配对段落集中筛选出不具有配对关系的若干个第一短句和第二短句作为区别文本。
[0016]本公开还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0017]本公开还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
[0018]本公开中提供的一种文本比对方法、装置、计算机设备和可读存储介质,比对系统分别计算第一待比对文本的各个第一段落与第二待比对文本的各个第二段落之间的段落距离,其中,单个段落距离对应单个第一段落与单个第二段落。然后,基于最大流最小费用算法和各段落距离,确定各第一段落与各第二段落之间的配对关系,得到若干个配对段落集,其中,单个配对段落集包含具有配对关系的一个第一配对段落和一个第二配对段落。比对系统分别计算各个配对段落集中,第一配对段落的各个第一短句与第二配对段落的各个第二短句之间的短句距离,其中,单个短句距离对应单个第一短句与单个第二短句。最后,基于最大流最小费用算法和各短句距离,确定各个第一短句与各个第二短句之间的配对关系,从各个配对段落集中筛选出不具有配对关系的若干个第一短句和第二短句作为区别文本。本公开首先通过段落配对,确定第一待比对文本和第二待比对文本中内容相近的段落(即配对段落集中的第一段落和第二段落的内容相近)。接着,在配对段落集的基础上进行短句配对,从而筛选出不具有配对关系的区别文本。整体的处理逻辑的复杂度较低,因此能够具有较快的处理速度,同时对应用硬件的资源要求较低,有利于大规模推广应用。
附图说明
[0019]图1是本公开一实施例中文本比对方法的步骤示意图;
[0020]图2是本公开一实施例中费用容量网络的结构示意图;
[0021]图3是本公开一实施例中文本比对装置的整体结构框图;
[0022]图4是本公开一实施例的计算机设备的结构示意框图。
[0023]本公开目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0024]为了使本公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
[0025]参照图1,本公开一实施例中提供了一种文本比对方法,其中,包括:
[0026]S1:分别计算第一待比对文本的各个第一段落与第二待比对文本的各个第二段落之间的段落距离,其中,单个所述段落距离对应单个所述第一段落与单个所述第二段落;
[0027]S2:基于最大流最小费用算法和各所述段落距离,确定各所述第一段落与各所述第二段落之间的配对关系,得到若干个配对段落集,其中,单个所述配对段落集包含具有配
对关系的一个第一配对段落和一个第二配对段落;
[0028]S3:分别计算各所述配对段落集中,所述第一配对段落的各个第一短句与所述第二配对段落的各个第二短句之间的短句距离,其中,单个所述短句距离对应单个所述第一短句与单个所述第二短句;
[0029]S4:基于最大流最小费用算法和各所述短句距离,确定各所述第一短句与各所述第二短句之间的配对关系;
[0030]S5:从各所述配对段落集中筛选出不具有配对关系的若干个第一短句和第二短句作为区别文本。
[0031]本实施例中,文本比对系统获取需要进行比对的第一待比对文本和第二待比对文本,然后分别计算第一待比对文本的各个第一段落与第二待比对文本的各个第二段落之间的段落距离;其中,单个第一段落和单个第二段落对应有单个段落距离。具体地,文本比对系统以单个第一段落和单个第二段落为一组,使用同组的两个段落各自的第一句文本的字符串编辑距离作为改组的第一段落与第二段落的段落距离。在得到各个第一段落与对应的各个第二段落之间的段落距离后,文本比对系统根据第一待比对文本的第一段落数(第一段落数为第一待比对文本包含的第一段落的总数)、第二待比对文本的第二段落数以及各所述段落距离,构建得到段落矩阵;其中,段落矩阵的规模为NxM,N表征第一段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本比对方法,其中,包括:分别计算第一待比对文本的各个第一段落与第二待比对文本的各个第二段落之间的段落距离,其中,单个所述段落距离对应单个所述第一段落与单个所述第二段落;基于最大流最小费用算法和各所述段落距离,确定各所述第一段落与各所述第二段落之间的配对关系,得到若干个配对段落集,其中,单个所述配对段落集包含具有配对关系的一个第一配对段落和一个第二配对段落;分别计算各所述配对段落集中,所述第一配对段落的各个第一短句与所述第二配对段落的各个第二短句之间的短句距离,其中,单个所述短句距离对应单个所述第一短句与单个所述第二短句;基于最大流最小费用算法和各所述短句距离,确定各所述第一短句与各所述第二短句之间的配对关系;从各所述配对段落集中筛选出不具有配对关系的若干个第一短句和第二短句作为区别文本。2.根据权利要求1所述的文本比对方法,其中,所述分别计算第一待比对文本的各个第一段落与第二待比对文本的各个第二段落之间的段落距离的步骤,包括:以单个所述第一段落和单个所述第二段落为一组,使用同组的两个段落各自的第一句文本的字符串编辑距离作为所述段落距离;根据所述第一待比对文本的第一段落数、所述第二待比对文本的第二段落数以及各所述段落距离,构建得到段落矩阵,其中,所述段落矩阵的规模为NxM,N表征所述第一段落数,M表征所述第二段落数,所述段落矩阵的元素表征所述第一待比对文本和所述第二待比对文本对应段落的所述段落距离。3.根据权利要求2所述的文本比对方法,其中,所述基于最大流最小费用算法和各所述段落距离,确定各所述第一段落与各所述第二段落之间的配对关系,得到若干个配对段落集的步骤,包括:分别构造虚拟源点和虚拟汇点作为费用容量网络的左右两个端点,并根据所述第一段落数和所述第二段落数构建所述费用容量网络的中间节点,其中,所述第一段落数对应的第一中间节点靠近所述虚拟源点,所述第二段落数对应的第二中间节点靠近所述虚拟汇点,所述虚拟源点分别与各所述第一中间节点建立连接边,所述虚拟汇点分别与各所述第二中间节点建立连接边;调取距离阈值,并根据所述段落矩阵和所述距离阈值建立各所述第一中间节点和各所述第二中间节点之间的连接边,其中,所述费用容量网络中连接边的边容量为1,连接边的运输费用为连接边两端的第一中间节点和第二中间节点对应的段落距离;根据所述最大流最小费用算法对所述费用容量网络进行求解,得到若干个所述配对段落集。4.根据权利要求3所述的文本比对方法,其中,所述根据所述段落矩阵和所述距离阈值建立各所述第一中间节点和各所述第二中间节点之间的连接边的步骤中,单个所述第一中间节点和单个所述第二中间节点对应的连接边的建立步骤,包括:根据所述第一中间节点对应的所述第一段落,以及所述第二中间节点对应的所述第二段落,在所述段落矩阵中查找到对应的第一段落距离;
判断所述第一段落距离是否小...

【专利技术属性】
技术研发人员:张似衡
申请(专利权)人:广州视源人工智能创新研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1