文本分块方法,装置,存储介质及电子设备制造方法及图纸

技术编号:20992832 阅读:27 留言:0更新日期:2019-04-29 22:44
本公开涉及一种文本分块方法,装置,存储介质及电子设备。该方法包括:对第一文本和第二文本进行预分块,得到所述第一文本的文字块组以及所述第二文本的文字块组;确定所述第一文本的文字块组与所述第二文本的文字块组中各个文字块之间的匹配率;将匹配率大于预设阈值的文字块对作为共通文字块对,并基于所述共通文字块对,对所述第一文本和所述第二文本重新进行分块,得到所述第一文本的新的文字块组和所述第二文本的新的文字块组;重新执行确定匹配率,以及基于共通文字块对所述第一文本和所述第二文本重新进行分块的步骤,直到满足预设的停止分块条件为止,得到所述第一文本和所述第二文本最终的分块结果。

Text Blocking Method, Device, Storage Media and Electronic Equipment

The present disclosure relates to a text partitioning method, device, storage medium and electronic device. The method includes: pre-partitioning the first text and the second text, obtaining the text block group of the first text and the text block group of the second text; determining the matching rate between the text block group of the first text and the text block group of the second text; and using the text block pair whose matching rate is greater than the preset threshold as the common text block pair, and based on the above, determining the matching rate between the text block group of the first text and the text block pair of the second text. Common text block pairs, which re-block the first text and the second text, obtain a new text block group of the first text and a new text block group of the second text; re-execute the steps of determining matching rate and re-block the first text and the second text based on the common text block until the preset stop block condition is satisfied The final result of the block of the first text and the second text is obtained.

【技术实现步骤摘要】
文本分块方法,装置,存储介质及电子设备
本公开涉及文字比较领域,具体地,涉及一种文本分块方法,装置,存储介质及电子设备。
技术介绍
在文字处理的领域下,文字比较功能会经常使用到,例如比较两篇文档之间的差异性。相关技术中,通常以行为单位进行比较,但是在两篇文档字号,字体不一致的情况下,同一行显示的文字的数量不一致,以行为单位进行比较无法得到准确的结果。如果以单词(汉语情况下一个汉字为一个单词)为单位进行比较,在文本内容较多的情况下,目前的比较算法和硬件的计算能力,无法在用户可接受的时间内得到比较结果。
技术实现思路
本公开的主要目的是提供一种文本分块方法,装置,存储介质及电子设备,用以快速准确的对文本进行分块,以基于文字块进行文字比较,提升文字比较的速度和精度。为了实现上述目的,本公开实施例第一方面提供一种文本分块方法,包括:对第一文本和第二文本进行预分块;针对由所述第一文本中任一文字块与所述第二文本中任一文字块组成的文字块对,判断所述文字块对之间是否存在文字匹配率大于预设阈值的子文字块对;若所述文字块对之间存在文字匹配率大于所述预设阈值的子文字块对,则将所述子文字块对建立共通关系,得到所本文档来自技高网...

【技术保护点】
1.一种文本分块方法,其特征在于,包括:对第一文本和第二文本进行预分块;针对由所述第一文本中任一文字块与所述第二文本中任一文字块组成的文字块对,判断所述文字块对之间是否存在文字匹配率大于预设阈值的子文字块对;若所述文字块对之间存在文字匹配率大于所述预设阈值的子文字块对,则将所述子文字块对建立共通关系,得到所述第一文本和所述第二文本中对应的共通块对;分别将所述第一文本和所述第二文本中的相邻两个共通块之间的文字划分为新文字块;针对所述第一文本和所述第二文本中的所述新文字块,重新执行上述确定共通块对,以及基于共通块对划分新文字块的步骤,直到满足预设的停止分块条件为止,得到所述第一文本和所述第二文本最...

【技术特征摘要】
1.一种文本分块方法,其特征在于,包括:对第一文本和第二文本进行预分块;针对由所述第一文本中任一文字块与所述第二文本中任一文字块组成的文字块对,判断所述文字块对之间是否存在文字匹配率大于预设阈值的子文字块对;若所述文字块对之间存在文字匹配率大于所述预设阈值的子文字块对,则将所述子文字块对建立共通关系,得到所述第一文本和所述第二文本中对应的共通块对;分别将所述第一文本和所述第二文本中的相邻两个共通块之间的文字划分为新文字块;针对所述第一文本和所述第二文本中的所述新文字块,重新执行上述确定共通块对,以及基于共通块对划分新文字块的步骤,直到满足预设的停止分块条件为止,得到所述第一文本和所述第二文本最终的分块结果。2.根据权利要求1所述的方法,其特征在于,在所述判断所述文字块对之间是否存在文字匹配率大于预设阈值的子文字块对之前,所述方法还包括:针对所述文字块对中的第一文字块和第二文字块,从所述第一文字块中划分第一子文字块,从所述第二文字块中划分第二子文字块;根据最大公共子序列算法确定所述第一子文字块和所述第二子文字块对中的最大公共子序列;将所述最大公共子序列的长度与所述第一子文字块的长度或者所述第二子文字块的长度的比值作为所述文字块对的文字匹配率。3.根据权利要求1所述的方法,其特征在于,在将所述相邻两个共通块之间的文字划分为新文字块之前,还包括:确定所述相邻两个共通块各自所属的文字块均不具有区域格式限制;所述方法还包括:若第一共通块所属的第一文字块具有区域格式限制,且与所述第一共通块相邻的第二共通块所属的第二文字块不具有区域格式限制,则将所述第一文字块与所述第二共通块之间存在的文字组成新文字块;若所述第一文字块不具有区域格式限制,且所述第二文字块具有区域格式限制,则将所述第一共通块与所述第二文字块之间存在的文字组成新文字块;若所述第一文字块具有区域格式限制,且所述第二文字块具有区域格式限制,则将所述第一文字块与所述第二文字块之间存在的文字组成新文字块。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述针对所述第一文本和所述第二文本中的所述新文字块,重新执行上述确定共通块对,以及基于共通块对划分新文字块的步骤,直到满足预设的停止分块条件为止,包括:针对所述第一文本的每一新文字块执行以下操作:确定位于所述新文字块两侧的第三共通块和第四共通块;判断所述第二文本中与所述第三共通块具有共通关系的第五共通块,以及与所述第四共通块具有共通关系的第六共通块之间,是否存在对应的待匹配的新文字块;若所述第一文本的每一新文字块均不存在位于所述第二文本的对应的待匹配的新文字块,则停止对所述第一文本和所述第二文本分块。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:若所述第一文本的第一新文字块存在位于所述第二文本的对应的待匹配的第二新文字块,则...

【专利技术属性】
技术研发人员:韩志刚
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1