文档比对方法技术

技术编号:39643167 阅读:26 留言:0更新日期:2023-12-09 11:10
本发明专利技术公开了一种文档比对方法

【技术实现步骤摘要】
文档比对方法、装置、设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种文档比对方法

装置

设备及存储介质


技术介绍

[0002]制度类文档在进行管理的过程中,需进行合规性检查和管理,尤其需要对制度类文档的文档内容

格式

时效性等进行重点比对分析,防止制度文件照抄照搬,抄袭拼凑的应付情况发生

[0003]而现有的制度文档比对方法在比对分析的过程中,常采用对文档的全量文本内容进行比对或者按自然段落切分后再进行一一比对的方法,存在效率低下且准确度不高的问题,因此现亟需一种比对效率高且准确度高的文档比对方法


技术实现思路

[0004]本专利技术的主要目的在于提供一种文档比对方法

装置

设备及存储介质,旨在解决现有文档比对方法效率低下且准确度不高的技术问题

[0005]为实现上述目的,本专利技术提供了一种文档比对方法,所述方法包括:根据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种文档比对方法,其特征在于,所述文档比对方法包括:根据待比对文档与模板文档之间的段落相似度确定对齐分割自然段;基于所述对齐分割自然段,分别对待比对文档与模板文档进行分割;对分割后的待比对文档和分割后的模板文档按自然段进行相似度交叉比对,并根据比对结果生成文档比对结果
。2.
如权利要求1所述的文档比对方法,其特征在于,所述对分割后的待比对文档和分割后的模板文档按自然段进行相似度交叉比对,并根据比对结果生成文档比对结果的步骤,包括:对分割后的待比对文档和分割后的模板文档按自然段进行相似度交叉比对,并根据比对结果判断是否存在段落相似度高于预设相似度的新的对齐分割自然段;若存在,则基于所述新的对齐分割自然段分别对所述分割后的待比对文档和所述分割后的模板文档再次进行分割以及相似度交叉比对;返回执行所述根据比对结果判断是否存在段落相似度高于预设相似度的新的对齐分割自然段的步骤,直至参与所述相似度交叉比对的自然段中不存在段落相似度高于所述预设相似度的自然段;根据所述相似度交叉比对的过程中被确定为对齐分割自然段的文档内容,生成文档比对结果
。3.
如权利要求2所述的文档比对方法,其特征在于,所述对齐分割自然段包含属于所述待比对文档的第一自然段和属于所述模板文档的第二自然段;所述基于所述对齐分割自然段,分别对待比对文档与模板文档进行分割的步骤,包括:基于所述第一自然段对所述待比对文档进行分割,获得分割后的待比对文档;基于所述第二自然段对所述模板文档进行分割,获得分割后的模板文档
。4.
如权利要求3所述的文档比对方法,其特征在于,所述根据所述相似度交叉比对的过程中被确定为对齐分割自然段的文档内容,生成文档比对结果的步骤,包括:根据所述相似度交叉比对过程中被确定为对齐分割自然段的文档内容对所述模板文档和所述待比对文档进行文档重排列,获得初始分割模板文档和初始分割待比对文档;对所述初始分割模板文档和所述初始分割待比对文档进行预设合并操作,获得过渡分割模板文档和过渡分割待比对文档;对所述过渡分割模板文档和所述过渡分割待比对文档进行预设排列操作,获得目标分割模板文档和目标分割待比对文档;基于所述目标分割模板文档和所述目标分割待比对文档,获得文档比对结果
。5.
如权利要求4所述的文档比对方法,其特征在于,所述对所述过渡分割模板文档和所...

【专利技术属性】
技术研发人员:石建华周青朱豪吴潜禄陈松平徐显炼
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1