一种显著显示文档文字内容差异的方法及系统技术方案

技术编号:41742027 阅读:20 留言:0更新日期:2024-06-19 13:02
本发明专利技术提出一种显著显示文档文字内容差异的方法及系统,属于人工智能技术领域,包括:获取两个待比较文档,并导出为PDF;输出并保存每页的文本行文字内容,将得到的文本行文字内容按规则去除指定标点符号,按文本行的坐标整理成正常阅读顺序,拼接在一起,最终两个待比较文档各得到一个长字符串,一共两个长字符串;利用寻找字符串差异的算法处理两个长字符串,得到字符串差异信息,将差异信息重新整理,得到每个字符串的差异列表;根据差异列表生成含有差异区域填充的每页文档的图片;通过本发明专利技术中的显著显示文档文字内容差异的方法,用户可以快速、直观地比较并两个文档文字内容的差异,提高了办公效率。

【技术实现步骤摘要】

本专利技术属于人工智能,具体涉及一种显著显示文档文字内容差异的方法及系统


技术介绍

1、在当今信息化时代,文档处理和管理成为各行业不可或缺的一部分。合同、年报、审计报告等文档在商业和法律交往中扮演着重要的角色,在文档的编写、审查和管理过程中,用户面临着快速准确比较和分析两个文档之间的差异的挑战。然而,由于文档的繁多和复杂性,传统的比对方法常常耗费大量时间和精力,容易出现遗漏和错误,从而影响工作效率。

2、文档内容比对技术是一项综合技术,利用了ocr技术提取文本信息和动态规划等算法寻求两个文档的差异,帮助用户快速准确地比较和分析两个文档内容区别。然而,传统的文档内容比对工具有支持的文件类型少,通常不能处理图片型的pdf文档,差异位置不易清晰提示,容易出现一些错误,或者步骤较为复杂、易卡顿等缺点。


技术实现思路

1、本专利技术针对现有技术下的问题,提供了一种显著显示文档文字内容差异的方法及系统,通过本专利技术中的显著显示文档文字内容差异的方法,用户可以快速、直观地比较并两个文档文字内容的差异,提高了本文档来自技高网...

【技术保护点】

1.一种显著显示文档文字内容差异的方法,其特征在于,包括:

2.根据权利要求1所述的一种显著显示文档文字内容差异的方法,其特征在于,所述寻找字符串差异的算法采用diff-match-patch工具库处理两个长字符串,得到字符串差异信息。

3.根据权利要求1所述的一种显著显示文档文字内容差异的方法,其特征在于,所述差异列表的特征是,两个文档各有一个差异列表,且二者的列表元素数相等,即两个文档的第n处差异可以在各自的列表中n个元素处找到对应描述。

4.根据权利要求1所述的一种显著显示文档文字内容差异的方法,其特征在于,所述差异信息重新整理,得到每个字符串的...

【技术特征摘要】

1.一种显著显示文档文字内容差异的方法,其特征在于,包括:

2.根据权利要求1所述的一种显著显示文档文字内容差异的方法,其特征在于,所述寻找字符串差异的算法采用diff-match-patch工具库处理两个长字符串,得到字符串差异信息。

3.根据权利要求1所述的一种显著显示文档文字内容差异的方法,其特征在于,所述差异列表的特征是,两个文档各有一个差异列表,且二者的列表元素数相等,即两个文档的第n处差异可以在各自的列表中n个元素处找到对应描述。

4.根据权利要求1所述的一种显著显示文档文字内容差异的方法,其特征在于,所述差异信息重新整理,得到每个字符串的差异列表,其中每个元素是一个元组,表示一处差异,包含该处差异在该字符...

【专利技术属性】
技术研发人员:葛君正李锐宁方刚陈其宾姜凯
申请(专利权)人:山东浪潮科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1