文本处理方法和装置、电子设备和计算机可读存储介质制造方法及图纸

技术编号:36763912 阅读:30 留言:0更新日期:2023-03-08 21:13
本申请公开了一种文本处理方法和装置、电子设备和计算机可读存储介质。该方法包括:对第一文本和第二文本进行文本解析以生成第一文本单词序列和第二文本单词序列;根据第一文本单词序列和第二文本单词序列计算第一文本和第二文本中的各个文本单元之间的相似度;根据相似度对第二文本与第一文本的差异部分进行标记。本申请实施例能够根据计算出的相似度来对第二文本中与第一文本的差异部分进行标记,因此能够解决现有技术中对于多版本文件的不同版本之间需要使用人工进行核对导致的成本较高和效率低的问题,大大提高了办公的效率。率。率。

【技术实现步骤摘要】
文本处理方法和装置、电子设备和计算机可读存储介质


[0001]本申请涉及文本处理
,尤其涉及一种文本处理方法和装置、电子设备和计算机可读存储介质。

技术介绍

[0002]随着办公自动化和计算机技术的飞速发展,电子文档已经在人们生活和工作中得到了越来越广泛的应用,特别是电子文档可以直接由计算机、手机等电子设备快速生成和处理,并且由于其电子文件的属性而使得能够通过互联网或其他网络而在设备之间进行传递。因此,当前越来越多的社会活动和科技生产活动都越来越依赖于电子数据化的工作环境,而人们之间的生活和商务交流也从纸质媒介转向了电子化媒介,电子文档得到了大量的使用,人们对电子文档的需求也从简单地浏览而变得更加多样化。特别是电子文档的生成和传递的便利性使得多人之间的文档协作变得可能。在这样的文档协作中,多人对于同一文档的编辑而生成多个版本,但是这些同一文档的不同版本在实际使用中往往需要对内容进行核对,这样的核对通常都是由人工来进行的。但是这样的人工核对一方面效率较低,另一方面,人工核对依赖于核对人员的能力和核对时的工作状态,有可能会带来错误。为此,需要本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:对第一文本和第二文本进行文本解析以生成第一文本单词序列和第二文本单词序列;根据所述第一文本单词序列和所述第二文本单词序列计算所述第一文本和所述第二文本中的各个文本单元之间的相似度;根据所述相似度对所述第二文本中与所述第一文本的差异部分进行标记。2.根据权利要求1所述的文本处理方法,其中,所述根据所述第一文本单词序列和所述第二文本单词序列计算所述第一文本和所述第二文本中的各个文本单元之间的相似度包括:根据所述第一文本单词序列和所述第二文本单词序列生成第一文本向量和第二文本向量;将所述第一文本向量和所述第二文本向量输入到预定模型以获得所述相似度。3.根据权利要求2所述的文本处理方法,其中,所述将所述第一文本向量和所述第二文本向量输入到预定模型以获得所述相似度包括:对于所述第一文本向量和所述第二文本向量使用曼哈顿距离来计算所述第一文本和所述第二文本中的各个文本单元的相似度。4.根据权利要求2所述的文本处理方法,其中,所述预定模型使用具有L1范式的损失函数。5.根据权利要求1所述的文本处理方法,其中,所述文本处理方法进一步包括:获取包含有文本的第一图像;使用第二预设模型对所述第一图像进行处理以确定所述第一图像中包含的文本的位置信息;根据所述位置信息从所述第一图像中获取所述第一文本或所述第二文本。...

【专利技术属性】
技术研发人员:夏昌吉赵欢郑炎平郭振东孙吏
申请(专利权)人:北京爱知之星科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1