文档处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:45095128 阅读:15 留言:0更新日期:2025-04-25 18:32
本申请涉及一种文档处理方法、装置、电子设备及存储介质,所述方法包括:获取待处理的目标文档,将目标文档分割为多个文档分片,其中,相邻的两个文档分片在内容上具有部分重叠区域。将多个文档分片输入至文档要素识别模型,得到文档要素识别模型对多个文档分片的初次模型识别结果,在确定多个文档分片的初次模型识别结果存在识别异常的情况下,对识别异常相应的文档分片进行调整,将调整后的文档分片再次输入至文档要素识别模型,得到文档要素识别模型对调整后的文档分片的再次模型识别结果。由此可以有效地减少模型在识别文档分片时产生的偏差,提高文档要素识别的准确性和可靠性。

【技术实现步骤摘要】

本申请涉及计算机领域,尤其涉及一种文档处理方法、装置、电子设备及存储介质


技术介绍

1、随着信息技术的飞速发展,电子文档的应用范围越来越广泛,与此同时,为了高效地处理电子文档,借助模型(如机器学习模型、深度学习模型等)对文档进行识别分析已成为一种普遍的做法。

2、然而,在实际应用场景中,经常会遇到体量庞大的电子文档,这些电子文档多则包含成百上千个页面,内容极为丰富。尽管模型具备处理并发任务的能力,但其算力资源始终是有限的。当单个并发任务所涉及的数据处理量过于庞大时,也会影响模型的处理效率,甚至可能损害模型的识别准确性。鉴于此,为了保证模型的识别准确性,同时兼顾模型的识别效率,相关技术中提出将一个庞大的文档拆分成多个较小的文档分片,这些文档分片能够各自独立地被模型处理,并且这些文档分片各自的模型识别结果能够还原整个文档的全面识别结果。

3、由此可见,文档分片方式对于提升模型的整体性能和效率至关重要。但目前的分片方式比较简单粗暴,会因分片不合理导致模型处理结果出错,亟需一种能够合理、准确对文档进行分片的方法。>

<本文档来自技高网...

【技术保护点】

1.一种文档处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述将所述目标文档分割为多个文档分片之后,还包括:

3.根据权利要求2所述的方法,其特征在于,所述按照设定的修正规则,对所述多个文档分片进行修正处理,包括:

4.根据权利要求1所述的方法,其特征在于,通过以下方式确定所述多个文档分片的初次模型识别结果是否存在识别异常:

5.根据权利要求1所述的方法,其特征在于,通过以下方式确定所述多个文档分片的初次模型识别结果是否存在识别异常:

6.根据权利要求5所述的方法,其特征在于,所述根据所述目录...

【技术特征摘要】

1.一种文档处理方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在所述将所述目标文档分割为多个文档分片之后,还包括:

3.根据权利要求2所述的方法,其特征在于,所述按照设定的修正规则,对所述多个文档分片进行修正处理,包括:

4.根据权利要求1所述的方法,其特征在于,通过以下方式确定所述多个文档分片的初次模型识别结果是否存在识别异常:

5.根据权利要求1所述的方法,其特征在于,通过以下方式确定所述多个文档分片的初次模型识别结果是否存在识别异常:

6.根据权利要求5所述的方法,其特征在于,所述根据所述目录树确定所述多个文档分片的初次模型识别结果是否存在识别异常,...

【专利技术属性】
技术研发人员:王涛潘云嵩
申请(专利权)人:珠海金山办公软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1