一种基于深度学习的非结构化文档纯文本描述方法及装置制造方法及图纸

技术编号：41264786 阅读：4 留言：0更新日期：2024-05-11 09:21

本发明专利技术公开了一种基于深度学习的非结构化文档纯文本描述方法及装置，包括：确定待处理文档的文档类型；对待处理文档进行处理得到每一页对应的图片；对每张图片进行处理得到统一的json格式的文件；对json格式的文件进行处理得到相应的纯文本描述；将所有的纯文本描述进行整合处理得到待处理文档的整体文本内容。通过确认待处理文档的文档类型、提取文档内容，有效的将各种各样格式的文档转化为统一的json格式的文件，减少了对图像处理的依赖程度和对标注数据的大量需求；最终将待处理文档的各个元素转换成了纯文本内容，为大模型的智能问答系统提供了更丰富、结构化的输入，从而提高了大模型的智能问答系统的效率、准确性以及用户的体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能和文档处理，具体涉及一种基于深度学习的非结构化文档纯文本描述方法及装置。

技术介绍

1、现有综合文档的解析处理方法中，基本思路为：将文本和布局信息整合，通过引入坐标嵌入和跨模态对齐机制，使模型能够更好地理解文档的结构。通过在大规模文档图像上进行预训练，学习文档级别的语义表示，并在特定任务上进行微调，涵盖了文本识别、实体识别、文档分类和智能问答等广泛应用领域。这一多模态融合的设计使得在处理文档图像时能够更全面、准确地理解文本与布局的关系，为文档分析任务提供了强大的工具。

2、yang xu等人在文献“layoutlmv2:multi-modal pre-training for visually-rich document understanding."arxiv preprint arxiv:2012.14740(2020).”中提出多模态特征融合、对齐机制、改进的表格建模和预训练微调策略。该模型专注于处理多模态文档，通过先进的多模态特征提取器，对文本、图像和表格等元素进行更好的建模。引入对齐机制有助于模型更好地理解文档中不同元素之间的语义关系。在表格建模方面，layoutlmv2采用改进的方法以更精确地捕捉表格的结构和内容。最终，通过利用已有的训练好的预训练模型，在特定任务上进行微调使得模型可以适应当前任务，layoutlmv2提供了更全面、准确处理多模态文档的能力，如文档智能问答等应用。

3、但上述方法在泛化到多样性文档和处理长文档时可能存在困难，多模态方法对图像处理的依赖以及对

技术实现思路

1、为了解决现有技术中存在的上述问题，本专利技术提供了一种基于深度学习的非结构化文档纯文本描述方法及装置。本专利技术要解决的技术问题通过以下技术方案实现：

2、第一方面，本专利技术实施例提供了一种基于深度学习的非结构化文档的纯文本描述方法，包括：

3、确定待处理文档的文档类型；

4、针对不同的文档类型采用对应的解析方法进行解析，提取出所述待处理文档每一页的文档内容，利用图片转换模块将每一页的文档内容转换成该页对应的rgb格式的图片；

5、采用预设的基于transformer的编码器-解码器对每张rgb格式的图片进行解析，提取每张图片中对应文档内容的图片元素、表格元素和纯文本内容；根据所有图片元素、所有表格元素和所有纯文本内容构建统一的json格式的文件；其中，所述图片元素、所述表格元素和所述纯文本内容包括：图片元素、表格元素和纯文本内容各自的内容、各自对应在文档内容中的页码和各自对应在文档内容中的位置坐标；所述json格式的文件包括：元信息、表格信息、图片信息和纯文本内容；

6、根据基于森林的表头文本化处理方法对所有表格信息进行处理得到所有表格信息的表头对应的纯文本描述；将所有表头对应的纯文本描述和表头对应的数据进行拼接，得到所述表格信息的纯文本描述；

7、利用图像识别技术将所述图片信息转换为所述图片信息的纯文本描述；

8、将所述元信息、所述表格信息的纯文本描述、所述图片信息的纯文本描述和所述纯文本内容进行整合处理，得到所述待处理文档的整体文本内容。

9、在本专利技术的一个实施例中，确认待处理文档的文档类型，包括：

10、利用文档的扩展名、文档的头部信息或文档类型检测工具，获取所述待处理文档的文档类型；所述待处理文档的文档类型包括：word、pdf或html。

11、在本专利技术的一个实施例中，针对不同的文档类型采用对应的解析方法进行解析，提取出所述待处理文档每一页的文档内容，包括：

12、若所述待处理文档的文档类型为word，使用python中的python-docx库进行解析，得到所述待处理文档的文档内容；

13、若所述待处理文档的文档类型为pdf，使用pypdf2或pymupdf库进行解析，得到所述待处理文档的文档内容；

14、若所述待处理文档的文档类型为html，使用beautiful soup进行解析，得到所述待处理文档的文档内容。

15、在本专利技术的一个实施例中，元信息，包括：

16、所述待处理文档的标题、所述待处理文档的作者和所述待处理文档的创建时间。

17、在本专利技术的一个实施例中，表格信息，包括：

18、每个表格对应的行信息、列信息和单元格信息。

19、在本专利技术的一个实施例中，图片信息，包括：

20、每个图片信息对应的图片所在的文档、页码、和所述图片在对应页的位置坐标。

21、在本专利技术的一个实施例中，根据基于森林的表头文本化处理方法对所述表格信息进行处理得到所述表格信息的表头对应的纯文本描述，包括：

22、根据基于森林的表头文本化处理方法确定所述表格信息中的树根和叶子结点，得到所述表格信息对应的森林；

23、对所述表格信息对应的森林进行遍历，得到所述表格信息的表头对应的纯文本描述。

24、在本专利技术的一个实施例中，将所述元信息、所述表格信息的纯文本描述、所述图片信息的纯文本描述和所述纯文本内容进行整合处理，得到所述待处理文档的整体文本内容，包括：

25、将所述元信息、所述表格信息的纯文本描述、所述图片信息的纯文本描述和所述纯文本内容，根据各自的内容、各自对应在文档内容中的页码和各自对应在文档内容中的位置坐标，对应放入txt格式的文档中，得到所述待处理文档的整体文本内容。

26、第二方面，本专利技术实施例提供了一种基于深度学习的非结构化文档的纯文本描述装置，包括：

27、文档类型确定模块，用于确定待处理文档的文档类型；

28、解析模块，用于对不同文档类型的待处理文档采用对应的解析方法进行解析，提取出所述待处理文档每一页的文档内容；

29、图片转换模块，用于将每一页的文档内容转换成该页对应的rgb格式的图片；

30、统一转换模块，用于对所述每一页对应的rgb格式的图片进行解析，提取每张图片中对应文档内容的图片元素、表格元素和纯文本内容；根据；

31、表格处理模块，用于根据基于森林的表头文本化处理方法对所有表格信息进行处理得到所有表格信息的表头对应的纯文本描述；将所有表头对应的纯文本描述和表头对应的数据进行拼接，得到所述表格信息的纯文本描述；

32、图像处理模块，用于利用图像识别技术将所述图片信息转换为所述图片信息的纯文本描述；

33、整合模块，用于将所述元信息、所述表格信息的纯文本描述、所述图片信息的纯文本描述和所述纯文本内容进行整合处理，得到所述待处理文档的整体文本内容。

34、本专利技术的有益效果：

3本文档来自技高网...

【技术保护点】

1.一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述确认待处理文档的文档类型，包括：

3.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述针对不同的文档类型采用对应的解析方法进行解析，提取出所述待处理文档每一页的文档内容，包括：

4.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述元信息，包括：

5.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述表格信息，包括：

6.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述图片信息，包括：

7.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述根据基于森林的表头文本化处理方法对所述表格信息进行处理得到所述表格信息的表头对应的纯文本描述，包括：

8.根据权利要求1所述的一种基

9.一种基于深度学习的非结构化文档的纯文本描述装置，其特征在于，包括：

...

【技术特征摘要】

1.一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述确认待处理文档的文档类型，包括：

4.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述元信息，包括：

5.根据权利要求1所述的一种基于深度学习的非结构化文档的纯文本描述方法，其特征在于，所述表格信息，包括：

【专利技术属性】
技术研发人员：李倩，孟华芳，
申请(专利权)人：陕西博思惟是智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人