一种文档解析和索引构建方法技术

技术编号:44295909 阅读:14 留言:0更新日期:2025-02-18 20:15
本发明专利技术公开了一种文档解析和索引构建方法,包括如下步骤:布局检测、表格图像解析提取、页面恢复、内容拆分和索引构建及入库;其中,布局检测是使用文档布局分析模型来进行对pdf文档页面的图像、表格、标题、文本元素的区域检测和分类;表格图像解析提取是基于布局检测得到的pdf每个页面中存在的表格和图像进行格式、内容的提取和处理;本发明专利技术提供智能化解析,能够准确地提取pdf文档中的文本、表格、图像,并能构建完善的索引元素的一种文档解析和索引构建的方法。

【技术实现步骤摘要】

本专利技术涉及文档解析索引,更具体的说,它涉及一种文档解析和索引构建方法


技术介绍

1、目前,通用大语言模型(llm)在知识问答方面取得了非常大的进展,但是对于专业领域依然无能为力,因为专业领域的很多数据不会对外公开,通用llm没有进行专业领域数据的学习,自然不会对专业领域的知识做出精确的回答。一种思路是将这些专业数据喂给llm进行微调,但是对技术和成本要求往往太高,而检索增强生成(rag)系统则是解决专业领域问答的另一种思路,在用户原始问题之后加上与之相关的私域数据一起提问,由llm进行分析和总结。通过检索增强的方式为llm提供更加精准的信息,从而提升回答效果,如图1所示。

2、其中,文档的处理是知识库检索的前提,需要离线将各类私域的文档转换成可以检索的数据。rag虽然适合知识频繁发生更新的专业领域的场景,但是在实际场景中,大部分专业文档都是以pdf、doc等非结构化数据进行存储,它们有标题、段落、表格、图片等元素,易于人类阅读,却不适合计算机进行检索和处理。文档解析是rag系统的第一步,只有提高文档解析的质量和速度,才能真正实现rag企业本文档来自技高网...

【技术保护点】

1.一种文档解析和索引构建方法,其特征在于:具体包括如下步骤:

2.根据权利要求1所述的一种文档解析和索引构建方法,其特征在于:布局检测具体包括如下步骤:

3.根据权利要求1所述的一种文档解析和索引构建方法,其特征在于:表格图像解析和提取过程中的图像处理,在遍历到pdf文档的每个页面后,会重新对该页面的图像进行识别和提取,并保存图像的四个顶点的坐标,其次对新提取的图像坐标与原始布局检测模型提取的图像的坐标位置进行去重,最后会根据图像的坐标进行原始图像的裁剪、上传到公网的存储系统,存储系统返回图像的url地址、将图像的url地址拼接成markdown的表示方式。...

【技术特征摘要】

1.一种文档解析和索引构建方法,其特征在于:具体包括如下步骤:

2.根据权利要求1所述的一种文档解析和索引构建方法,其特征在于:布局检测具体包括如下步骤:

3.根据权利要求1所述的一种文档解析和索引构建方法,其特征在于:表格图像解析和提取过程中的图像处理,在遍历到pdf文档的每个页面后,会重新对该页面的图像进行识别和提取,并保存图像的四个顶点的坐标,其次对新提取的图像坐标与原始布局检测模型提取的图像的坐标位置进行去重,最后会根据图像的坐标进行原始图像的裁剪、上传到公网的存储系统,存储系统返回图像的url地址、将图像的url地址拼接成markdown的表示方式。

4.根据权利要求1所述的一种文档解析和索引构建方法,其特征在于:表格图像解析和提取过程中的表格处理包括简单表格和复杂表格,其均采用html来表示和存储表格,其能够被正确的渲染到markdown解析器中;

5.根据权利要求1所述的一种文档解析和索引构建方法,其特征在于:内容拆分中对解析好的pdf文档的内容按照<br>...

【专利技术属性】
技术研发人员:李春李勇辉王晶高建建胡加坚
申请(专利权)人:杭州孚嘉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1