一种基于大语言模型技术的知识库自动快速构建方法、系统及装置制造方法及图纸

技术编号:41644989 阅读:29 留言:0更新日期:2024-06-13 02:37
本发明专利技术公开了一种基于大语言模型技术的知识库自动快速构建方法、系统及装置,将文本结构转换成Markdown格式的文档;针对不同的文档格式提取原子内容单元,基于大语言模型进行文本摘要任务生成内容概括,识别原子内容单元在文档中的位置,解析现有的标题标记,将内容概括作为原子内容单元的小标题;识别文档的标题层级,确定知识库结构的深度并创建数据库表结构,提取每个原子内容单元及其对应的各级标题,按照数据库表结构填充进数据库。本发明专利技术将多种格式的文档转换成结构化数据,并进一步构建成为易于访问和查询的知识库,本发明专利技术对复杂数据结构的处理和优化,以及将这些结构有效转化为知识库的能力,从而服务于广泛的应用场景。

【技术实现步骤摘要】

本专利技术涉及信息,特别是文档处理和知识管理,尤其涉及一种基于大语言模型技术的知识库自动快速构建方法、系统及装置


技术介绍

1、在传统知识库构建技术的背景下,主要面临以下挑战和限制,这些挑战凸显了现有技术的不足:

2、非结构化数据的处理:

3、ocr技术:虽然基本ocr技术能够识别文本图像,但在处理复杂布局(如多列文本、图表混排)时准确率下降显著。此外,对于手写文本、艺术字体或低质量扫描文档的处理效果尚不理想。

4、文本提取的局限性:传统文本提取技术往往依赖预设的格式规则,这导致它们在处理多样化和非标准格式的文档时,效果不佳。

5、文本数据的结构化处理:

6、数据格式转换:将非结构化数据(如自由格式文本、图像等)转换为结构化数据(如数据库条目)通常需要大量手动工作,限制了处理速度和扩展性。

7、缺乏智能化处理:在缺乏先进的自然语言处理技术支持的情况下,传统方法难以理解和提取文档中的关键信息,如主题、关键词或结构化的知识点。

8、知识提取和总结:

9、自动总结的本文档来自技高网...

【技术保护点】

1.一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,为了适应不同长度的文本输入,对文本实现动态填充,使其长度达到模型所要求的最大长度,所有的输入文本被扩展到相同的长度,被模型统一处理,确保大语言模型能够有效处理不同长度的文本输入。

3.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,提取原子内容单元具体过程为:对于段落,使用换行符识别逻辑来区分;对于表格,应用正则表达式匹配Markdown表格的特定语法结构,然后将表...

【技术特征摘要】

1.一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,为了适应不同长度的文本输入,对文本实现动态填充,使其长度达到模型所要求的最大长度,所有的输入文本被扩展到相同的长度,被模型统一处理,确保大语言模型能够有效处理不同长度的文本输入。

3.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,提取原子内容单元具体过程为:对于段落,使用换行符识别逻辑来区分;对于表格,应用正则表达式匹配markdown表格的特定语法结构,然后将表头和每一行内容组合成单独的文本字符串;对于图片,若存在ocr提取的文本,则使用该文本作为图片描述;若无,则将图片的markdown标记作为占位符。

4.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,所述计算关键词与概括内容的匹配度具体为:获取内容概括中关键词的词嵌入向量,计算这些向量与原子内容单元中提取和合并后的关键词向量之间的余弦相似度作为关键词与概括内容的匹配度;

5.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在...

【专利技术属性】
技术研发人员:刘月亮宋戈
申请(专利权)人:上海华沐源知智能科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1