一种基于多源异构文件的大模型知识库构建方法及系统技术方案

技术编号:43548799 阅读:106 留言:0更新日期:2024-12-03 12:30
本发明专利技术提出了一种基于多源异构文件的大模型知识库构建方法及系统,涉及知识工程技术领域,具体方案包括:采用Markdown格式和光学字符识别相结合的方式,从多源异构文件中提取包含格式的文件内容;根据大模型的输入数据量限制及主题的相关度,对提取的文件内容进行多尺度切片,得到若干个文件段落;对文件段落进行向量化运算,同属于一个切片尺度的段落向量组成一个向量库;由不同切片尺度的向量库,构成大模型知识库,用于大模型的检索增强生成;本发明专利技术为多源异构文件定制不同的文件内容提取策略,并对提取的内容进行多尺度切片,最终构建强大、高效的知识库,从而提高大模型问答效果。

【技术实现步骤摘要】

本专利技术属于知识工程,尤其涉及一种基于多源异构文件的大模型知识库构建方法及系统


技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。

2、2023年是大语言模型爆发元年,国内外多家厂商发布其大模型,在对话服务、内容创作、智能搜索等应用方面取得巨大成效,引起了学界、业界和政府的高度关注。大语言模型在自然语言领域的表现远超以往任何模型;但是大语言模型也存在很多不足,例如在处理一些专业领域的知识时,由于专业领域知识缺失,导致无法提供准确答案,面临生成幻觉、专业性和精准性不足等痛点。

3、为解决知识缺失导致的问题,需要针对特定领域建立特殊的知识库作为大模型的知识来源,辅助大模型进行知识生成。因此,知识库的构建效果直接影响到大模型的回答效果。

4、知识库的建设包含两个阶段,分别对应上游的知识抽取和下游的知识整合,知识抽取阶段需要把知识(一般是文档)中的信息尽量全的抽取出来,包括文档内容和文档格式;下游知识整合阶段,需要针对现在主流的搜索方式来定制化地进行知识库的建设。</p>

5、现有本文档来自技高网...

【技术保护点】

1.一种基于多源异构文件的大模型知识库构建方法,其特征在于,包括:

2.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述多源异构文件,包括三类:以文字为内容能直接提取的第一类文件、以文字和格式为内容能直接提取的第二类文件、以文字和格式为内容无法直接提取的第三类文件。

3.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述提取包含格式的文件内容,具体为:

4.如权利要求3所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述采用表格识别和光学字符识别相结合的方法,识别文件内容,具体步骤...

【技术特征摘要】

1.一种基于多源异构文件的大模型知识库构建方法,其特征在于,包括:

2.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述多源异构文件,包括三类:以文字为内容能直接提取的第一类文件、以文字和格式为内容能直接提取的第二类文件、以文字和格式为内容无法直接提取的第三类文件。

3.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述提取包含格式的文件内容,具体为:

4.如权利要求3所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述采用表格识别和光学字符识别相结合的方法,识别文件内容,具体步骤为:

5.如权利要求1所...

【专利技术属性】
技术研发人员:张照生侯军委史骁辰
申请(专利权)人:上海核工程研究设计院股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1