【技术实现步骤摘要】
本专利技术属于知识工程,尤其涉及一种基于多源异构文件的大模型知识库构建方法及系统。
技术介绍
1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成在先技术。
2、2023年是大语言模型爆发元年,国内外多家厂商发布其大模型,在对话服务、内容创作、智能搜索等应用方面取得巨大成效,引起了学界、业界和政府的高度关注。大语言模型在自然语言领域的表现远超以往任何模型;但是大语言模型也存在很多不足,例如在处理一些专业领域的知识时,由于专业领域知识缺失,导致无法提供准确答案,面临生成幻觉、专业性和精准性不足等痛点。
3、为解决知识缺失导致的问题,需要针对特定领域建立特殊的知识库作为大模型的知识来源,辅助大模型进行知识生成。因此,知识库的构建效果直接影响到大模型的回答效果。
4、知识库的建设包含两个阶段,分别对应上游的知识抽取和下游的知识整合,知识抽取阶段需要把知识(一般是文档)中的信息尽量全的抽取出来,包括文档内容和文档格式;下游知识整合阶段,需要针对现在主流的搜索方式来定制化地进行知识库的建设。<
...【技术保护点】
1.一种基于多源异构文件的大模型知识库构建方法,其特征在于,包括:
2.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述多源异构文件,包括三类:以文字为内容能直接提取的第一类文件、以文字和格式为内容能直接提取的第二类文件、以文字和格式为内容无法直接提取的第三类文件。
3.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述提取包含格式的文件内容,具体为:
4.如权利要求3所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述采用表格识别和光学字符识别相结合的方法,识
...【技术特征摘要】
1.一种基于多源异构文件的大模型知识库构建方法,其特征在于,包括:
2.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述多源异构文件,包括三类:以文字为内容能直接提取的第一类文件、以文字和格式为内容能直接提取的第二类文件、以文字和格式为内容无法直接提取的第三类文件。
3.如权利要求1所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述提取包含格式的文件内容,具体为:
4.如权利要求3所述的一种基于多源异构文件的大模型知识库构建方法,其特征在于,所述采用表格识别和光学字符识别相结合的方法,识别文件内容,具体步骤为:
5.如权利要求1所...
【专利技术属性】
技术研发人员:张照生,侯军委,史骁辰,
申请(专利权)人:上海核工程研究设计院股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。