【技术实现步骤摘要】
本专利技术涉及信息,特别是文档处理和知识管理,尤其涉及一种基于大语言模型技术的知识库自动快速构建方法、系统及装置。
技术介绍
1、在传统知识库构建技术的背景下,主要面临以下挑战和限制,这些挑战凸显了现有技术的不足:
2、非结构化数据的处理:
3、ocr技术:虽然基本ocr技术能够识别文本图像,但在处理复杂布局(如多列文本、图表混排)时准确率下降显著。此外,对于手写文本、艺术字体或低质量扫描文档的处理效果尚不理想。
4、文本提取的局限性:传统文本提取技术往往依赖预设的格式规则,这导致它们在处理多样化和非标准格式的文档时,效果不佳。
5、文本数据的结构化处理:
6、数据格式转换:将非结构化数据(如自由格式文本、图像等)转换为结构化数据(如数据库条目)通常需要大量手动工作,限制了处理速度和扩展性。
7、缺乏智能化处理:在缺乏先进的自然语言处理技术支持的情况下,传统方法难以理解和提取文档中的关键信息,如主题、关键词或结构化的知识点。
8、知识提取和总结:
...【技术保护点】
1.一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,为了适应不同长度的文本输入,对文本实现动态填充,使其长度达到模型所要求的最大长度,所有的输入文本被扩展到相同的长度,被模型统一处理,确保大语言模型能够有效处理不同长度的文本输入。
3.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,提取原子内容单元具体过程为:对于段落,使用换行符识别逻辑来区分;对于表格,应用正则表达式匹配Markdown表格的特
...【技术特征摘要】
1.一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,为了适应不同长度的文本输入,对文本实现动态填充,使其长度达到模型所要求的最大长度,所有的输入文本被扩展到相同的长度,被模型统一处理,确保大语言模型能够有效处理不同长度的文本输入。
3.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,提取原子内容单元具体过程为:对于段落,使用换行符识别逻辑来区分;对于表格,应用正则表达式匹配markdown表格的特定语法结构,然后将表头和每一行内容组合成单独的文本字符串;对于图片,若存在ocr提取的文本,则使用该文本作为图片描述;若无,则将图片的markdown标记作为占位符。
4.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在于,所述计算关键词与概括内容的匹配度具体为:获取内容概括中关键词的词嵌入向量,计算这些向量与原子内容单元中提取和合并后的关键词向量之间的余弦相似度作为关键词与概括内容的匹配度;
5.根据权利要求1所述的一种基于大语言模型技术的知识库自动快速构建方法,其特征在...
【专利技术属性】
技术研发人员:刘月亮,宋戈,
申请(专利权)人:上海华沐源知智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。