【技术实现步骤摘要】
本专利技术涉及语义理解,尤其涉及一种基于大模型语义理解的数据分块方法、问答检索方法及装置。
技术介绍
1、检索增强生成(retrieval-augmented generation,rag)技术是一种结合了信息检索技术和自然语言生成技术的方法,旨在通过从外部知识源中检索相关信息来增强模型的生成能力,以解决大模型处理事实性问题或者需要特定领域知识的任务时表现不佳的问题。rag依赖于从知识库中检索到的信息,如果对知识库中的数据划分不合理,导致知识库检索不够准确,那么生成的结果的准确度必然会降低。例如文本根据字数进行切分,导致原本连续的、语义一致的文本被切分到不同的文本块中,导致召回阶段目的块被其他块所排斥,甚至无法被召回,严重影响了输出结果的准确度。
2、因此,本领域的技术人员致力于开发一种召回准确度更高的数据分块方法及装置。
技术实现思路
1、有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是实现高准确度的召回。
2、为实现上述目的,本专利技术提供了一种基于大模
...【技术保护点】
1.一种基于大模型语义理解的数据分块方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,利用所述训练数据,通过微调的方式训练并生成大语言模型。
3.如权利要求1所述的方法,其特征在于,还包括:
4.如权利要求3所述的方法,其特征在于,所述利用所述第一大语言模型对预分块后的段落进行处理,包括:
5.如权利要求1至4中任一项所述的方法,其特征在于,还包括:
6.基于权利要求5所述的方法的问答检索方法,其特征在于,包括:
7.一种基于大模型语义理解的数据分块装置,其特征在于,包括:
...【技术特征摘要】
1.一种基于大模型语义理解的数据分块方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,利用所述训练数据,通过微调的方式训练并生成大语言模型。
3.如权利要求1所述的方法,其特征在于,还包括:
4.如权利要求3所述的方法,其特征在于,所述利用所述第一大语言模型对预分块后的段落进行处理,包括:
5.如权利要求1至4中任一项所述的方法,其特征在于,还包括:
【专利技术属性】
技术研发人员:张建伟,李雅,邱博恒,吴洵进,
申请(专利权)人:上海交通大学宁波人工智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。