【技术实现步骤摘要】
本申请涉及自然语言处理,特别是涉及用于检索增强生成的文本切片方法、装置、介质、终端及程序产品。
技术介绍
1、伴随着大模型技术的发展,检索增强生成(retrieval augmented generation,rag)技术作为一种用于垂直领域知识问答、增强大模型生成效果的领域适配、解决大模型幻觉问题的有效手段,成为构建领域知识库的主流方法。在利用rag技术构建知识库的过程中,往往需要对文本数据(篇章数据)进行切片,通过切片实现精准的信息检索,进而将检索到的信息作为用户问题的背景信息输入到大模型,然后大模型给出准确回复。
2、但是,现有的文本切分方法在切片时存在如下问题:通过将整篇文本切分成多个较短的片段,每个片段包含的信息量较少,从而使得检索系统能够更精确地定位到包含用户查询信息的具体片段,虽然此方法在一定程度上提高了信息检索的细粒度和准确性,但同时也造成了整体文本信息的丢失,使得缺乏对上下文的理解、信息不完整以及逻辑关系的断裂,导致对一些综合问题很难回复准确。
3、因此,有必要提供一种用于检索增强生成的文本切片
...【技术保护点】
1.一种用于检索增强生成的文本切片方法,其特征在于,包括:
2.根据权利要求1所述的用于检索增强生成的文本切片方法,其特征在于,所述第二文本格式类型为Markdown格式,所述Markdown格式的所述预设结构形式包括:采用预设符号分别表示标题、字体形式、链接、图片、列表、引用和代码。
3.根据权利要求2所述的用于检索增强生成的文本切片方法,其特征在于,所述对所述第二文本格式类型的待切片文本基于其所述预设结构形式进行文本切片,以得到与所述预设结构形式对应的文本块,其包括:
4.根据权利要求3所述的用于检索增强生成的文本切片方法,其特
...【技术特征摘要】
1.一种用于检索增强生成的文本切片方法,其特征在于,包括:
2.根据权利要求1所述的用于检索增强生成的文本切片方法,其特征在于,所述第二文本格式类型为markdown格式,所述markdown格式的所述预设结构形式包括:采用预设符号分别表示标题、字体形式、链接、图片、列表、引用和代码。
3.根据权利要求2所述的用于检索增强生成的文本切片方法,其特征在于,所述对所述第二文本格式类型的待切片文本基于其所述预设结构形式进行文本切片,以得到与所述预设结构形式对应的文本块,其包括:
4.根据权利要求3所述的用于检索增强生成的文本切片方法,其特征在于,所述markdown解析软件基于llama_index框架构建得到。
5.根据权利要求1所述的用于检索增强生成的文本切片方法,其特征在于,采用混合索引方式为所述文本块构建...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,
申请(专利权)人:上海光羽芯辰科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。