【技术实现步骤摘要】
本申请涉及大模型,尤其涉及一种应答信息生成方法、数据库建立方法和装置。
技术介绍
1、随着chat-gpt的问世,各类大模型产品相继推出,值得注意的是,大型模型在回答问题时的质量不仅仅取决于模型本身的能力,还在于为模型提供基于用户文档的适当提示。
2、然而,不经处理的文档直接输入大模型,往往会导致文本过长,影响到大模型的性能和效果。当处理文档长度大于模型可接受的长度时,传统做法需要把文档切分多个块,仅保留含有解决问题所需信息的文本块交给大模型,而这一过程中,检索有用信息的技术,就是检索增强生成(retrieval augmented generation,rag)技术。检索时,往往会对文本块建立向量数据库,利用向量检索的方法找到最有可能包含有用信息的文本块。当切分的文本块过小时,往往无法包含所有有用的信息导致大模型回答发生错误和偏差,而当切分的文本块过大时,又往往导致文档检索消耗时间和资源更多,命中难度增加。并且,传统方法召回时,切分文本块的位置不当,往往会破坏段间语义,导致文本块内语义不完整。
本文档来自技高网...
【技术保护点】
1.一种应答信息生成方法,所述方法包括:
2.根据权利要求1所述的方法,其中,所述检索与所述第一查询信息匹配的第一子文本块,包括:
3.一种数据库建立方法,所述方法包括::
4.根据权利要求3所述的方法,其中,所述方法还包括:
5.根据权利要求4所述的方法,其中,所述确定每一所述子文本块对应的可能查询信息,包括:
6.根据权利要求3所述的方法,其中,所述将所述多个子文本块中相互关联的子文本块进行拼接,得到多个母文本块,包括:
7.根据权利要求6所述的方法,其中,所述对每一所述母文本块进行验证,得到
...【技术特征摘要】
1.一种应答信息生成方法,所述方法包括:
2.根据权利要求1所述的方法,其中,所述检索与所述第一查询信息匹配的第一子文本块,包括:
3.一种数据库建立方法,所述方法包括::
4.根据权利要求3所述的方法,其中,所述方法还包括:
5.根据权利要求4所述的方法,其中,所述确定每一所述子文本块对应的可能查询信息,包括:
6.根据权利要求3所述的方法,其中,所述将所述多个子文本块中相互关联的子文本块进行拼接,得到多个母文本块,包括:
7.根据权利...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。