应答信息生成方法、数据库建立方法和装置制造方法及图纸

技术编号:42390337 阅读:17 留言:0更新日期:2024-08-16 16:15
本申请公开了一种应答信息生成方法和装置;所述方法包括:获取用户的第一查询信息;检索与所述第一查询信息匹配的第一子文本块;确定所述第一子文本块对应的目标母文本块,所述目标母文本块包括所述第一子文本块,以及与所述第一子文本块关联的第二子文本块;基于所述目标母文本块,利用目标模型确定所述第一查询信息对应的第一应答信息。

【技术实现步骤摘要】

本申请涉及大模型,尤其涉及一种应答信息生成方法、数据库建立方法和装置


技术介绍

1、随着chat-gpt的问世,各类大模型产品相继推出,值得注意的是,大型模型在回答问题时的质量不仅仅取决于模型本身的能力,还在于为模型提供基于用户文档的适当提示。

2、然而,不经处理的文档直接输入大模型,往往会导致文本过长,影响到大模型的性能和效果。当处理文档长度大于模型可接受的长度时,传统做法需要把文档切分多个块,仅保留含有解决问题所需信息的文本块交给大模型,而这一过程中,检索有用信息的技术,就是检索增强生成(retrieval augmented generation,rag)技术。检索时,往往会对文本块建立向量数据库,利用向量检索的方法找到最有可能包含有用信息的文本块。当切分的文本块过小时,往往无法包含所有有用的信息导致大模型回答发生错误和偏差,而当切分的文本块过大时,又往往导致文档检索消耗时间和资源更多,命中难度增加。并且,传统方法召回时,切分文本块的位置不当,往往会破坏段间语义,导致文本块内语义不完整。


技术实现思路本文档来自技高网...

【技术保护点】

1.一种应答信息生成方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述检索与所述第一查询信息匹配的第一子文本块,包括:

3.一种数据库建立方法,所述方法包括::

4.根据权利要求3所述的方法,其中,所述方法还包括:

5.根据权利要求4所述的方法,其中,所述确定每一所述子文本块对应的可能查询信息,包括:

6.根据权利要求3所述的方法,其中,所述将所述多个子文本块中相互关联的子文本块进行拼接,得到多个母文本块,包括:

7.根据权利要求6所述的方法,其中,所述对每一所述母文本块进行验证,得到对应母文本块的验证结...

【技术特征摘要】

1.一种应答信息生成方法,所述方法包括:

2.根据权利要求1所述的方法,其中,所述检索与所述第一查询信息匹配的第一子文本块,包括:

3.一种数据库建立方法,所述方法包括::

4.根据权利要求3所述的方法,其中,所述方法还包括:

5.根据权利要求4所述的方法,其中,所述确定每一所述子文本块对应的可能查询信息,包括:

6.根据权利要求3所述的方法,其中,所述将所述多个子文本块中相互关联的子文本块进行拼接,得到多个母文本块,包括:

7.根据权利...

【专利技术属性】
技术研发人员:潘骏刘鑫滨
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1