System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 应用于大语言模型的答案反馈方法、装置制造方法及图纸_技高网

应用于大语言模型的答案反馈方法、装置制造方法及图纸

技术编号:40663664 阅读:4 留言:0更新日期:2024-03-18 18:57
本公开的实施例公开了应用于大语言模型的答案反馈方法和装置,涉及生成式模型、智能问答等人工智能技术领域。该方法包括:接收用户输入的问题;利用预先训练的大语言模型生成问题的候选答案集,以及从候选答案集中选取答案作为目标答案,向用户展示目标答案;响应于接收到用户针对目标答案发送的反馈请求,生成反馈页面,向用户展示反馈页面,其中,反馈页面的内容包括候选答案集;响应于接收到用户基于反馈页面发送的更新请求,确定更新请求在候选答案集中指示的答案作为新的目标答案,以及向用户展示新的目标答案,可以便捷地得到用户给出的明确的正确答案,提升答案反馈结果的精确度。

【技术实现步骤摘要】

本公开的实施例涉及数据处理领域,具体涉及生成式模型、智能问答等人工智能,可应用于对大语言模型生成的答案进行反馈的场景下。


技术介绍

1、大型语言模型(llm,large language model),其本质是生成式模型,如chatgpt(chat generative pre-trained transformer,是openai机构研发的聊天机器人程序),能够应用于各种下游任务中。例如,智能问答、事件分析、文本生成、智能翻译等等。在这些大语言模型生成式应用中,生成结果的反馈对于大语言模型的成长有着至关重要的作用。更多和更好的答案反馈能够辅助于大语言模型更好的训练,从而为用户提供更好的服务,形成有效和良性的数据飞轮。

2、目前,在大语言模型生成式应用中,常用的答案反馈方式主要有三种。一种是无任何反馈。这种方式下,用户只能被动接收大语言模型生成的答案,体验较差。第二种是提供简单的如赞和踩等正向和反向两种反馈。这种方式只能根据反馈得知答案的好或坏,对于大语言模型的再训练帮助比较有限。第三种是用户如选择踩等表示答案不好时,可通过弹窗等方式让用户填写具体的原因。这种方式由于用户填写内容的质量较难控制,而且也无法直接得到能让用户满意的答案。


技术实现思路

1、本公开的实施例提出了应用于大语言模型的答案反馈方法、装置、设备、存储介质以及程序产品。

2、第一方面,本公开的实施例提供了一种应用于大语言模型的答案反馈方法,该方法包括:接收用户输入的问题;利用预先训练的大语言模型生成问题的候选答案集,以及从候选答案集中选取答案作为目标答案,向用户展示目标答案;响应于接收到用户针对目标答案发送的反馈请求,生成反馈页面,向用户展示反馈页面,其中,反馈页面的内容包括候选答案集;响应于接收到用户基于反馈页面发送的更新请求,确定更新请求在候选答案集中指示的答案作为新的目标答案,以及向用户展示新的目标答案。

3、第二方面,本公开的实施例提供了一种应用于大语言模型的答案反馈装置,该装置包括:接收模块,被配置成接收用户输入的问题;展示模块,被配置成利用预先训练的大语言模型生成问题的候选答案集,以及从候选答案集中选取答案作为目标答案,向用户展示目标答案;反馈模块,被配置成响应于接收到用户针对目标答案发送的反馈请求,生成反馈页面,向用户展示反馈页面,其中,反馈页面的内容包括候选答案集;展示模块,进一步被配置成响应于接收到用户基于反馈页面发送的更新请求,确定更新请求在候选答案集中指示的答案作为新的目标答案,以及向用户展示新的目标答案。

4、第三方面,本公开实施例提出了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面描述的方法。

5、第四方面,本公开实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面描述的方法。

6、第五方面,本公开实施例提出了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如第一方面描述的方法。

7、本公开的实施例提供的应用于大语言模型的答案反馈方法在针对用户的问题生成候选答案集并从中选取和展示目标答案时,可以接收用户针对该答案的反馈请求,并向用户展示候选答案集中的所有答案,以使用户可以从大语言模型针对该问题生成的所有答案中选择新的答案进行更新,从而可以便捷地得到用户给出的明确的正确答案,提升答案反馈结果的精确度。

8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种应用于大语言模型的答案反馈方法,包括:

2.根据权利要求1所述的方法,其中,所述反馈页面的内容还包括所述候选答案集中的每个答案与所述问题的匹配度,其中,所述匹配度由所述大语言模型生成。

3.根据权利要求2所述的方法,其中,所述反馈页面的内容还包括所述候选答案集中的答案对应的参考信息,其中,所述大语言模型利用所述参考信息生成所述候选答案集。

4.根据权利要求3所述的方法,其中,所述目标答案所属的展示页面上展示有预设反馈标识;以及

5.根据权利要求3所述的方法,其中,所述反馈页面上展示有更新标识和取消标识;以及

6.根据权利要求1-5之一所述的方法,其中,所述大语言模型通过如下步骤训练得到:

7.根据权利要求6所述的方法,其中,所述方法还包括:

8.一种应用于大语言模型的答案反馈装置,包括:

9.根据权利要求8所述的装置,其中,所述反馈页面的内容还包括所述候选答案集中的每个答案与所述问题的匹配度,其中,所述匹配度由所述大语言模型生成。

10.根据权利要求9所述的装置,其中,所述反馈页面的内容还包括所述候选答案集中的答案对应的参考信息,其中,所述大语言模型利用所述参考信息生成所述候选答案集。

11.根据权利要求10所述的方法,其中,所述目标答案所属的展示页面上展示有预设反馈标识;以及

12.根据权利要求10所述的方法,其中,所述反馈页面上展示有更新标识和取消标识;以及

13.根据权利要求8-12之一所述的装置,其中,所述大语言模型通过如下步骤训练得到:

14.根据权利要求13所述的装置,其中,所述装置还包括:

15.一种电子设备,包括:

16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。

17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

...

【技术特征摘要】

1.一种应用于大语言模型的答案反馈方法,包括:

2.根据权利要求1所述的方法,其中,所述反馈页面的内容还包括所述候选答案集中的每个答案与所述问题的匹配度,其中,所述匹配度由所述大语言模型生成。

3.根据权利要求2所述的方法,其中,所述反馈页面的内容还包括所述候选答案集中的答案对应的参考信息,其中,所述大语言模型利用所述参考信息生成所述候选答案集。

4.根据权利要求3所述的方法,其中,所述目标答案所属的展示页面上展示有预设反馈标识;以及

5.根据权利要求3所述的方法,其中,所述反馈页面上展示有更新标识和取消标识;以及

6.根据权利要求1-5之一所述的方法,其中,所述大语言模型通过如下步骤训练得到:

7.根据权利要求6所述的方法,其中,所述方法还包括:

8.一种应用于大语言模型的答案反馈装置,包括:

9.根据权利要求8所述的装置,其中,所述反馈页面的内容还包括所述候选答案集中的每个答案与所述问...

【专利技术属性】
技术研发人员:董沛果施芳芳丁美元赵慧斌
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1