当前位置: 首页 > 专利查询>之江实验室专利>正文

基于目标生成式回应语言模型的回应方法和装置制造方法及图纸

技术编号:37997254 阅读:5 留言:0更新日期:2023-06-30 10:11
本申请涉及一种基于目标生成式回应语言模型的回应方法和装置。其中,该方法包括:基于教育设备中的提示数据集,训练得到初始生成式提示语言模型和初始生成式回应语言模型;并利用评分模型对二者的预测结果进行评分;基于对评分值的加权计算结果,通过强化学习和对抗学习进一步训练初始生成式提示语言模型和初始生成式回应语言模型,得到目标生成式回应语言模型;将教育设备采集的待测文本数据输入目标生成式回应语言模型,目标生成式回应语言模型将待测文本数据与对话数据进行拼接,得到相应的回应。采用本方法能生成多样的新提示,并加强生成式提示语言模型和生成式回应语言模型之间的交互,从而进一步改善生成式语言模型的意料外行为问题。意料外行为问题。意料外行为问题。

【技术实现步骤摘要】
基于目标生成式回应语言模型的回应方法和装置


[0001]本申请涉及人工智能与深度学习
,特别是涉及一种基于目标生成式回应语言模型的回应方法和装置。

技术介绍

[0002]随着技术的发展,智能对话技术已经不局限于人工规则的使用,朝着更加智能化的方向发展,这一发展带来了智能对话效果的提升,展现出更加拟人化,更加多元化的趋势,也使得用户更愿意使用这项技术。基于生成式语言模型的智能对话技术是当前的热门,已经十分普及,很多教育类产品使用了该项技术。生成式语言模型可以通过用户输入的提示来执行一系列自然语言处理任务,如命名实体识别,关系抽取,问答等。但是,这些模型经常做出意想不到的行为,比如编造不实信息,生成带有偏见的文本以及不遵守用户的意图等,导致对孩童身心发育产生不利影响。出现此类问题的原因主要是常用的生成式语言模型的预训练方法(也就是通过预测给定文本的下一个词来训练模型)没有引导生成式语言模型遵循基本规则。
[0003]为了解决上述问题,现有技术中引入强化学习来引导生成式语言模型遵循基本规则以避免意料外行为,首先通过监督学习训练生成式语言模型使其具备根据提示生成回应的能力,其次利用模型生成的回应以及人类专家对回应的反馈训练评分模型,最后借助评分模型替代人类专家对生成式语言模型生成的回应评分并使用强化学习更新生成式语言模型的参数。
[0004]但是,由于语言表达的多样性,预训练所用的数据集不可能覆盖所有提示表达,生成式语言模型的意料外行为问题依旧存在。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够生成多样的新提示,进一步改善生成式回应语言模型的意料外行为问题的基于目标生成式回应语言模型的回应方法和装置。
[0006]第一方面,本申请提供了一种基于目标生成式回应语言模型的回应方法。所述方法包括:基于教育设备中的提示数据集,训练得到初始生成式提示语言模型和初始生成式回应语言模型;所述初始生成式提示语言模型具备根据提示生成新提示的能力,所述初始生成式回应语言模型具备根据提示生成回应的能力;基于采样所述教育设备中成对的提示数据,训练得到提示评分模型;基于采样所述教育设备中成对的回应数据,训练得到回应评分模型;利用所述提示评分模型对所述初始生成式提示语言模型输出的预测提示进行评分,得到提示评分值;利用所述回应评分模型对所述初始生成式回应语言模型输出的预测回应进行评分,得到回应评分值;
对所述提示评分值和所述回应评分值进行加权计算,基于加权计算结果,通过强化学习和对抗学习进一步训练所述初始生成式提示语言模型和所述初始生成式回应语言模型,得到目标生成式回应语言模型;将所述教育设备采集的待测文本数据输入所述目标生成式回应语言模型,所述目标生成式回应语言模型将待测文本数据与对话数据进行拼接,得到相应的回应。
[0007]在其中一个实施例中,所述基于教育设备中的提示数据集,训练得到初始生成式提示语言模型和初始生成式回应语言模型,包括:获取教育设备中的提示数据集,并基于从所述提示数据集中采样的提示,获取根据所述提示预先设置的新提示和回应;将所述提示作为模型输入,并将所述预先设置的新提示为训练目标,使用监督学习训练得到初始生成式提示语言模型;将所述提示作为模型输入,并将所述预先设置的回应为训练目标,使用监督学习训练得到初始生成式回应语言模型。
[0008]在其中一个实施例中,所述基于采样所述教育设备中成对的提示数据,训练得到提示评分模型,包括:采样所述教育设备中的提示数据集中的一条所述提示,将所述提示输入所述初始生成式提示语言模型,得到模型生成的新提示;获取所述教育设备中的根据所述模型生成的新提示预先设置的第一评分值;基于所述提示、所述模型生成的新提示以及所述第一评分值,训练得到提示评分模型。
[0009]在其中一个实施例中,所述基于采样所述教育设备中成对的回应数据,训练得到回应评分模型,包括:采样所述教育设备中的提示数据集中的一条所述提示,将所述提示输入所述初始生成式回应语言模型,得到模型生成的回应;获取所述教育设备中的根据所述模型生成的回应预先设置的第二评分值;基于所述提示、所述模型生成的回应以及所述第二评分值,训练得到回应评分模型。
[0010]在其中一个实施例中,所述利用所述回应评分模型对所述初始生成式回应语言模型输出的预测回应进行评分,得到回应评分值,包括:获取一个新的提示数据集;将所述新的提示数据集输入至所述初始生成式回应语言模型,得到第一预测回应,利用所述回应评分模型对所述第一预测回应进行评分,得到第一回应评分值;将所述新的提示数据集输入至所述初始生成式提示语言模型,得到新生成的新提示,将所述新生成的新提示输入至所述初始生成式回应语言模型,得到第二预测回应,利用所述回应评分模型对所述第二预测回应进行评分,得到第二回应评分值。
[0011]在其中一个实施例中,所述对所述提示评分值和所述回应评分值进行加权计算,基于加权计算结果,通过强化学习和对抗学习进一步训练所述初始生成式提示语言模型和所述初始生成式回应语言模型,得到目标生成式回应语言模型,包括:基于对所述提示评分值和所述回应评分值进行的不同的加权计算,分别得到所述
初始生成式提示语言模型的评分以及所述初始生成式回应语言模型的评分;基于所述初始生成式提示语言模型的评分,更新所述初始生成式提示语言模型的参数,得到目标生成式提示语言模型;基于所述初始生成式回应语言模型的评分,更新所述初始生成式回应语言模型的参数,得到目标生成式回应语言模型。
[0012]第二方面,本申请还提供了一种基于目标生成式回应语言模型的回应装置。所述装置包括:训练初始模型模块,用于基于教育设备中的提示数据集,训练得到初始生成式提示语言模型和初始生成式回应语言模型;所述初始生成式提示语言模型具备根据提示生成新提示的能力,所述初始生成式回应语言模型具备根据提示生成回应的能力;训练评分模型模块,用于基于采样所述教育设备中成对的提示数据,训练得到提示评分模型;基于采样所述教育设备中成对的回应数据,训练得到回应评分模型;应用评分模型模块,用于利用所述提示评分模型对初始生成式提示语言模型输出的预测提示进行评分,得到提示评分值;利用所述回应评分模型对初始生成式回应语言模型输出的预测回应进行评分,得到回应评分值;训练目标模型模块,用于对所述提示评分值和所述回应评分值进行加权计算,基于加权计算结果,通过强化学习和对抗学习进一步训练所述初始生成式提示语言模型和所述初始生成式回应语言模型,得到目标生成式回应语言模型;应用目标模型模块,用于将所述教育设备采集的待测文本数据输入所述目标生成式回应语言模型,所述目标生成式回应语言模型将待测文本数据与对话数据进行拼接,得到相应的回应。
[0013]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于目标生成式回应语言模型的回应方法的步骤。
[0014]第四方面,本申请还提供了一种本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于目标生成式回应语言模型的回应方法,其特征在于,所述方法包括:基于教育设备中的提示数据集,训练得到初始生成式提示语言模型和初始生成式回应语言模型;所述初始生成式提示语言模型具备根据提示生成新提示的能力,所述初始生成式回应语言模型具备根据提示生成回应的能力;基于采样所述教育设备中成对的提示数据,训练得到提示评分模型;基于采样所述教育设备中成对的回应数据,训练得到回应评分模型;利用所述提示评分模型对所述初始生成式提示语言模型输出的预测提示进行评分,得到提示评分值;利用所述回应评分模型对所述初始生成式回应语言模型输出的预测回应进行评分,得到回应评分值;对所述提示评分值和所述回应评分值进行加权计算,基于加权计算结果,通过强化学习和对抗学习进一步训练所述初始生成式提示语言模型和所述初始生成式回应语言模型,得到目标生成式回应语言模型;将所述教育设备采集的待测文本数据输入所述目标生成式回应语言模型,所述目标生成式回应语言模型将待测文本数据与对话数据进行拼接,得到相应的回应。2.根据权利要求1所述的基于目标生成式回应语言模型的回应方法,其特征在于,所述基于教育设备中的提示数据集,训练得到初始生成式提示语言模型和初始生成式回应语言模型,包括:获取教育设备中的提示数据集,并基于从所述提示数据集中采样的提示,获取根据所述提示预先设置的新提示和回应;将所述提示作为模型输入,并将所述预先设置的新提示为训练目标,使用监督学习训练得到初始生成式提示语言模型;将所述提示作为模型输入,并将所述预先设置的回应为训练目标,使用监督学习训练得到初始生成式回应语言模型。3.根据权利要求1所述的基于目标生成式回应语言模型的回应方法,其特征在于,所述基于采样所述教育设备中成对的提示数据,训练得到提示评分模型,包括:采样所述教育设备中的提示数据集中的一条所述提示,将所述提示输入所述初始生成式提示语言模型,得到模型生成的新提示;获取所述教育设备中的根据所述模型生成的新提示预先设置的第一评分值;基于所述提示、所述模型生成的新提示以及所述第一评分值,训练得到提示评分模型。4.根据权利要求1所述的基于目标生成式回应语言模型的回应方法,其特征在于,所述基于采样所述教育设备中成对的回应数据,训练得到回应评分模型,包括:采样所述教育设备中的提示数据集中的一条所述提示,将所述提示输入所述初始生成式回应语言模型,得到模型生成的回应;获取所述教育设备中的根据所述模型生成的回应预先设置的第二评分值;基于所述提示、所述模型生成的回应以及所述第二评分值,训练得到回应评分模型。5.根据权利要求1所述的基于目标生成式回应语言模型的回应方法,其特征在于,所述利用所述回应评分模型对所述初始生成式回应语言模型输出的预测回应进行评分,得到回应评分值,包括:获取一个新的提示数据集;
将所述新的提示数据...

【专利技术属性】
技术研发人员:费军波张丽颖张云云张莹曾令仿陈光程稳
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1