基于目标生成式回应语言模型的回应方法和装置制造方法及图纸

技术编号：37997254 阅读：14 留言：0更新日期：2023-06-30 10:11

本申请涉及一种基于目标生成式回应语言模型的回应方法和装置。其中，该方法包括：基于教育设备中的提示数据集，训练得到初始生成式提示语言模型和初始生成式回应语言模型；并利用评分模型对二者的预测结果进行评分；基于对评分值的加权计算结果，通过强化学习和对抗学习进一步训练初始生成式提示语言模型和初始生成式回应语言模型，得到目标生成式回应语言模型；将教育设备采集的待测文本数据输入目标生成式回应语言模型，目标生成式回应语言模型将待测文本数据与对话数据进行拼接，得到相应的回应。采用本方法能生成多样的新提示，并加强生成式提示语言模型和生成式回应语言模型之间的交互，从而进一步改善生成式语言模型的意料外行为问题。意料外行为问题。意料外行为问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于目标生成式回应语言模型的回应方法和装置

[0001]本申请涉及人工智能与深度学习
，特别是涉及一种基于目标生成式回应语言模型的回应方法和装置。

技术介绍

[0002]随着技术的发展，智能对话技术已经不局限于人工规则的使用，朝着更加智能化的方向发展，这一发展带来了智能对话效果的提升，展现出更加拟人化，更加多元化的趋势，也使得用户更愿意使用这项技术。基于生成式语言模型的智能对话技术是当前的热门，已经十分普及，很多教育类产品使用了该项技术。生成式语言模型可以通过用户输入的提示来执行一系列自然语言处理任务，如命名实体识别，关系抽取，问答等。但是，这些模型经常做出意想不到的行为，比如编造不实信息，生成带有偏见的文本以及不遵守用户的意图等，导致对孩童身心发育产生不利影响。出现此类问题的原因主要是常用的生成式语言模型的预训练方法（也就是通过预测给定文本的下一个词来训练模型）没有引导生成式语言模型遵循基本规则。
[0003]为了解决上述问题，现有技术中引入强化学习来引导生成式语言模型遵循基本规则以避免意料外行为，首先通过监...

【技术保护点】

【技术特征摘要】
1.一种基于目标生成式回应语言模型的回应方法，其特征在于，所述方法包括：基于教育设备中的提示数据集，训练得到初始生成式提示语言模型和初始生成式回应语言模型；所述初始生成式提示语言模型具备根据提示生成新提示的能力，所述初始生成式回应语言模型具备根据提示生成回应的能力；基于采样所述教育设备中成对的提示数据，训练得到提示评分模型；基于采样所述教育设备中成对的回应数据，训练得到回应评分模型；利用所述提示评分模型对所述初始生成式提示语言模型输出的预测提示进行评分，得到提示评分值；利用所述回应评分模型对所述初始生成式回应语言模型输出的预测回应进行评分，得到回应评分值；对所述提示评分值和所述回应评分值进行加权计算，基于加权计算结果，通过强化学习和对抗学习进一步训练所述初始生成式提示语言模型和所述初始生成式回应语言模型，得到目标生成式回应语言模型；将所述教育设备采集的待测文本数据输入所述目标生成式回应语言模型，所述目标生成式回应语言模型将待测文本数据与对话数据进行拼接，得到相应的回应。2.根据权利要求1所述的基于目标生成式回应语言模型的回应方法，其特征在于，所述基于教育设备中的提示数据集，训练得到初始生成式提示语言模型和初始生成式回应语言模型，包括：获取教育设备中的提示数据集，并基于从所述提示数据集中采样的提示，获取根据所述提示预先设置的新提示和回应；将所述提示作为模型输入，并将所述预先设置的新提示为训练目标，使用监督学习训练得到初始生成式提示语言模型；将所述提示作为模型输入，并将所述预先设置的回应为训练目标，使用监督学习训练得到初始生成式回应语言模型。3.根据权利要求1所述的基于目标生成式回应语言模型的回应方法，其特征在于，所述基于采样所述教育设备中成对的提示数据，训练得到提示评分模型，包括：采样所述教育设备中的提示数据集中的一条所述提示，将所述提示输入所述初始生成式提示语言模型，得到模型生成的新提示；获取所述教育设备中的根据所述模型生成的新提示预先设置的第一评分值；基于所述提示、所述模型生成的新提示以及所述第一评分值，训练得到提示评分模型。4.根据权利要求1所述的基于目标生成式回应语言模型的回应方法，其特征在于，所述基于采样所述教育设备中成对的回应数据，训练得到回应评分模型，包括：采样所述教育设备中的提示数据集中的一条所述提示，将所述提示输入所述初始生成式回应语言模型，得到模型生成的回应；获取所述教育设备中的根据所述模型生成的回应预先设置的第二评分值；基于所述提示、所述模型生成的回应以及所述第二评分值，训练得到回应评分模型。5.根据权利要求1所述的基于目标生成式回应语言模型的回应方法，其特征在于，所述利用所述回应评分模型对所述初始生成式回应语言模型输出的预测回应进行评分，得到回应评分值，包括：获取一个新的提示数据集；
将所述新的提示数据...

【专利技术属性】
技术研发人员：费军波，张丽颖，张云云，张莹，曾令仿，陈光，程稳，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人