一种基于多维度反馈强化学习的类人价值对齐方法及系统技术方案

技术编号:41327794 阅读:37 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开了一种基于多维度反馈强化学习的类人价值对齐方法及系统,针对现有技术中AI回答无法很好地跟人类价值对齐等问题提出本方案。包括:S1利用大规模心理文档数据集预训练获得中文心理文本大模型;S2利用大规模心理问答对话数据集对步骤S1所得的中文心理文本大模型监督微调得到中文心理问答基准模型;S3输入用户问题至若干心理领域大模型生成若干不同的模型回复,对若干模型回复进行多维度的心理反馈标注,训练获得自动多维度心理回复效果评价模型;S4采用强化学习方法进一步训练后获得心理问答回复生成模型。优点在于,解决了传统回复效果评价模型中模型粗粒度评价问题,评价模型加入多维度的细粒度反馈使模型回复更能对齐人类价值的偏好。

【技术实现步骤摘要】

本专利技术涉及自然语言处理与心理健康的交叉,尤其涉及一种基于多维度反馈强化学习的类人价值对齐方法及系统


技术介绍

1、在当前蓬勃发展的人工智能技术中,自chatgpt发布以来,全球范围内迅速涌现出各种人工智能应用和大型语言模型。以gpt+zero/few shot prompting为主要架构的大语言模型正逐渐成为自然语言处理领域的主流趋势,在各种自然语言理解与生成任务以及各个子领域的任务中都表现出色,扩大了自然语言处理研究的应用领域。

2、具体而言,对于心理问答领域:

3、在chatgpt问世之前,心理问答回复生成方法主要分为两类:检索式心理问答回复生成方法和生成式心理问答回复生成方法。然而,由于检索式方法受到检索内容的限制,传统的生成式方法的模型较小,无法理解复杂的人类需求并作出回答。例如,这些模型可能缺乏共情性,仅提供相关建议等回应,因此需要引入其他模型来辅助回答。

4、尽管chatgpt在许多自然语言理解和生成任务以及其他下游任务中表现出色,被广泛认为理解人的需求,但发现它尚未能够对心理问题做出令人满意的回答。本文档来自技高网...

【技术保护点】

1.一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,步骤S1包括以下子步骤:

3.根据权利要求2所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤S1.2中的心理输入嵌入层包括心理词嵌入层、线性变换层和相对位置嵌入层;心理词嵌入层通过查询心理词表将每个心理单词转化为相应的心理词向量,然后纵向堆叠并连接,形成心理文本矩阵;线性变换层通过进行线性变换,缩短上述心理文本矩阵每一行的长度;相对位置嵌入层将模型学到的相对位置信息添加到心理文本矩阵的每一...

【技术特征摘要】

1.一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,步骤s1包括以下子步骤:

3.根据权利要求2所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤s1.2中的心理输入嵌入层包括心理词嵌入层、线性变换层和相对位置嵌入层;心理词嵌入层通过查询心理词表将每个心理单词转化为相应的心理词向量,然后纵向堆叠并连接,形成心理文本矩阵;线性变换层通过进行线性变换,缩短上述心理文本矩阵每一行的长度;相对位置嵌入层将模型学到的相对位置信息添加到心理文本矩阵的每一行中。

4.根据权利要求3所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤s1.3中,编码器的每个encoder层均输出一个与输入相同尺寸的隐层矩阵;每个encoder层分别包含多头注意力机制层和全连接层两个子层,并且每个子层的输出都带有一个残差连接;残差连接表示将子层各自的输入矩阵与各自的输出矩阵直接相加,随后每个子层在残差连接后经过层归一化处理;...

【专利技术属性】
技术研发人员:谢浩杰陈艺荣邢晓芬郭锴凌徐向民林华冬
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1