System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多维度反馈强化学习的类人价值对齐方法及系统技术方案_技高网

一种基于多维度反馈强化学习的类人价值对齐方法及系统技术方案

技术编号:41327794 阅读:4 留言:0更新日期:2024-05-13 15:05
本发明专利技术公开了一种基于多维度反馈强化学习的类人价值对齐方法及系统,针对现有技术中AI回答无法很好地跟人类价值对齐等问题提出本方案。包括:S1利用大规模心理文档数据集预训练获得中文心理文本大模型;S2利用大规模心理问答对话数据集对步骤S1所得的中文心理文本大模型监督微调得到中文心理问答基准模型;S3输入用户问题至若干心理领域大模型生成若干不同的模型回复,对若干模型回复进行多维度的心理反馈标注,训练获得自动多维度心理回复效果评价模型;S4采用强化学习方法进一步训练后获得心理问答回复生成模型。优点在于,解决了传统回复效果评价模型中模型粗粒度评价问题,评价模型加入多维度的细粒度反馈使模型回复更能对齐人类价值的偏好。

【技术实现步骤摘要】

本专利技术涉及自然语言处理与心理健康的交叉,尤其涉及一种基于多维度反馈强化学习的类人价值对齐方法及系统


技术介绍

1、在当前蓬勃发展的人工智能技术中,自chatgpt发布以来,全球范围内迅速涌现出各种人工智能应用和大型语言模型。以gpt+zero/few shot prompting为主要架构的大语言模型正逐渐成为自然语言处理领域的主流趋势,在各种自然语言理解与生成任务以及各个子领域的任务中都表现出色,扩大了自然语言处理研究的应用领域。

2、具体而言,对于心理问答领域:

3、在chatgpt问世之前,心理问答回复生成方法主要分为两类:检索式心理问答回复生成方法和生成式心理问答回复生成方法。然而,由于检索式方法受到检索内容的限制,传统的生成式方法的模型较小,无法理解复杂的人类需求并作出回答。例如,这些模型可能缺乏共情性,仅提供相关建议等回应,因此需要引入其他模型来辅助回答。

4、尽管chatgpt在许多自然语言理解和生成任务以及其他下游任务中表现出色,被广泛认为理解人的需求,但发现它尚未能够对心理问题做出令人满意的回答。这是因为心理领域相对特殊,回答需要一定的共情能力,而chatgpt仅仅引入了一般人的反馈,并且缺乏足够的心理知识。

5、现有专利中,王振宇公开了cn116383364a一种基于医生反馈与强化学习的医疗问答回复方法及系统,其通过医生反馈与强化学习进一步提升模型的专业准确性与共情能力,以具备专业度较高的医疗问答能力,具有回复人性化且专业准确性更高的特点。但依然存在一定的不足之处:在王振宇公开的专利里,其中的步骤s3只是简单根据步骤2获得的中文医疗问答基准模型生成多个相似的机器回复,这些回复由同一个模型生成,回复大同小异,没有什么差异性,医生很难从多个相似的回复去根据评判标准精准排序这些回复的好坏,在判断标准上也比较单一,只是粗粒度地进行排序,导致模型在训练过程中很难判断回复之间的差异性,训练出来的自动回复效果评价模型在后续的强化学习过程中无法很好地对齐人类价值的偏好,不具备细粒度地评价,可能还会产生一些有害、危险的回复。

6、因此,迫切需要设计一种更智能,能够对齐人类价值偏好的心理问答回复方法,以解决上述问题。


技术实现思路

1、本专利技术目的在于提供一种基于多维度反馈强化学习的类人价值对齐方法及系统,以解决上述现有技术存在的问题。

2、本专利技术中所述一种基于多维度反馈强化学习的类人价值对齐方法,包括以下步骤:

3、s1利用大规模心理文档数据集预训练获得中文心理文本大模型;

4、s2利用大规模心理问答对话数据集对步骤s1所得的中文心理文本大模型监督微调得到中文心理问答基准模型;

5、s3输入用户问题至若干心理领域大模型生成若干不同的模型回复,对若干模型回复进行多维度的心理反馈标注,训练获得自动多维度心理回复效果评价模型;

6、具体包括以下子步骤:

7、s3.1给定输入用户问题q,采用m个心理领域大语言模型生成m个不同的模型回复res1×m={res1,…,resm},m∈z+,得到[q|res1×m],其中resi(1<i<m)是单个大语言模型的回复,对n个问题进行上述操作并堆叠则得到一个模型回复矩阵c=[qn×1|resn×m];

8、s3.2对模型回复矩阵c中的每个输入用户问题的m个模型回复res1×m进行λ个维度的比较;在心理领域比较关注回复的共情维度、理解维度、影响维度、拟人维度、可靠维度和安全维度;将每个向量[q|res1×m]划分成个心理反馈比较对(q,res1,res2),其中表示组合运算在任意一个维度里,第一个回复res1比第二个回复res2更好,则在这个维度上设置为1,反之为-1,如果两个回复近似,则设置为0,从而构建获得多维度反馈数据集;

9、s3.3基于多维度反馈数据集,训练获得自动多维度心理回复效果评价模型;自动多维度心理回复效果评价模型是在中文心理问答基准模型的基础上训练的,具体为将其输出层替换为λ个线性层,用于将解码器输出的心理回复向量映射为λ个分数标量,线性层对应的维度依次是共情维度、理解维度、影响维度、拟人维度、可靠维度和安全维度;另外针对每个心理反馈比较对(q,res1,res2)构建一个长度为λ的标签掩码向量mm,将多维度反馈数据集里的每个维度的数值评价依次代入标签掩码向量mm,构建这样一个标签掩码向量是为了保证每个维度的偏好回复评分减去非偏好回复评分;所述自动多维度心理回复效果评价模型的损失函数的计算公式为:

10、

11、其中,rθ(q,res)为在模型参数为θ的情况下自动多维度心理回复效果评价模型对用户问题q和单个模型回复res的标量输出评分,dr为多维度反馈数据集的标号;

12、s4采用强化学习方法进一步训练后获得心理问答回复生成模型。

13、步骤s1包括以下子步骤:

14、s1.1收集心理领域的心理文档,将收集到的心理文档整理成心理文本,再整合成大规模的心理文档数据集;

15、s1.2逐一将步骤s1.1得到的心理文档数据集中的各心理文本输入到心理输入嵌入层,进行预处理以生成心理文本矩阵;

16、s1.3将经过预处理的心理文本矩阵输入包含若干encoder层的编码器,以产生相同尺寸的心理上下文语义矩阵,并新建历史心理回复矩阵;

17、s1.4将步骤s1.3生成的心理上下文语义矩阵与历史心理回复矩阵输入到包含若干decoder层的解码器,将解码器输出的心理回复向量追加到历史心理回复矩阵中;

18、s1.5经过输出层处理,将解码器生成的每个心理回复向量实时输出为心理单词,最终形成一个完整的心理文本。

19、在步骤s1.2中的心理输入嵌入层包括心理词嵌入层、线性变换层和相对位置嵌入层;心理词嵌入层通过查询心理词表将每个心理单词转化为相应的心理词向量,然后纵向堆叠并连接,形成心理文本矩阵;线性变换层通过进行线性变换,缩短上述心理文本矩阵每一行的长度;相对位置嵌入层将模型学到的相对位置信息添加到心理文本矩阵的每一行中。

20、在步骤s1.3中,编码器的每个encoder层均输出一个与输入相同尺寸的隐层矩阵;每个encoder层分别包含多头注意力机制层和全连接层两个子层,并且每个子层的输出都带有一个残差连接;残差连接表示将子层各自的输入矩阵与各自的输出矩阵直接相加,随后每个子层在残差连接后经过层归一化处理;子层输出sublayeroutput的计算公式为:

21、sublayeroutput=layernorm(x+sublayer(x));

22、其中,x为输入的心理文本矩阵,sublayer(x)为对encoder层的两个子层的输出各自进行残差处理,layernorm()为归一化处理。

23、所述encoder层的多头注意力机制层的每个注意力本文档来自技高网...

【技术保护点】

1.一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,步骤S1包括以下子步骤:

3.根据权利要求2所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤S1.2中的心理输入嵌入层包括心理词嵌入层、线性变换层和相对位置嵌入层;心理词嵌入层通过查询心理词表将每个心理单词转化为相应的心理词向量,然后纵向堆叠并连接,形成心理文本矩阵;线性变换层通过进行线性变换,缩短上述心理文本矩阵每一行的长度;相对位置嵌入层将模型学到的相对位置信息添加到心理文本矩阵的每一行中。

4.根据权利要求3所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤S1.3中,编码器的每个Encoder层均输出一个与输入相同尺寸的隐层矩阵;每个Encoder层分别包含多头注意力机制层和全连接层两个子层,并且每个子层的输出都带有一个残差连接;残差连接表示将子层各自的输入矩阵与各自的输出矩阵直接相加,随后每个子层在残差连接后经过层归一化处理;子层输出SubLayerOutput的计算公式为:

5.根据权利要求4所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,所述Encoder层的多头注意力机制层的每个注意力头包含三个待学习的矩阵:query矩阵key矩阵以及value矩阵其中,dword为心理文本矩阵每一行的长度,dq、dk和dv分别均为每个心理文本矩阵经过WQ、WK、WV矩阵线性变换后的向量的维度,将输入的心理文本矩阵X与WQ相乘得到Q,X与WK相乘得到K,X与WV相乘得到V,公式如下:

6.根据权利要求5所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,所述步骤S2包括以下子步骤:

7.根据权利要求6所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,所述步骤S4包括以下子步骤:

8.根据权利要求7所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,所述步骤S4.4中,强化学习算法的公式为:

9.应用权利要求1-8任一项所述一种基于多维度反馈强化学习的类人价值对齐方法的系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,步骤s1包括以下子步骤:

3.根据权利要求2所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤s1.2中的心理输入嵌入层包括心理词嵌入层、线性变换层和相对位置嵌入层;心理词嵌入层通过查询心理词表将每个心理单词转化为相应的心理词向量,然后纵向堆叠并连接,形成心理文本矩阵;线性变换层通过进行线性变换,缩短上述心理文本矩阵每一行的长度;相对位置嵌入层将模型学到的相对位置信息添加到心理文本矩阵的每一行中。

4.根据权利要求3所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤s1.3中,编码器的每个encoder层均输出一个与输入相同尺寸的隐层矩阵;每个encoder层分别包含多头注意力机制层和全连接层两个子层,并且每个子层的输出都带有一个残差连接;残差连接表示将子层各自的输入矩阵与各自的输出矩阵直接相加,随后每个子层在残差连接后经过层归一化处理;...

【专利技术属性】
技术研发人员:谢浩杰陈艺荣邢晓芬郭锴凌徐向民林华冬
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1