【技术实现步骤摘要】
本专利技术涉及自然语言处理与心理健康的交叉,尤其涉及一种基于多维度反馈强化学习的类人价值对齐方法及系统。
技术介绍
1、在当前蓬勃发展的人工智能技术中,自chatgpt发布以来,全球范围内迅速涌现出各种人工智能应用和大型语言模型。以gpt+zero/few shot prompting为主要架构的大语言模型正逐渐成为自然语言处理领域的主流趋势,在各种自然语言理解与生成任务以及各个子领域的任务中都表现出色,扩大了自然语言处理研究的应用领域。
2、具体而言,对于心理问答领域:
3、在chatgpt问世之前,心理问答回复生成方法主要分为两类:检索式心理问答回复生成方法和生成式心理问答回复生成方法。然而,由于检索式方法受到检索内容的限制,传统的生成式方法的模型较小,无法理解复杂的人类需求并作出回答。例如,这些模型可能缺乏共情性,仅提供相关建议等回应,因此需要引入其他模型来辅助回答。
4、尽管chatgpt在许多自然语言理解和生成任务以及其他下游任务中表现出色,被广泛认为理解人的需求,但发现它尚未能够对心理问题
...【技术保护点】
1.一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,步骤S1包括以下子步骤:
3.根据权利要求2所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤S1.2中的心理输入嵌入层包括心理词嵌入层、线性变换层和相对位置嵌入层;心理词嵌入层通过查询心理词表将每个心理单词转化为相应的心理词向量,然后纵向堆叠并连接,形成心理文本矩阵;线性变换层通过进行线性变换,缩短上述心理文本矩阵每一行的长度;相对位置嵌入层将模型学到的相对位置信息添加
...【技术特征摘要】
1.一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,包括以下步骤:
2.根据权利要求1所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,步骤s1包括以下子步骤:
3.根据权利要求2所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤s1.2中的心理输入嵌入层包括心理词嵌入层、线性变换层和相对位置嵌入层;心理词嵌入层通过查询心理词表将每个心理单词转化为相应的心理词向量,然后纵向堆叠并连接,形成心理文本矩阵;线性变换层通过进行线性变换,缩短上述心理文本矩阵每一行的长度;相对位置嵌入层将模型学到的相对位置信息添加到心理文本矩阵的每一行中。
4.根据权利要求3所述一种基于多维度反馈强化学习的类人价值对齐方法,其特征在于,在步骤s1.3中,编码器的每个encoder层均输出一个与输入相同尺寸的隐层矩阵;每个encoder层分别包含多头注意力机制层和全连接层两个子层,并且每个子层的输出都带有一个残差连接;残差连接表示将子层各自的输入矩阵与各自的输出矩阵直接相加,随后每个子层在残差连接后经过层归一化处理;...
【专利技术属性】
技术研发人员:谢浩杰,陈艺荣,邢晓芬,郭锴凌,徐向民,林华冬,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。