一种基于强化知识选择的大语言模型对话推荐方法技术

技术编号：41118007 阅读：28 留言：0更新日期：2024-04-25 14:07

一种基于强化知识选择的大语言模型对话推荐方法，属于自然语言处理领域。本发明专利技术结合T5模型的编码器和RGCN模型，提高了对话内容的相关性和丰富性，使对话更自然、流畅且紧密贴合用户需求。采用T5模型作为策略模型，并结合强化学习，有效提升了对话生成的质量和精准度，确保知识选择的高效性。实验证明本发明专利技术的模型在自动评价和人工评价两个方面都超出了当前最新的基准模型。该方法通过创新的强化学习框架和算法，有效地解决了以上问题，为用户提供了更加智能、精准且高效的对话推荐服务。本方法的提出，不仅是对话推荐技术的一大进步，也为未来智能对话代理的研究和发展提供了新的方向。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理领域，具体涉及一种基于强化知识选择的大语言模型对话推荐方法。

技术介绍

1、随着人工智能技术的飞速发展，特别是在自然语言处理(nlp)领域，大语言模型(llms)如chatgpt和gemini等已经成为该领域的重要推动力量。这些模型的出现，极大地增强了机器理解和生成自然语言的能力，为建立更智能的对话系统奠定了基础。在此基础上，对话推荐系统成为了一个研究热点，它旨在通过对话交互的方式理解用户的需求并提供相应的建议和帮助。

2、在以往的技术中，对话推荐系统主要依赖于模式匹配、关键字触发和静态的决策树等技术，这些方法在复杂对话场景中往往显得力不从心。它们通常缺乏对上下文的深入理解和灵活处理能力，导致推荐结果的准确度和用户满意度有限。此外，这些系统在处理大量动态变化的用户信息和偏好时，往往难以提供个性化和精准的推荐。

3、知识图谱通过构建实体之间的关联网络，提供了一种丰富的语义信息来源，使得对话系统能够理解和推理用户意图背后的复杂关系。利用知识图谱来提供更加信息丰富和上下文相关的推荐，通过整合用户兴趣和反馈来引导对话流向推荐目标。此外，知识图谱还能够支持对话系统在多轮对话中持续追踪主题，保持对话连贯性，提升整体交互体验。通过这样的技术进步，对话推荐系统不仅能够处理更复杂的推荐任务，与传统的单一对话系统相比，这种方法会使会话式推荐变得更自然和有效。

4、然而，单一的大语言模型系统在对话推荐任务上表现一般，研究者开始探索结合强化学习的方法来优化大语言模型在对话推荐系统中的应用。强

5、结合强化学习的大语言模型对话推荐方法，可以在保持语言模型生成能力的同时，通过不断的学习和适应，提高其在特定领域内的知识选择和应用能力。它能够在对话过程中综合考虑用户提供的信息，以及历史交互数据，从而实现更为精准的知识选择和推荐。

6、然而，强化学习在实际应用中仍面临着诸多挑战。例如，如何设计有效的奖励机制来正确引导模型学习，如何处理探索和利用之间的平衡，以及如何避免过度拟合等问题，都是当前技术需要解决的关键问题。

7、本专利技术提出了一种新型的基于强化知识选择的大语言模型对话推荐方法，该方法通过创新的强化学习框架和算法，有效地解决了以上问题，为用户提供了更加智能、精准且高效的对话推荐服务。本方法的提出，不仅是对话推荐技术的一大进步，也为未来智能对话代理的研究和发展提供了新的方向。

技术实现思路

1、本专利技术旨在解决上述技术问题，提供一种基于强化知识选择的大语言模型对话推荐方法。本专利技术采用小型可调策略模型(例如t5)为每个输入实例进行知识选择的同时生成辅助定向刺激提示，指导大语言模型生成所需的推荐对话。

2、本专利技术的技术方案：

3、一种基于强化知识选择的大语言模型对话推荐方法，步骤如下：

4、(1)数据预处理：首先选择原数据集，原数据集包括用户信息、对话目标、对话场景、从知识图谱中提取的相关知识三元组和多轮推荐对话；然后对原数据集进行数据清洗、文本标准化处理；其次将原数据集的一次多轮推荐对话拆分为多条数据，使原数据集的多轮推荐对话分解为对话上下文、目标响应。

5、(2)构建新的数据集：在步骤(1)原数据集的基础上，将原数据集的用户信息、对话目标、对话场景、相关知识三元组、对话上下文和目标响应文本输入到chatgpt中，使其选出最相关的3-5个知识三元组，构建新的数据集d′＝{(x,z*)}，其中，x表示原数据集的用户信息、对话目标、对话场景、相关知识三元组、对话上下文和目标响应文本，也即chatgpt的输入，z*表示最相关知识三元组；新的数据集由输入刺激对(x,z*)组成，新数据集用来对策略模型进行有监督训练。

6、(3)将文本转化为词嵌入向量：对于步骤(2)构建的新的数据集，将用户信息、对话上下文、对话场景和对话目标作为输入文本输入到t5(text-to-text transfertransformer)模型的编码器，t5模型的编码器通过其注意力机制，能够理解词与词之间的复杂关系，它对输入文本进行分词、编码、提取特征，生成词嵌入(word embeddings)向量矩阵，词嵌入向量矩阵表示为：这些嵌入代表着输入文本的语义信息，其中nw表示输入文本中单词的数量。

7、(4)知识图谱的编码：将步骤(1)的原数据集中的相关知识三元组输入到关系图卷积网络rgcn中。rgcn用于处理图结构数据，能够编码实体之间的关系，输出的三元组嵌入(triplet embeddings)向量矩阵三元组嵌入向量矩阵捕捉了实体之间的关系的语义信息，其中nt是知识三元组的数量。

8、(5)模型嵌入组合：将t5模型的编码器生成的词嵌入向量矩阵和rgcn生成的三元组嵌入向量矩阵通过一个特定的函数f进行组合，以形成一个综合的组合嵌入表示：ecombined＝f(eword,etriplet)，其中，eword是通过t5模型的编码器得到的词嵌入向量矩阵，etriplet是通过rgcn模型得到的三元组嵌入向量矩阵。函数f是向量拼接策略或融合策略，融合策略可以为加权平均或者神经网络融合层，本方法采用向量拼接策略。

9、(6)策略模型(policy model)的训练：采用t5模型作为策略模型，用于确定在对话中应使用哪些知识信息并生成定向刺激提示(prompt)。将步骤(5)中得到的词嵌入向量矩阵ecombined以及每个训练实例对应的目标标签，也即步骤(2)构建的新数据集中的z*一起输入到t5模型中进行有监督训练，从而初步提高策略模型在特定任务上的表现。通过最大化对数似然来微调策略模型：

10、

11、其中，表示对于数据集中的所有样本(x,z*)，计算损失函数的平均值；logppol(z*|x)表示在给定输入x的条件下，策略模型生成正确输出z*的对数概率。

12、策略模型通过有监督训练来初步学习如何根据当前的对话上下文、对话目标、对话场景和相关知识三元组，选择和输出最相关的知识三元组。这些三元组被用作提示(prompt)，引导后续对话内容的生成。

13、(7)微调大语言模型：在生成对话内容之前，使用新的数据集中的用户信息、对话目标、对话场景、对话上下文、最相关知识三元组作为输入，使用目标响应作为目标输出，对大型语言模型进行qlora(efficient finetuning of quantized llms)微调。

14、(8)大语言模型的应用：将策略模型选出的提示(即知识三元组)、初始对话上下文、对话目标和用户信息编入提前设好的prompt模板中，并输入到一个大语言模型中。大语言模型负责根据这些输入生成自然、流畅且相本文档来自技高网...

【技术保护点】

1.一种基于强化知识选择的大语言模型对话推荐方法，其特征在于，步骤如下：

【技术特征摘要】

1.一种基于强化知识选择的大语言模型...

【专利技术属性】
技术研发人员：殷快快，张冠宇，孙俊，李超，于子皓，夏志宇，徐沐阳，
申请(专利权)人：江南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人