当前位置: 首页 > 专利查询>武汉大学专利>正文

基于大语言模型的强化学习自动构建提示词方法及装置制造方法及图纸

技术编号:41746808 阅读:19 留言:0更新日期:2024-06-21 21:32
本发明专利技术公开了一种基于大语言模型的强化学习自动构建提示词方法及装置,涉及人工智能领域,该方法包括进行强化学习任务相关基本信息的设定;实时更新强化学习中的状态模块和记忆模块,以用于在决策过程中实时更新每一步决策的状态,以及基于以往决策轨迹优化决策表现;将强化学习生成的提示词组合成完整提示词,基于完整提示词向大语言模型提问并获取答案;对获取的答案进行解析,以进行答案格式合法性的判断和答案正确性的判断。本申请能够根据强化学习问题自动构建提示词,同时对于大语言模型的回答能够做到自动解析和执行,具有成本低、效率高、泛化性高和稳定性强的特点。

【技术实现步骤摘要】

本申请涉及人工智能领域,具体涉及一种基于大语言模型的强化学习自动构建提示词方法及装置


技术介绍

1、在当今数字化时代,大语言模型已成为人工智能领域的重要组成部分,其应用覆盖了诸多领域,包括自然语言处理、机器翻译、智能对话系统等。大语言模型的发展始于对语言智能处理的渴望,这种模型通过深度学习技术对海量文本数据进行学习,从而能够生成流畅、准确的文本输出。这一特点使得大语言模型的决策具有很强的可解释性,因此将大语言模型应用在对于可解释性需求强烈的强化学习任务之中是十分具有前景的方向。强化学习是一种通过试错来学习最优行为策略的机器学习方法,在许多实际场景中具有广泛的应用前景。大语言模型的引入为强化学习提供了强大的支持。例如,通过与环境进行交互,大语言模型能够生成丰富的文本提示,为强化学习算法提供更丰富的状态信息,从而提升学习效率和性能。这种结合为自动化决策、智能游戏设计、自动化写作等领域带来了巨大的潜力。

2、但是直接使用大语言模型解决强化学习问题的效果并不是很理想,目前有两种常见的手段用以提升大语言模型的表现:一种是收集足够的语料构建数据集,对大语本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的强化学习自动构建提示词方法,其特征在于,所述基于大语言模型的强化学习自动构建提示词方法包括:

2.如权利要求1所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于:

3.如权利要求2所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于:

4.如权利要求2所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于:

5.如权利要求1所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于:

6.如权利要求1所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于...

【技术特征摘要】

1.一种基于大语言模型的强化学习自动构建提示词方法,其特征在于,所述基于大语言模型的强化学习自动构建提示词方法包括:

2.如权利要求1所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于:

3.如权利要求2所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于:

4.如权利要求2所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于:

5.如权利要求1所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于:

6.如权利要求1所述的一种基于大语言模型的强化学习自动构建提示词方法,其特征在于,所述对获取的答案进行解析,以进行答案格式合法性的判断...

【专利技术属性】
技术研发人员:杨乾成罗勇杜博
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1