一种防御型AIGC对抗智能体及其训练方法技术

技术编号:42623449 阅读:32 留言:0更新日期:2024-09-06 01:27
一种防御型AIGC对抗智能体及其训练方法,属于人工智能技术领域。智能体中,强化学习模块通过观测策略网络得取一条轨迹;解耦学习模块根据所述轨迹生成反事实轨迹,并进行解耦学习得到奖励函数,根据奖励函数算出奖励,根据奖励生成反事实策略网络的参数;对抗学习模块中,控制器根据反事实策略网络控制智能体生成多个反向辩论动作,控制观测策略网络生成多个正向辩论动作,判别器根据多个反向辩论动作的转移状态和多个正向辩论动作的转移状态判断正向辩论动作和反向辩论动作的真伪,将真的辩论动作、状态、下一个状态及奖励作为一个四元组放入缓冲池中。本发明专利技术能够能够识别语境,使得智能体产生更灵活的辩论策略。

【技术实现步骤摘要】

本专利技术涉及一种防御型aigc对抗智能体及其训练方法,属于人工智能。


技术介绍

1、当前ai自主辩论研究主要集中在试验性的象棋、围棋等游戏或智能体协作等人类社会的高智力博弈活动领域。

2、将ai自主辩论领域的相关技术引入网络信息研究还存在空白。


技术实现思路

1、为克服现有技术的缺点,本专利技术的专利技术目的是提供一种防御型aigc对抗智能体及其训练方法,其在反事实动作生成任务中,生成更合理的反事实动作,使得智能体产生更灵活的辩论策略,并能识别不同语义的语境。

2、为实现所述专利技术目的,本专利技术一方面提供一种防御型aigc对抗智能体,其特征在于,包括强化学习模块、解耦学习模块、缓冲池和对抗学习模块,其中,

3、强化学习模块包括观测策略网络scm-,通过观测策略网络获取一条轨迹,其中,at为观测策略网络在时间t的正向辩论动作,st为观测策略网络在时间t的正向辩论状态,θ为观测策略网络的神经网络的参数,t=1,2,…,n;

4、逆强化学习模块包括反事实轨迹生成本文档来自技高网...

【技术保护点】

1.一种防御型AIGC对抗智能体,其特征在于,包括强化学习模块、解耦学习模块、缓冲池和对抗学习模块,其中,

2.根据权利要求1所述的防御型AIGC对抗智能体,其特征在于,

3.根据权利要求2所述的防御型AIGC对抗智能体,其特征在于,所述观测策略网络和反事实策略网络中的神经网络为下列神经网络的一种或几种:RNN神经网络、双向RNN神经网络、堆叠RNN神经网络、LSTM神经网络、注意力机制神经网络、自主意力机制神经网络和Transformer神经网络。

4.根据权利要求3所述的防御型AIGC对抗智能体,其特征在于,辩论状态包括输入到神经网络输入端的用于表...

【技术特征摘要】

1.一种防御型aigc对抗智能体,其特征在于,包括强化学习模块、解耦学习模块、缓冲池和对抗学习模块,其中,

2.根据权利要求1所述的防御型aigc对抗智能体,其特征在于,

3.根据权利要求2所述的防御型aigc对抗智能体,其特征在于,所述观测策略网络和反事实策略网络中的神经网络为下列神经网络的一种或几种:rnn神经网络、双向rnn神经网络、堆叠rnn神经网络、lstm神经网络、注意力机制神经网络、自主意力机制神经网络和transformer神经网络。

4.根据权利要求3所述的防御型aigc对抗智能体,其特征在于,辩论状态包括输入到神经网络输入端的用于表示辨论薄弱点的l个词向量x...

【专利技术属性】
技术研发人员:连芷萱王芳黄梅银陶来发黄启轩马鑫
申请(专利权)人:杭州市北京航空航天大学国际创新研究院北京航空航天大学国际创新学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1