连续动作空间上的纳什均衡策略及社交网络舆论演变模型制造技术

技术编号:20628699 阅读:47 留言:0更新日期:2019-03-20 18:15
本发明专利技术提供一种连续动作空间上的纳什均衡策略及社交网络舆论演变模型,属于强化学习方法领域。本发明专利技术策略包括以下步骤:初始化参数;按一定探索率依正态分布

Nash Equilibrium Strategy in Continuous Action Space and Evolution Model of Social Network Public Opinion

The invention provides a Nash equilibrium strategy on continuous action space and a public opinion evolution model of social network, belonging to the field of reinforcement learning method. The strategy of the invention includes the following steps: initializing parameters; normal distribution according to a certain exploration rate

【技术实现步骤摘要】
【国外来华专利技术】连续动作空间上的纳什均衡策略及社交网络舆论演变模型
本专利技术涉及一种纳什均衡策略,尤其涉及一种连续动作空间上的纳什均衡策略,还涉及一种基于所述连续动作空间上的纳什均衡策略的社交网络舆论演变模型。
技术介绍
在连续动作空间的环境中,一方面,智能体对动作的选择是无限的,传统的基于Q的表格类算法也无法存储无限多的回报的估计;另一方面,多智能体环境中,连续的动作空间也会增加问题的难度。在多智能体强化学习算法领域,智能体的动作空间可以是离散的有限集,也可以是连续的集合。因为强化学习的本质是通过不断的试错来寻找最优,而连续的动作空间具有无穷多的动作选择,而多智能体环境又增加了动作空间的维度,这使得一般的强化学习算法很难学习到全局最优(或均衡)。目前大部分算法都是基于函数逼近技术解决连续问题,这类算法可分为两类:值近似算法[1-5]和策略近似算法[6-9]。值近似算法探索动作空间并根据回报估计对应的值函数,而策略近似算法将策略定义为连续动作空间上的概率分布函数并直接学习策略。这类算法的性能取决于对值函数或者策略的估计的准确性,在处理复杂问题如非线性控制问题时往往力不从心。此外,还有一种基于采样的算法[10、11],这类算法维持一个离散的动作集,然后使用传统离散类算法选择动作集中的最优动作,最后根据一种重采样机制更新动作集从而逐渐学习到最优。这类算法可以很方便的与传统离散类算法结合,缺点是算法需要较长的收敛时间。上述所有算法都是以计算单智能体环境中的最优策略为目标设计的,并不能直接应用在多智能体环境的学习中。近年来很多工作使用智能体仿真技术研究社交网络中的舆论演变[12-14]。给定的不同组具有不同观念分布的群体,研究群体在相互交往过程中其观念最终是会达成共识,或者两级分化还是始终处于混乱状态[15]。解决这一问题的关键是如何了解舆论演变的动态,从而得到引发舆论走向一致的内在原因[15]。针对社交网络中的舆论演变问题,研究者提出了多种多智能体学习模型[16-20]研究了不同信息共享或交换程度等因素对舆论演变的影响。其中[21–23]研究了不同信息共享或交换程度等因素对舆论演变的影响。[1424-28]等工作采用演化博弈论模型来研究智能体的行为(例如背叛和合作)如何从同伴互动中演变而来。这些工作对智能体的行为建模,并假设所有智能体都是相同的。然而,在实际情况中,个体在社会中会扮演不同的角色(例如,领导者或追随者),而这根据上述方法是不能准确建模的。为此,Quattrociochi等人[12]将社交群体分为媒体和大众两部分并分别建模,其中大众的观念受其追随的媒体以及其它大众影响,而媒体的观念受媒体中的佼佼者影响。随后,Zhao等人[29]提出了一个基于领导追随者(leader-follower)类型的舆论模型来探索舆论的形成。在这两个工作中,智能体观念的调整策略都是模仿领导者或者成功的同行。基于模仿的相关工作还有LocalMajority[30]、Conformity[31]和ImitatingNeighbor[32]。然而,现实环境中,人们在做决策中采取的策略要比简单的模仿复杂的多。人们往往是通过不断的与未知环境交互,并结合自己以掌握的知识,来决策自己的行为。此外,基于模仿的策略也不能保证算法能够学习到的是全局最优,因为其智能体策略的好坏要取决于领导者或者被模仿者的策略,而领导者的策略也并不都是最好的。
技术实现思路
为解决现有技术中的问题,本专利技术提供一种连续动作空间上的纳什均衡策略,本专利技术还提供了一种基于所述连续动作空间上的纳什均衡策略的社交网络舆论演变模型。本专利技术包括如下步骤:(1)设置常数αub和αus,其中,αub>αus,αQ,ασ∈(0,1)为学习率;(2)初始化参数,其中,所述参数包括智能体i期望动作u的均值ui、累计平均策略常数C、方差σi和累计平均回报Qi;(3)重复以下步骤直至智能体i的采样动作的累计平均策略收敛,(3.1)按一定探索率依正态分布N(ui,σj)随机选择一个动作xi;(3.2)执行动作xi,然后从环境中获取回报ri;(3.3)如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报Qi,那么ui的学习率为αub,反之学习率为αus,根据选定的学习率更新ui;(3.4)根据学习到ui的更新方差σi;(3.5)如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报Qi,那么ui的学习率为αub,反之学习率为αus,根据选定的学习率更新Qi;(3.6)根据常数C和动作xi更新(4)输出累计平均策略作为智能体i的最终动作。。本专利技术作进一步改进,在步骤(3.3)和步骤(3.5)中,Q的更新步长和u的更新步长同步,在ui的邻域内,Qi关于ui的映射能够线性化为Qi=Kui+C,其中斜率本专利技术作进一步改进,给定正数σL和正数K,两个智能体的连续动作空间上的纳什均衡策略最终可以收敛到纳什均衡,其中,σL是方差σ的下界。本专利技术还提供了一种基于所述连续动作空间上的纳什均衡策略的社交网络舆论演变模型,所述社交网络舆论演变模型包括两类智能体,分别为模拟社交网络中普通大众的Gossiper类智能体和模拟社交网络中以吸引普通大众为目的的媒体或公众人物的Media类智能体,其中,所述Media类智能体采用所述连续动作空间上的纳什均衡策略计算对其回报最优的观念,更新其观念并在社交网络中广播。本专利技术作进一步改进,包括如下步骤:S1:每个Gossiper和Media的观念被随机的初始化为动作空间[0,1]上的一个值;S2:在每一次交互中,各智能体按照以下策略调整自己的观念,直至各智能体都不再改变观念;S21:对任意一个Gossiper类智能体,按照设定概率在Gossiper网络中随机选择一个邻居,根据BCM(theboundedconfidencemodel,有界置信模型)策略更新其观念及追随的Media;S22:随机采样Gossiper网络G的一个子集将子集G′中的Gossiper观念广播给所有Media;S23:对任意一个Media,使用连续动作空间上的纳什均衡策略计算其回报最优的观念,并将更新后的观念广播到整个社交网络中。本专利技术作进一步改进,在步骤S21中,所述Gossiper类智能体的操作方法为:A1:观念初始化:xiτ=xiτ-1;A2:观念更新:当该智能体与选择的智能体的观念相差小于设定阈值,更新该智能体的观念;A3:该智能体对比自己与其它Media观念的差别,依概率选择一个Media追随。本专利技术作进一步改进,在步骤A2中,如果当前选择的邻居是Gossiperj,并且|xjτ-xiτ|<dg,则xiτ←xiτ+αg(xjτ-xiτ);如果当前选择的邻居是Mediak,并且|ykτ-xiτ|<dm,则xiτ←xiτ+αm(ykτ-xiτ),其中,dg和dm分别为针对不同类型的邻居的观念设定的阈值,ɑg和ɑm分别为针对不同类型的邻居的学习率。本专利技术作进一步改进,在步骤A3中,依概率追随Mediak,其中,本专利技术作进一步改进,在步骤S23中,Mediaj当前的回报rj被定义为G′中选择追随j的Gossiper的人数所占G′中总人数的比例,Pij表示Gossiperi追随Mediaj的概率。本本文档来自技高网
...

【技术保护点】
1.连续动作空间上的纳什均衡策略,其特征在于包括如下步骤:(1)设置常数αub和αus,其中,αub>αus,αQ,ασ∈(0,1)为学习率;(2)初始化参数,其中,所述参数包括智能体i期望动作u的均值ui、累计平均策略

【技术特征摘要】
【国外来华专利技术】1.连续动作空间上的纳什均衡策略,其特征在于包括如下步骤:(1)设置常数αub和αus,其中,αub>αus,αQ,ασ∈(0,1)为学习率;(2)初始化参数,其中,所述参数包括智能体i期望动作u的均值ui、累计平均策略常数C、方差σi和累计平均回报Qi;(3)重复以下步骤直至智能体i的采样动作的累计平均策略收敛,(3.1)按一定探索率依正态分布N(ui,σj)随机选择一个动作xi;(3.2)执行动作xi,然后从环境中获取回报ri;(3.3)如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报Qi,那么ui的学习率为αub,反之学习率为αus,根据选定的学习率更新ui;(3.4)根据学习到ui的更新方差σi;(3.5)如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报Qi,那么ui的学习率为αub,反之学习率为αus,根据选定的学习率更新Qi;(3.6)根据常数C和动作xi更新(4)输出累计平均策略作为智能体i的最终动作。2.根据权利要求1所述的连续动作空间上的纳什均衡策略,其特征在于:在步骤(3.3)和步骤(3.5)中,Q的更新步长和u的更新步长同步,在ui的邻域内,Qi关于ui的映射能够线性化为Qi=Kui+C,其中斜率3.根据权利要求2所述的连续动作空间上的纳什均衡策略,其特征在于:给定正数σL和一个正数K,两个智能体的连续动作空间上的纳什均衡策略最终可以收敛到纳什均衡,其中,σL是方差σ的下界。4.基于权利要求1-3任一项所述的连续动作空间上的纳什均衡策略的社交网络舆论演变模型,其特征在于:所述社交网络舆论演变模型包括两类智能体,分别为模拟社交网络中普通大众的Gossiper类智能体和模拟社交网络中以吸引普通大众为目的的媒体或公众人物的Media类智能体,其中,所述Media类智能体采用所述连续动作空间上的纳什均衡策略计算对其回报最优的观念,更新其观念并在社交网络中广播。5.根据权利要求4所述的社交网络舆论演变模型,其特征在于包括如下步骤:S1:每个Gossiper和...

【专利技术属性】
技术研发人员:侯韩旭郝建业张程伟
申请(专利权)人:东莞理工学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1