连续动作空间上的纳什均衡策略及社交网络舆论演变模型制造技术

技术编号：20628699 阅读：47 留言：0更新日期：2019-03-20 18:15

本发明专利技术提供一种连续动作空间上的纳什均衡策略及社交网络舆论演变模型，属于强化学习方法领域。本发明专利技术策略包括以下步骤：初始化参数；按一定探索率依正态分布

Nash Equilibrium Strategy in Continuous Action Space and Evolution Model of Social Network Public Opinion

The invention provides a Nash equilibrium strategy on continuous action space and a public opinion evolution model of social network, belonging to the field of reinforcement learning method. The strategy of the invention includes the following steps: initializing parameters; normal distribution according to a certain exploration rate

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】连续动作空间上的纳什均衡策略及社交网络舆论演变模型
本专利技术涉及一种纳什均衡策略，尤其涉及一种连续动作空间上的纳什均衡策略，还涉及一种基于所述连续动作空间上的纳什均衡策略的社交网络舆论演变模型。
技术介绍
在连续动作空间的环境中，一方面，智能体对动作的选择是无限的，传统的基于Q的表格类算法也无法存储无限多的回报的估计；另一方面，多智能体环境中，连续的动作空间也会增加问题的难度。在多智能体强化学习算法领域，智能体的动作空间可以是离散的有限集，也可以是连续的集合。因为强化学习的本质是通过不断的试错来寻找最优，而连续的动作空间具有无穷多的动作选择，而多智能体环境又增加了动作空间的维度，这使得一般的强化学习算法很难学习到全局最优(或均衡)。目前大部分算法都是基于函数逼近技术解决连续问题，这类算法可分为两类：值近似算法[1-5]和策略近似算法[6-9]。值近似算法探索动作空间并根据回报估计对应的值函数，而策略近似算法将策略定义为连续动作空间上的概率分布函数并直接学习策略。这类算法的性能取决于对值函数或者策略的估计的准确性，在处理复杂问题如非线性控制问题时往往力不从心。此外，还有一种基于采样的算法[10、11]，这类算法维持一个离散的动作集，然后使用传统离散类算法选择动作集中的最优动作，最后根据一种重采样机制更新动作集从而逐渐学习到最优。这类算法可以很方便的与传统离散类算法结合，缺点是算法需要较长的收敛时间。上述所有算法都是以计算单智能体环境中的最优策略为目标设计的，并不能直接应用在多智能体环境的学习中。近年来很多工作使用智能体仿真技术研究社交网络中的舆论演变[12...

【技术保护点】
1.连续动作空间上的纳什均衡策略，其特征在于包括如下步骤：(1)设置常数αub和αus，其中，αub＞αus,αQ,ασ∈(0,1)为学习率；(2)初始化参数，其中，所述参数包括智能体i期望动作u的均值ui、累计平均策略

【技术特征摘要】
【国外来华专利技术】1.连续动作空间上的纳什均衡策略，其特征在于包括如下步骤：(1)设置常数αub和αus，其中，αub＞αus,αQ,ασ∈(0,1)为学习率；(2)初始化参数，其中，所述参数包括智能体i期望动作u的均值ui、累计平均策略常数C、方差σi和累计平均回报Qi；(3)重复以下步骤直至智能体i的采样动作的累计平均策略收敛，(3.1)按一定探索率依正态分布N(ui,σj)随机选择一个动作xi；(3.2)执行动作xi，然后从环境中获取回报ri；(3.3)如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报Qi，那么ui的学习率为αub，反之学习率为αus，根据选定的学习率更新ui；(3.4)根据学习到ui的更新方差σi；(3.5)如果智能体i执行动作xi后收到的回报ri大于当前的累计平均回报Qi，那么ui的学习率为αub，反之学习率为αus，根据选定的学习率更新Qi；(3.6)根据常数C和动作xi更新(4)输出累计平均策略作为智能体i的最终动作。2.根据权利要求1所述的连续动作空间上的纳什均衡策略，其特征在于：在步骤(3.3)和步骤(3.5)中，Q的更新步长和u的更新步长同步，在ui的邻域内，Qi关于ui的映射能够线性化为Qi＝Kui+C，其中斜率3.根据权利要求2所述的连续动作空间上的纳什均衡策略，其特征在于：给定正数σL和一个正数K，两个智能体的连续动作空间上的纳什均衡策略最终可以收敛到纳什均衡，其中，σL是方差σ的下界。4.基于权利要求1-3任一项所述的连续动作空间上的纳什均衡策略的社交网络舆论演变模型，其特征在于：所述社交网络舆论演变模型包括两类智能体，分别为模拟社交网络中普通大众的Gossiper类智能体和模拟社交网络中以吸引普通大众为目的的媒体或公众人物的Media类智能体，其中，所述Media类智能体采用所述连续动作空间上的纳什均衡策略计算对其回报最优的观念，更新其观念并在社交网络中广播。5.根据权利要求4所述的社交网络舆论演变模型，其特征在于包括如下步骤：S1：每个Gossiper和...

【专利技术属性】
技术研发人员：侯韩旭，郝建业，张程伟，
申请(专利权)人：东莞理工学院，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人