一种基于极坐标表示的数字冰壶策略价值提取方法技术

技术编号:34033438 阅读:12 留言:0更新日期:2022-07-06 11:42
本发明专利技术公开了一种基于极坐标表示的数字冰壶策略价值提取方法,属于深度学习领域的人工智能和计算机视觉方向,建立了基于极坐标表示的冰壶位置特征提取模型,主要解决数字冰壶位置特征提取过程中造成的确定性离散化的问题,从而优化策略价值网络提取。算法主要包括三部分,数据处理部分、特征提取部分和策略价值头部分:数据处理部分将传统的数字冰壶数据集转化为极坐标表示的冰壶数据集,特征提取部分针对极坐标特点,设置新的网络结构充分提取冰壶位置信息,策略价值头部分用于提取当前位置下,选取某一动作的概率和可能得到的价值,以便后续正确进行数字冰壶比赛决策的强化学习。这种基于极坐标表示的数字冰壶策略价值提取方法,在数字冰壶比赛数据的监督特征提取时误差小,效率高,具有较强的可扩展性,能够有效地提高数字冰壶决策的速度和精度。地提高数字冰壶决策的速度和精度。

A value extraction method of digital curling strategy based on polar coordinate representation

【技术实现步骤摘要】
一种基于极坐标表示的数字冰壶策略价值提取方法


[0001]本专利技术属于深度学习领域,是图像处理领域中的一项重要应用,尤其是涉及一种基于极坐标表示的数字冰壶策略价值提取方法。
技术背景
[0002]随着冰雪运动的发展,冰壶运动越来越受到重视。作为一项技巧和谋略相结合的比赛项目,借助计算机的力量来规划冰壶比赛策略显得尤为重要。
[0003]目前主流的冰壶辅助决策方法在精度和速度方面已经有了不错的效果,由于冰壶的动作和状态空间是连续的,而深度神经网络对于大的、非凸的连续动作空间是不直接适用的。为了进行辅助决策通常需要把连续型的空间进行离散化后再提取相应特征,以降低决策树的宽度和深度,然而空间确定性离散化会对政策评价和改进产生较大的偏差,这与实际比赛智能化策略推荐的需求之间有巨大的矛盾。因此,亟需一种能够有效无误地进行冰壶位置表示和特征提取的方法,以优化数字冰壶策略价值提取。
[0004]数字冰壶策略价值提取的目的是,通过冰壶位置表示和特征提取,将数字冰壶数据进行有效分析,从而得到不同比赛状态下,选取某个动作的概率和价值,通常用于强化学习的监督学习部分,提高提取精度和效率。通过坐标映射将冰壶数据集进行修改,并根据特征提取的特点,有效地将其转化至可微连续的特征函数空间内,将其转化为适用于深度学习的形式,借助神经网络,求出基于当前数据集,动作策略建议的概率和价值。
[0005]我们提出的基于极坐标表示的数字冰壶策略价值提取方法在数字冰壶决策过程中,可以在更短的时间内训练完强化学习监督网络,有效地提高了数字冰壶强化学习算法的效率和精度。

技术实现思路

[0006]本专利技术提出一种基于极坐标表示的数字冰壶策略价值提取方法。该方法以极坐标下的数字冰壶数据分析为基础,借助深度卷积神经网络,较为准确的进行了数字冰壶冰壶的策略价值提取,该方法可以在不同的数字冰壶强化学习算法中有效的进行工作。
[0007]其技术解决方案是:
[0008]一种基于极坐标表示的数字冰壶策略价值提取方法,所述方法包括:
[0009]步骤1),将原始的数字冰壶比赛数据,进行坐标变换,变换到以冰壶大本营中心点为原点来进行表示;
[0010]步骤2),将变换到以冰壶大本营中心点为原点的直角坐标系表示的冰壶数据,转化为以冰壶大本营中心点为原点的极坐标系下进行表示;
[0011]步骤3),将极坐标下的数据进行极坐标空间变换,将其转化为适用于神经网络的结构;
[0012]步骤4),设计极坐标特征提取网络模型,分别设计特征提取部分和策略价值头部分的网络结构;
[0013]步骤5),在新的网络模型下,训练数字冰壶数据,得到在不同比赛状态下,采取某项动作的概率和选取当前动作所能得到的价值。
[0014]所述步骤1)中冰壶比赛数据集GAT2017是日本伊藤毅志研究室提供,是该团队自2017年以来,举办的数字冰壶AI竞赛大会中的比赛过程数据记录,是数字冰壶决策分析的最常用数据集。
[0015]所述步骤1)中进行直角坐标变换,目的是为了后续更方便地转化为极坐标表示。
[0016]所述步骤2)中以大本营中心点为坐标系原点进行极坐标转化,主要是由于,冰壶比赛中,壶距离中心点的距离越近分值越高这一特点,进行极坐标转化,融合了位置和分数表示,从而减少了一部分输入数据。
[0017]所述步骤3)中极坐标进行空间变换,将其转化为适用于深度学习的形式,从而将连续动作空间有效地表示在离散的图片环境下,将其转化至可微连续的特征函数空间内,便于后续用神经网络的方法提取相应的特征。
[0018]所述步骤4)中策略头通过输入当前比赛状态提取特征,输出下一部投壶位置的概率分布,估值头,输入当前比赛状态,提取特征,输出下在每一个位置可能得到的分数。
[0019]所述步骤4)中输入除了转化为空间极坐标表示后的位置及其顺序,还包括当前冰壶数量,在训练过程中通过9个连续的残差块提取特征,策略和价值头共享该网络部分提取的特征。
[0020]所述整个方法经过大规模的数据训练以后,经测试能够高效准确的给出冰壶比赛的位置特征。
[0021]本专利技术在利用强化学习进行数字冰壶比赛策略决策过程中,解决了数字冰壶的确定性离散化的问题,且成本低易移植,使用价值高,可扩展性强。
附图说明
[0022]附图1是直角坐标系转化示意图
[0023]附图2是极坐标转化示意图
[0024]附图3是空间极坐标转化示意图
[0025]附图4是网络结构图
具体实施方式
[0026]一种基于极坐标表示的数字冰壶策略价值提取方法,包括以下步骤:
[0027]1)将冰壶比赛数据集GAT 2017中的原始的数字冰壶比赛数据,进行直角坐标系变换,原始数据中,冰壶场地尺寸如下:
[0028]X_PLAYAREA_MIN=0,X_PLAYAREA_MAX=4.75;
[0029]Y_PLAYAREA_MIN=3.05,Y_PLAYAREA_MAX=3.05+8.2。
[0030]将其变换到以冰壶大本营中心点为原点来进行表示,批量修改y坐标的值,
[0031]Y_NEW=Y_OLD

(Y_PLAYAREA_MAX

Y_PLAYAREA_MIN)/2;
[0032]X_NEW=X_OLD
[0033]2)将变换到以冰壶大本营中心点为原点的直角坐标系表示的冰壶数据,转化为以冰壶大本营中心点为原点的极坐标系下进行表示,冰壶在图像的水平和垂直轴通常表示为
x轴和y轴的笛卡尔坐标,所以我们可以定义每个冰壶的位置在一个图像使用一对坐标(x,y)。笛卡尔坐标之间的转换公式(X_NEW,Y_NEW)和极坐标转化公式如下:
[0034]Y_NEW*Y_NEW+X_NEW*X_NEW=R*R
[0035]X_NEW=R*cos(θ),Y_NEW=R*sin(θ);
[0036]3)可学习的空间极坐标变换的目标是通过均匀采样进行空间变换,然后使将极坐标下的数据进行学习,我们使用神经网络来自动学习采样的角度,而不是固定其值。这样,我们将更多的注意力集中在判别曲线模式上:V=T(U;θ)。
[0037]4)在深度神经网络中,我们通过计算反向传播梯度来更新参数,我们的政策价值网络需要以下输入转化为空间极坐标表示后的位置及其顺序,还包括当前冰壶数量。在第一个卷积块之后,接下来是9个残差块
[0038]5)策略头pθ输出p,在有监督的训练中,学习数据集中的输出每个角度下不同距离的最佳射击动作的概率分布,策略头在使用ReLU激活的地方还有两个卷积层,在最后一层使用softmax激活函数训练和选择最佳策略。
[0039]6)数值头vθ输出v,由于两队依次掷8个石子。因此,+8和

8分别是最高和最低分数,因此价值头在一个卷积层之上有两个全连接层,最后一层输出一个向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于极坐标表示的数字冰壶策略价值提取方法,所述方法包括:步骤1),将原始的数字冰壶比赛数据,进行坐标变换,变换到以冰壶大本营中心点为原点来进行表示;步骤2),将变换到以冰壶大本营中心点为原点的直角坐标系表示的冰壶数据,转化为以冰壶大本营中心点为原点的极坐标系下进行表示;步骤3),将极坐标下的数据进行极坐标空间变换,将其转化为适用于神经网络的结构;步骤4),设计极坐标特征提取网络模型,分别设计特征提取部分和策略价值头部分的网络结构;步骤5),在新的网络模型...

【专利技术属性】
技术研发人员:李宗民肖倩孙浩淼孙文洁李亚传王向东
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1