一种基于深度学习的五子棋对弈方法及对弈机器人技术

技术编号:37253636 阅读:13 留言:0更新日期:2023-04-20 23:30
本申请涉及机器人技术领域,尤其涉及一种基于深度学习的五子棋对弈方法及对弈机器人。方法包括:获取数据集,以及对数据集进行预处理及标注处理,得到标注数据集;训练卷积神经网络,得到目标检测模型;获取实时图片,以及对实时图片进行预处理,得到处理图片,基于目标检测模型得到处理图片中的棋子信息;对弈机器人根据棋子信息确定下一步落棋信息,以及基于落子模型,对弈机器人进行落棋操作。本申请通过训练卷积神经网络可得到目标检测模型,所以对弈机器人据此具有操作敏捷和操作精准的特点,因此不需要通过特别精致的执行结构来保证执行的精确度,也不需要高价原料,因此本申请能够解决市面流通的相关产品具有的成本普遍较高的问题。较高的问题。较高的问题。

【技术实现步骤摘要】
一种基于深度学习的五子棋对弈方法及对弈机器人


[0001]本申请涉及机器人
,尤其涉及一种基于深度学习的五子棋对弈方法及对弈机器人。

技术介绍

[0002]五子棋对弈机器人是一种具有益智性的大众娱乐产品。
[0003]目前大多数的类似产品为五子棋下棋软件,即借助人工智能方法实现与人对弈的功能;较少数的类似产品可以以机械臂、电脑为上位机模拟与人对弈的真实下棋场景,即电脑中五子棋下棋软件对棋局进行评估处理最终由机械臂执行落子的操作。
[0004]但是,目前市面上存在的较少数可还原真实下棋场景的产品具有执行程序复杂以及机械结构繁杂的特点,导致这些产品的成本普遍较高。

技术实现思路

[0005]本申请提供了一种基于深度学习的五子棋对弈方法及对弈机器人,能够解决市面流通的可还原真实下棋场景的产品具有的成本普遍较高的问题。
[0006]本申请的第一个技术方案是一种基于深度学习的五子棋对弈方法,基于棋盘和对弈机器人实施,所述方法包括:
[0007]S1:获取关于棋盘以及棋盘上棋子的数据集,以及对所述数据集进行预处理及标注处理,得到标注数据集;
[0008]S2:通过使用标注数据集训练卷积神经网络,得到用于检测棋盘以及棋盘上棋子的目标检测模型;
[0009]S3:获取关于棋盘以及棋盘上棋子的实时图片,以及对所述实时图片进行预处理,得到处理图片,以及将处理图片传送至对弈机器人,基于目标检测模型得到处理图片中的棋子信息,以矩阵形式表示;
[0010]S4:基于alpha Zero强化学习模型,对弈机器人根据所述矩阵形式表示的棋子信息确定下一步落棋信息,以及基于通过穷举形式确定的落子模型,对弈机器人根据落棋信息在所述棋盘上进行落棋操作。
[0011]可选地,所述步骤S1包括:
[0012]S11:获取包括关于棋盘和棋盘上棋子的若干张原始图片的测试数据集;
[0013]S12:分别对测试数据集中若干张原始图片进行包括滤波处理、二值化处理、多边形拟合处理、凸包寻找处理和透视变换处理的预处理,得到包括若干张预处理图片的数据集;
[0014]S13:基于棋盘上棋子的棋子位置和棋子颜色,分别对所述数据集中若干张预处理图片进行标注处理,得到带有若干张对应标注信息的图片的标注数据集。
[0015]可选地,所述步骤S3包括:
[0016]S31:获取摄像头实时传送的棋盘和棋盘上棋子的实时图片;
[0017]S32:对实时图片进行包括滤波处理、二值化处理、多边形拟合处理、凸包寻找处理和透视变换处理的预处理,得到可展示棋子位置和棋子颜色的处理图片;
[0018]S33:传送所述处理图片至对弈机器人。
[0019]S34:对弈机器人使用目标检测模型对所述处理后图片进行棋子颜色和棋子位置的检测,得到用矩阵形式表示的棋子信息。
[0020]可选地,所述落棋信息为可展示棋子位置和棋子颜色的实时矩阵;
[0021]所述棋子位置由行数x和列数y定义,x和y的取值范围为[0,棋盘的行列数];
[0022]以及,所述步骤S4包括:
[0023]S41:通过alpha Zero强化学习模型,对弈机器人根据所述矩阵形式表示的棋子信息确定下一步落棋信息,并进行编码处理;
[0024]S42:通过穷举形式确定的落子模型,对弈机器人根据所述编码后的落棋信息在所述棋盘上进行落棋操作。
[0025]本申请的第二个技术方案为对弈机器人,包括:下棋组件、动力组件和控制板;
[0026]所述下棋组件包括:基于对棋子的吸引力进行吸棋操作和落棋操作的吸盘,以及支撑所述吸盘进行升降和转动的机械臂;
[0027]所述动力组件包括:用于调节吸盘对棋子的吸引力的电磁阀,以及用于为所述机械臂提供动力的电机组;
[0028]所述控制板,存储有目标检测模型,用于接收落棋信息并且根据落棋信息确定棋子位置,以及还用于根据棋子位置作用于所述电磁阀和电机组,间接控制所述吸盘和机械臂协同完成吸棋操作或者落棋操作。
[0029]可选地,所述机械臂包括:
[0030]端头处与所述吸盘呈固定连接的连接杆,以及设置在所述连接杆的底侧并且与所述连接杆的杆身呈转动连接的转动杆,以及也设置在所述连接杆的底侧并且与所述连接杆的另一个端头处呈转动连接的提拉杆,以及向上延伸的侧壁与所述转动杆和提拉杆的底侧均呈转动连接的基座,以及与所述基座的下端面在水平面内呈转动连接的底座;
[0031]以及,所述电机组包括:可驱动所述转动杆的底侧在竖直面内进行转动的第一电机,以及可驱动所述提拉杆的底侧竖直面内进行转动的第二电机,以及可驱动所述基座在水平面内进行转动的第三电机。
[0032]可选地,所述连接杆和转动杆的设置数量均为两个;
[0033]以及,所述机械臂还包括:设置在所述提拉杆与第二电机之间、与提拉杆呈转动连接并且与所述第二电机呈固定连接的传动杆。
[0034]可选地,所述机械臂还包括:
[0035]设置在所述基座中远离所述传动杆的一侧并且呈依次连接的第一定位杆、三角固定板和第二定位杆;
[0036]所述第一定位杆设置在靠近所述提拉杆中远离所述吸盘的一侧;
[0037]所述第一定位杆的底侧与所述基座的内侧壁呈固定连接;
[0038]所述三角固定板为通过三根条杆首尾连接形成的直角三角形板或者钝角三角形板;
[0039]所述三角固定板中一个锐角端与所述第一定位杆的顶侧呈固定连接,以及所述三
角固定板中另一个锐角端与所述吸盘呈活动连接,以及所述三角固定板中直角端或者钝角端与一个所述转动杆呈转动连接。
[0040]可选地,所述基座的下端面内水平设置有板状的上转板,以及所述底座的上端面内水平设置有板状的下转板;
[0041]所述第三电机与所述上转板的顶侧呈固定连接;
[0042]所述上转板与所述下转板的设置形状均为圆形并且在圆心处呈转动连接。
[0043]有益效果:
[0044](一)棋子识别算法的改进:采用基于速度快、运算量小、易于部署且效果较好的“YOLO

v2”预训练模型并部署到下游任务,训练中所采用的数据集均为实际场景采集并自行标注的,所以拟合性好,识别准确度高。
[0045](二)对弈算法的改进:采用基于alpha Zero的强化学习思想,使用蒙特卡洛树算法对强化学习的模型成果进行检验并不断改进,增强了五子棋下棋机器人的棋力。
[0046](三)机械臂操作算法的改进:根据棋子位置判断电机旋转角度的解决方案,相较于传统的运动学逆解,即根据旋转矩阵方法或者几何方法的方案,采用穷举的方案具有过程简便和误差小的优点。
[0047]综上所述,本申请在技术实现上进行了改进,因此降低了对操作结构的精度的要求,即使是价格较低的常用材料也可完成对弈任务,因此能够解决市面流通的可还原真实下棋场景的产品具本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的五子棋对弈方法,基于棋盘和对弈机器人实施,其特征在于,所述方法包括:S1:获取关于棋盘以及棋盘上棋子的数据集,以及对所述数据集进行预处理及标注处理,得到标注数据集;S2:通过使用标注数据集训练卷积神经网络,得到用于检测棋盘以及棋盘上棋子的目标检测模型;S3:获取关于棋盘以及棋盘上棋子的实时图片,以及对所述实时图片进行预处理,得到处理图片,以及将处理图片传送至对弈机器人,基于目标检测模型得到处理图片中的棋子信息,以矩阵形式表示;S4:基于alpha Zero强化学习模型,对弈机器人根据所述矩阵形式表示的棋子信息确定下一步落棋信息,以及基于通过穷举形式确定的落子模型,对弈机器人根据落棋信息在所述棋盘上进行落棋操作。2.根据权利要求1所述的一种基于深度学习的五子棋对弈方法,其特征在于,所述步骤S1包括:S11:获取包括关于棋盘和棋盘上棋子的若干张原始图片的测试数据集;S12:分别对测试数据集中若干张原始图片进行包括滤波处理、二值化处理、多边形拟合处理、凸包寻找处理和透视变换处理的预处理,得到包括若干张预处理图片的数据集;S13:基于棋盘上棋子的棋子位置和棋子颜色,分别对所述数据集中若干张预处理图片进行标注处理,得到带有若干张对应标注信息的图片的标注数据集。3.根据权利要求1所述的一种基于深度学习的五子棋对弈方法,其特征在于,所述步骤S3包括:S31:获取摄像头实时传送的棋盘和棋盘上棋子的实时图片;S32:对实时图片进行包括滤波处理、二值化处理、多边形拟合处理、凸包寻找处理和透视变换处理的预处理,得到可展示棋子位置和棋子颜色的处理图片;S33:传送所述处理图片至对弈机器人。S34:对弈机器人使用目标检测模型对所述处理后图片进行棋子颜色和棋子位置的检测,得到用矩阵形式表示的棋子信息。4.根据权利要求1所述的一种基于深度学习的五子棋对弈方法,其特征在于,所述落棋信息为可展示棋子位置和棋子颜色的实时矩阵;所述棋子位置由行数x和列数y定义,x和y的取值范围为[0,棋盘的行列数];以及,所述步骤S4包括:S41:通过alpha Zero强化学习模型,对弈机器人根据所述矩阵形式表示的棋子信息确定下一步落棋信息,并进行编码处理;S42:通过穷举形式确定的落子模型,对弈机器人根据所述编码后的落棋信息在所述棋盘上进行落棋操作。5.根据权...

【专利技术属性】
技术研发人员:杨杰王瑞华陈相宇
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1