数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：24482700 阅读：22 留言：0更新日期：2020-06-12 22:40

本公开提供了一种数据处理方法、装置、电子设备及存储介质，所述方法包括：获取当前对局中目标玩家的第一手牌数据；基于估牌先验信息与所述第一手牌数据，获取其他玩家的第二手牌数据；基于决策预测先验信息、所述第一手牌数据与所述第二手牌数据，获取所述目标玩家的各第一候选决策的可能对局结果，所述第一候选决策为所述目标玩家在当前对局状态下可执行的候选决策；基于所述可能对局结果，控制所述目标玩家在当前对局状态执行相应的第一候选决策。本公开实施例能够提升人工智能AI在非完美信息博弈对局中的表现。

Data processing method, device, electronic equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、电子设备及存储介质
本公开涉及人工智能领域，具体涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
随着互联网技术的高度发展，许多游戏玩家会在线上进行博弈对局，例如：下围棋、下象棋、打扑克、打麻将、打桥牌。根据博弈过程中对局信息的透明度，这些博弈对局可以被分为两大类：完美信息博弈对局、非完美信息博弈对局。其中，完美信息博弈对局是指所有对局信息完全公开透明的博弈对局，例如：下围棋、下象棋，自己有哪些棋子，每个棋子在哪个位置均完全公开透明；非完美信息博弈对局是指并非所有对局信息完全公开透明的博弈对局，例如：打麻将、打桥牌，自己有哪些牌是不对其他玩家公开的。由于非完美信息博弈对局的复杂性，现有技术中的人工智能AI在非完美信息博弈对局中的表现十分低下，只能做一些最简单的决策(例如：现有技术中麻将游戏的托管AI只会进行摸牌、打牌、胡牌)，无法满足玩家间的对战需求。
技术实现思路
本公开的一个目的在于提出一种数据处理方法、装置、电子设备及存储介质，能够提高人工智能AI在非完美信息博

【技术保护点】
1.一种数据处理方法，其特征在于，所述方法包括：/n获取当前对局中目标玩家的第一手牌数据；/n基于估牌先验信息与所述第一手牌数据，获取其他玩家的第二手牌数据；/n基于决策预测先验信息、所述第一手牌数据与所述第二手牌数据，获取所述目标玩家的各第一候选决策的可能对局结果，所述第一候选决策为所述目标玩家在当前对局状态下可执行的候选决策；/n基于所述可能对局结果，控制所述目标玩家在当前对局状态执行相应的第一候选决策。/n

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：
获取当前对局中目标玩家的第一手牌数据；
基于估牌先验信息与所述第一手牌数据，获取其他玩家的第二手牌数据；
基于决策预测先验信息、所述第一手牌数据与所述第二手牌数据，获取所述目标玩家的各第一候选决策的可能对局结果，所述第一候选决策为所述目标玩家在当前对局状态下可执行的候选决策；
基于所述可能对局结果，控制所述目标玩家在当前对局状态执行相应的第一候选决策。

2.根据权利要求1所述的方法，其特征在于，所述估牌先验信息包括在当前对局状态下的已公开手牌数据、预设的估牌策略，基于估牌先验信息与所述第一手牌数据，获取其他玩家的第二手牌数据，包括：
基于所述已公开手牌数据与所述第一手牌数据，确定在当前对局状态下的未公开手牌数据；
基于所述估牌策略、所述未公开手牌数据与所述第一手牌数据，获取其他玩家的第二手牌数据。

3.根据权利要求1所述的方法，其特征在于，基于决策预测先验信息、所述第一手牌数据与所述第二手牌数据，获取所述目标玩家的各第一候选决策的可能对局结果，包括：
基于所述第一手牌数据，从所述各第一候选决策中选中一所述第一候选决策，作为获取对应的可能对局结果的第一目标决策；
基于所述决策预测先验信息与所述第二手牌数据，预测其他玩家在当前对局状态执行的第二目标决策；
基于预设的对局规则，从所述第一目标决策与所述第二目标决策中确定出最高优先级的目标决策；
确定所述最高优先级的目标决策被实现后的更新对局状态，若所述更新对局状态满足预设的对局继续状态，则继续获取所述第一目标决策的可能对局结果。

4.根据权利要求3所述的方法，其特征在于，基于所述第一手牌数据，从所述各第一候选决策中选中一第一候选决策，作为获取对应的可能对局结果的第一目标决策，包括：
基于所述第一手牌数据，确定所述各第一候选决策；
从所述各第一候选决策中随机选中一所述第一候选决策，作为所述第一目标决策。

5.根据权利要求3所述的方法，其特征在于，所述决策预测先验信息包括预设的先验收益预测策略，基于所述第一手牌数据，从所述各第一候选决策中选中一第一候选决策，作为获取对应的可能对局结果的第一目标决策，包括：
基于所述第一手牌数据，确定所述各第一候选决策；
基于所述先验收益预测策略与所述第一手牌数据，分别预测所述各第一候选决策对应的先验收益值；
选中一所述先验收益值不低于预设收益值阈值的所述第一候选决策，作为所述第一目标决策。

6.根据权利要求3所述的方法，其特征在于，所述决策预测先验信息包括预设的先验收益预测策略，基于所述决策预测先验信息与所述第二手牌数据，预测其他玩家在当前对局状态执行的第二目标决策，包括：
基于所述第二手牌数据，确定其他玩家在当前对局状态可执行的各第二候选决策；
基于所述先验收益预测策略与所述第二手牌数据，分别预测所述各第二候选决策对应的先验收益值；
基于所述先验收益值，预测其他玩家在当前对局状态执行的第二目标决策。

7.根据权利要求6所述的方法，其特征在于，基于所述先验收益值，预测其他玩家在当前对局状态执行的第二目标决策，包括：将最大的所述先验收益值对应的第二候选决策，确定为其他玩家在当前对局状态执行的第二目标决策。

8.根据权利要求6所述的方法，其特征在于，所述决策预测先验信...

【专利技术属性】
技术研发人员：吕有为，钟涛，毛建博，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人