一种业务执行方法、装置及其相关设备制造方法及图纸

技术编号：25638478 阅读：34 留言：0更新日期：2020-09-15 21:30

本申请公开了一种业务执行方法、装置、系统以及计算机可读存储介质，该业务执行方法利用现有的监督学习博弈模型进行自博弈，并在博弈过程中根据博弈结果修正博弈模型，根据修正后的博弈模型生成相应的博弈样本，用于后续监督学习博弈模型的继续训练，由此，通过优化博弈样本逐步提升监督学习博弈模型的博弈水平，保证了模型精度，进一步提升了博弈业务直接结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种业务执行方法、装置及其相关设备
本申请涉及人工智能
，特别涉及一种业务执行方法，还涉及一种业务执行装置、系统和计算机可读存储介质。
技术介绍
机器博弈被誉为人工智能的果蝇，一直处于人工智能研究的前沿，例如，扑克游戏是典型的非完全信息博弈，是人工智能研究中一个长期存在的挑战，通过使用监督学习复制人类玩家决策，许多游戏智能系统已达到高级玩家水平。然而，虽然基于人类博弈数据，利用神经网络进行监督学习，可以获得端到端博弈策略模型，但是，仅基于人类博弈数据训练而来的博弈策略模型，其性能水平受限于训练数据的质量，因为人类玩家样本包含策略失误数据，使得样本数据集的质量在一定程度上限制了所学习的网络模型性能的进一步提升，导致模型精度较低，从而降低了相应博弈业务执行结果的准确性。因此，如何有效提高博弈模型精度，进而提高博弈业务执行结果的准确性是本领域技术人员亟待解决的问题。
技术实现思路
本申请的目的是提供一种业务执行方法，该业务执行方法可以有效提高博弈模型精度，进一步提高了博弈业务执行结果的准确性；本申请的另一目的是提供一种业务执行装置、系统和计算机可读存储介质，也具有上述有益效果。为解决上述技术问题，第一方面，本申请提供了一种业务执行方法，包括：利用原始博弈模型进行自博弈，获得第一博弈结果；根据所述第一博弈结果进行回溯，获得与所述第一博弈结果相反的第二博弈结果，并获取所述第二博弈结果对应的博弈样本；利用所述博弈样本对所述原始博弈模型进行优化，获得优化博弈模型；<...

【技术保护点】
1.一种业务执行方法，其特征在于，包括：/n利用原始博弈模型进行自博弈，获得第一博弈结果；/n根据所述第一博弈结果进行回溯，获得与所述第一博弈结果相反的第二博弈结果，并获取所述第二博弈结果对应的博弈样本；/n利用所述博弈样本对所述原始博弈模型进行优化，获得优化博弈模型；/n将所述原始博弈模型与所述优化博弈模型进行模型对抗，保留对抗成功的博弈模型作为所述原始博弈模型；/n判断当前模型优化是否满足预设优化条件，若否，则返回所述利用原始博弈模型进行自博弈，获得第一博弈结果的步骤进行迭代优化，直至所述当前模型优化满足所述预设优化条件，获得最优博弈模型；/n利用所述最优博弈模型执行目标博弈业务。/n

【技术特征摘要】
1.一种业务执行方法，其特征在于，包括：
利用原始博弈模型进行自博弈，获得第一博弈结果；
根据所述第一博弈结果进行回溯，获得与所述第一博弈结果相反的第二博弈结果，并获取所述第二博弈结果对应的博弈样本；
利用所述博弈样本对所述原始博弈模型进行优化，获得优化博弈模型；
将所述原始博弈模型与所述优化博弈模型进行模型对抗，保留对抗成功的博弈模型作为所述原始博弈模型；
判断当前模型优化是否满足预设优化条件，若否，则返回所述利用原始博弈模型进行自博弈，获得第一博弈结果的步骤进行迭代优化，直至所述当前模型优化满足所述预设优化条件，获得最优博弈模型；
利用所述最优博弈模型执行目标博弈业务。

2.根据权利要求1所述的业务执行方法，其特征在于，所述利用原始博弈模型进行自博弈，获得第一博弈结果，包括：
获取当前博弈数据；
利用所述原始博弈模型对所述当前博弈数据进行处理，获得各合法博弈动作以及各所述合法博弈动作对应的概率值；
在所有所述概率值中确定最大概率值，并执行所述最大概率值对应的合法博弈动作，直至博弈结束，获得所述第一博弈结果。

3.根据权利要求1所述的业务执行方法，其特征在于，所述获取所述第二博弈结果对应的博弈样本之后，还包括：
判断所述博弈样本的数量是否达到预设数量；若否，则返回所述利用原始博弈模型进行自博弈，获得第一博弈结果的步骤，直至所述博弈样本的数量达到所述预设数量；
则所述利用所述博弈样本对所述原始博弈模型进行优化，获得优化博弈模型，包括：
利用所述预设数量个博弈样本对所述原始博弈模型进行优化，获得所述优化博弈模型。

4.根据权利要求1所述的业务执行方法，其特征在于，所述判断当前模型优化是否满足预设优化条件，包括：
统计当前模型优化次数；
判断所述当前模型优化次数是否达到预设次数。

5.一种业务执行装置，其特征在于，包括：
初始博弈模块，用于利用原始博弈模型进行自博弈，获得第一博弈结果；
回溯博弈模块，用于根据所述第一博弈结果进行回溯，获得与所述第一博弈结果相反的第二博弈结果，并获取所述第二博弈结果对应的博弈样本；
模型优化模块，用于利...

【专利技术属性】
技术研发人员：史新新，宛然，魏培培，易平，姜传民，曹佳，周游，刘培锴，
申请(专利权)人：杭州浮云网络科技有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人