一种业务执行方法、装置及其相关设备制造方法及图纸

技术编号:25638478 阅读:34 留言:0更新日期:2020-09-15 21:30
本申请公开了一种业务执行方法、装置、系统以及计算机可读存储介质,该业务执行方法利用现有的监督学习博弈模型进行自博弈,并在博弈过程中根据博弈结果修正博弈模型,根据修正后的博弈模型生成相应的博弈样本,用于后续监督学习博弈模型的继续训练,由此,通过优化博弈样本逐步提升监督学习博弈模型的博弈水平,保证了模型精度,进一步提升了博弈业务直接结果的准确性。

【技术实现步骤摘要】
一种业务执行方法、装置及其相关设备
本申请涉及人工智能
,特别涉及一种业务执行方法,还涉及一种业务执行装置、系统和计算机可读存储介质。
技术介绍
机器博弈被誉为人工智能的果蝇,一直处于人工智能研究的前沿,例如,扑克游戏是典型的非完全信息博弈,是人工智能研究中一个长期存在的挑战,通过使用监督学习复制人类玩家决策,许多游戏智能系统已达到高级玩家水平。然而,虽然基于人类博弈数据,利用神经网络进行监督学习,可以获得端到端博弈策略模型,但是,仅基于人类博弈数据训练而来的博弈策略模型,其性能水平受限于训练数据的质量,因为人类玩家样本包含策略失误数据,使得样本数据集的质量在一定程度上限制了所学习的网络模型性能的进一步提升,导致模型精度较低,从而降低了相应博弈业务执行结果的准确性。因此,如何有效提高博弈模型精度,进而提高博弈业务执行结果的准确性是本领域技术人员亟待解决的问题。
技术实现思路
本申请的目的是提供一种业务执行方法,该业务执行方法可以有效提高博弈模型精度,进一步提高了博弈业务执行结果的准确性;本申请的另一目的是提供一种业务执行装置、系统和计算机可读存储介质,也具有上述有益效果。为解决上述技术问题,第一方面,本申请提供了一种业务执行方法,包括:利用原始博弈模型进行自博弈,获得第一博弈结果;根据所述第一博弈结果进行回溯,获得与所述第一博弈结果相反的第二博弈结果,并获取所述第二博弈结果对应的博弈样本;利用所述博弈样本对所述原始博弈模型进行优化,获得优化博弈模型;<br>将所述原始博弈模型与所述优化博弈模型进行模型对抗,保留对抗成功的博弈模型作为所述原始博弈模型;判断当前模型优化是否满足预设优化条件,若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤进行迭代优化,直至所述当前模型优化满足所述预设优化条件,获得最优博弈模型;利用所述最优博弈模型执行目标博弈业务。优选的,所述利用原始博弈模型进行自博弈,获得第一博弈结果,包括:获取当前博弈数据;利用所述原始博弈模型对所述当前博弈数据进行处理,获得各合法博弈动作以及各所述合法博弈动作对应的概率值;在所有所述概率值中确定最大概率值,并执行所述最大概率值对应的合法博弈动作,直至博弈结束,获得所述第一博弈结果。优选的,所述获取所述第二博弈结果对应的博弈样本之后,还包括:判断所述博弈样本的数量是否达到预设数量;若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤,直至所述博弈样本的数量达到所述预设数量;则所述利用所述博弈样本对所述原始博弈模型进行优化,获得优化博弈模型,包括:利用所述预设数量个博弈样本对所述原始博弈模型进行优化,获得所述优化博弈模型。优选的,所述判断当前模型优化是否满足预设优化条件,包括:统计当前模型优化次数;判断所述当前模型优化次数是否达到预设次数。第二方面,本申请还提供了一种业务执行装置,包括:初始博弈模块,用于利用原始博弈模型进行自博弈,获得第一博弈结果;回溯博弈模块,用于根据所述第一博弈结果进行回溯,获得与所述第一博弈结果相反的第二博弈结果,并获取所述第二博弈结果对应的博弈样本;模型优化模块,用于利用所述博弈样本对所述原始博弈模型进行优化,获得优化博弈模型;模型对抗模块,用于将所述原始博弈模型与所述优化博弈模型进行模型对抗,保留对抗成功的博弈模型作为所述原始博弈模型;迭代优化模块,用于判断当前模型优化是否满足预设优化条件,若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤进行迭代优化,直至所述当前模型优化满足所述预设优化条件,获得最优博弈模型;业务执行模块,用于利用所述最优博弈模型执行目标博弈业务。优选的,所述初始博弈模块包括:数据获取单元,用于获取当前博弈数据;数据处理单元,用于利用所述原始博弈模型对所述当前博弈数据进行处理,获得各合法博弈动作以及各所述合法博弈动作对应的概率值;动作执行单元,用于在所有所述概率值中确定最大概率值,并执行所述最大概率值对应的合法博弈动作,直至博弈结束,获得所述第一博弈结果。优选的,所述业务执行方法还包括:样本统计模块,用于在所述获取所述第二博弈结果对应的博弈样本之后,判断所述博弈样本的数量是否达到预设数量;若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤,直至所述博弈样本的数量达到所述预设数量;则所述模型优化模块具体用于利用所述预设数量个博弈样本对所述原始博弈模型进行优化,获得所述优化博弈模型。优选的,所述迭代优化模块具体用于统计当前模型优化次数;判断所述当前模型优化次数是否达到预设次数;若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤进行迭代优化,直至所述当前模型优化满足所述预设优化条件,获得最优博弈模型。第三方面,本申请还公开了一种业务执行系统,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如上所述的任一种业务执行方法的步骤。第四方面,本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上所述的任一种业务执行方法的步骤。本申请所提供的一种业务执行方法,包括利用原始博弈模型进行自博弈,获得第一博弈结果;根据所述第一博弈结果进行回溯,获得与所述第一博弈结果相反的第二博弈结果,并获取所述第二博弈结果对应的博弈样本;利用所述博弈样本对所述原始博弈模型进行优化,获得优化博弈模型;将所述原始博弈模型与所述优化博弈模型进行模型对抗,保留对抗成功的博弈模型作为所述原始博弈模型;判断当前模型优化是否满足预设优化条件,若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤进行迭代优化,直至所述当前模型优化满足所述预设优化条件,获得最优博弈模型;利用所述最优博弈模型执行目标博弈业务。可见,本申请所提供的业务执行方法,利用现有的监督学习博弈模型进行自博弈,并在博弈过程中根据博弈结果修正博弈模型,根据修正后的博弈模型生成相应的博弈样本,用于后续监督学习博弈模型的继续训练,由此,通过优化博弈样本逐步提升监督学习博弈模型的博弈水平,保证了模型精度,进一步提升了博弈业务直接结果的准确性。本申请所提供的一种业务执行装置、系统和计算机可读存储介质,均具有上述有益效果,在此不再赘述。附图说明为了更清楚地说明现有技术和本申请实施例中的技术方案,下面将对现有技术和本申请实施例描述中需要使用的附图作简要的介绍。当然,下面有关本申请实施例的附图描述的仅仅是本申请中的一部分实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图,所获得的其他附图也属于本申请的保护范围。图1为本申请所提供的一种业务执行方法的流程示意图;<本文档来自技高网...

【技术保护点】
1.一种业务执行方法,其特征在于,包括:/n利用原始博弈模型进行自博弈,获得第一博弈结果;/n根据所述第一博弈结果进行回溯,获得与所述第一博弈结果相反的第二博弈结果,并获取所述第二博弈结果对应的博弈样本;/n利用所述博弈样本对所述原始博弈模型进行优化,获得优化博弈模型;/n将所述原始博弈模型与所述优化博弈模型进行模型对抗,保留对抗成功的博弈模型作为所述原始博弈模型;/n判断当前模型优化是否满足预设优化条件,若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤进行迭代优化,直至所述当前模型优化满足所述预设优化条件,获得最优博弈模型;/n利用所述最优博弈模型执行目标博弈业务。/n

【技术特征摘要】
1.一种业务执行方法,其特征在于,包括:
利用原始博弈模型进行自博弈,获得第一博弈结果;
根据所述第一博弈结果进行回溯,获得与所述第一博弈结果相反的第二博弈结果,并获取所述第二博弈结果对应的博弈样本;
利用所述博弈样本对所述原始博弈模型进行优化,获得优化博弈模型;
将所述原始博弈模型与所述优化博弈模型进行模型对抗,保留对抗成功的博弈模型作为所述原始博弈模型;
判断当前模型优化是否满足预设优化条件,若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤进行迭代优化,直至所述当前模型优化满足所述预设优化条件,获得最优博弈模型;
利用所述最优博弈模型执行目标博弈业务。


2.根据权利要求1所述的业务执行方法,其特征在于,所述利用原始博弈模型进行自博弈,获得第一博弈结果,包括:
获取当前博弈数据;
利用所述原始博弈模型对所述当前博弈数据进行处理,获得各合法博弈动作以及各所述合法博弈动作对应的概率值;
在所有所述概率值中确定最大概率值,并执行所述最大概率值对应的合法博弈动作,直至博弈结束,获得所述第一博弈结果。


3.根据权利要求1所述的业务执行方法,其特征在于,所述获取所述第二博弈结果对应的博弈样本之后,还包括:
判断所述博弈样本的数量是否达到预设数量;若否,则返回所述利用原始博弈模型进行自博弈,获得第一博弈结果的步骤,直至所述博弈样本的数量达到所述预设数量;
则所述利用所述博弈样本对所述原始博弈模型进行优化,获得优化博弈模型,包括:
利用所述预设数量个博弈样本对所述原始博弈模型进行优化,获得所述优化博弈模型。


4.根据权利要求1所述的业务执行方法,其特征在于,所述判断当前模型优化是否满足预设优化条件,包括:
统计当前模型优化次数;
判断所述当前模型优化次数是否达到预设次数。


5.一种业务执行装置,其特征在于,包括:
初始博弈模块,用于利用原始博弈模型进行自博弈,获得第一博弈结果;
回溯博弈模块,用于根据所述第一博弈结果进行回溯,获得与所述第一博弈结果相反的第二博弈结果,并获取所述第二博弈结果对应的博弈样本;
模型优化模块,用于利...

【专利技术属性】
技术研发人员:史新新宛然魏培培易平姜传民曹佳周游刘培锴
申请(专利权)人:杭州浮云网络科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1