数据处理方法、装置、计算机可读存储介质和计算机设备制造方法及图纸

技术编号：23342925 阅读：26 留言：0更新日期：2020-02-15 03:44

本申请涉及一种虚拟资源的数据处理方法、装置、计算机可读存储介质和计算机设备，所述方法包括：获取用户在业务系统中持有的虚拟资源的状态数据；将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络，根据所述虚拟资源的历史状态数据进行对抗训练得到的生成网络；根据所述预先训练的策略生成网络的输出结果，生成针对所述虚拟资源的状态数据的目标虚拟资源转移策略，以使所述用户进行与所述目标虚拟资源转移策略相应的虚拟资源转移操作。所述方法可以提高服务器的资源利用率。

Data processing method, device, computer readable storage medium and computer equipment

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置、计算机可读存储介质和计算机设备
本申请涉及计算机
，特别是涉及一种虚拟资源的数据处理方法、装置、计算机可读存储介质和计算机设备。
技术介绍
现如今，人们常常在业务系统中操作各种虚拟资源。例如，在金融证券平台上对股票、基金、外汇等虚拟资源进行买入、卖出等一系列转移操作。然而，用户在业务系统中对虚拟资源进行转移操作过程中，往往缺少具有指导性且准确的虚拟资源转移策略。因此，用户需要不断访问业务系统的服务器以针对虚拟资源的详细状态信息查询和了解；而现有的服务器处理资源有限，这也使得服务器的资源浪费，从而降低了服务器的资源利用率。
技术实现思路
基于此，有必要针对现有的服务器的资源利用率不高的技术问题，提供一种虚拟资源的数据处理方法、装置、计算机可读存储介质和计算机设备。一种虚拟资源的数据处理方法，包括：获取用户在业务系统中持有的虚拟资源的状态数据；将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与...

【技术保护点】
1.一种虚拟资源的数据处理方法，包括：/n获取用户在业务系统中持有的虚拟资源的状态数据；/n将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络，根据所述虚拟资源的历史状态数据进行对抗训练得到的生成网络；所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件；/n根据所述预先训练的策略生成网络的输出结果，生成针对所述虚拟资源的状态数据的目标虚拟资...

【技术特征摘要】
1.一种虚拟资源的数据处理方法，包括：
获取用户在业务系统中持有的虚拟资源的状态数据；
将所述虚拟资源的状态数据输入至预先训练的策略生成网络；其中，所述预先训练的策略生成网络为待训练的策略生成网络与待训练的对抗策略网络，根据所述虚拟资源的历史状态数据进行对抗训练得到的生成网络；所述策略生成网络用于生成虚拟资源转移策略；所述对抗策略网络用于生成对抗所述策略生成网络的虚拟资源转移策略的对抗转移策略，以使在完成所述虚拟资源转移策略和所述对抗转移策略后，所述用户在所述业务系统中的虚拟资产数值满足预设的变化条件；
根据所述预先训练的策略生成网络的输出结果，生成针对所述虚拟资源的状态数据的目标虚拟资源转移策略，以使所述用户进行与所述目标虚拟资源转移策略相应的虚拟资源转移操作。

2.根据权利要求1所述的方法，其特征在于，还包括：
构建所述待训练的策略生成网络，以及，构建所述待训练的对抗策略网络；
获取所述虚拟资源的历史状态数据；并使用所述虚拟资源的历史状态数据，对所述待训练的策略生成网络和所述待训练的对抗策略网络进行对抗训练，得到所述预先训练的策略生成网络。

3.根据权利要求2所述的方法，其特征在于，所述历史状态数据具有至少两个，所述使用所述虚拟资源的历史状态数据，对所述待训练的策略生成网络和所述待训练的对抗策略网络进行对抗训练，得到所述预先训练的策略生成网络，包括：
将所述历史状态数据，输入至所述待训练的策略生成网络，生成与所述历史状态数据对应的第一虚拟资源转移策略；以及，将所述历史状态数据，输入至所述待训练的对抗策略网络，生成与所述历史状态数据对应的第一对抗转移策略；
确定所述虚拟资源的当前状态数据；所述当前状态数据为在所述业务系统中完成所述第一虚拟资源转移策略和所述第一对抗转移策略后，所述用户在所述业务系统中持有的虚拟资源的状态数据；
根据所述当前状态数据，计算出所述用户的虚拟资产变化值；
根据所述虚拟资产变化值，调整所述待训练的策略生成网络的网络参数，得到训练后的策略生成网络，并将所述训练后的策略生成网络，作为所述待训练的策略生成网络，以及，根据所述虚拟资产变化值，调整所述待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，并将所述训练后的对抗策略网络作为所述待训练的对抗策略网络；
重复执行上述步骤，直至得到所述预先训练的策略生成网络。

4.根据权利要求3所述的方法，其特征在于，所述根据所述虚拟资产变化值，调整所述待训练的策略生成网络的网络参数，得到训练后的策略生成网络，包括：
获取所述待训练的策略生成网络的第一目标虚拟资产变化值；
计算所述第一目标虚拟资产变化值与所述虚拟资产变化值的误差，作为所述待训练的策略生成网络的第一损失参数；
根据所述第一损失参数，对所述待训练的策略生成网络的网络参数进行求偏导，得到针对所述待训练的策略生成网络的网络参数的第一偏导数；
根据所述第一偏导数，更新所述待训练的策略生成网络的网络参数，得到所述训练后的策略生成网络。

5.根据权利要求3所述的方法，其特征在于，所述根据所述虚拟资产变化值，调整所述待训练的对抗策略网络的网络参数，得到训练后的对抗策略网络，包括：
获取所述待训练的对抗策略网络的第二目标虚...

【专利技术属性】
技术研发人员：陈尧，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人