本发明专利技术公开了一种训练模型的更新方法、系统、智能体、服务器及存储介质,涉及金融科技领域,该方法包括步骤:联邦学习服务器接收运行在实时环境中的各强化学习智能体发送的第一训练模型,以及接收数据服务器发送的,根据历史样本数据训练得到的第二训练模型;对所述第一训练模型和所述第二训练模型进行联邦学习,得到联邦模型;将所述联邦模型发送给所述数据服务器和各强化学习智能体,以供所述数据服务器和各强化学习智能体根据所述联邦模型对应更新训练模型。本发明专利技术提高了通过训练模型得到训练结果的准确性,即提高了训练模型对样本知识的抽取能力,以及提高了训练模型的稳定性。
Update method, system, agent, server and storage medium of training model
【技术实现步骤摘要】
训练模型的更新方法、系统、智能体、服务器及存储介质
本专利技术涉及金融科技(Fintech)的数据处理
,尤其涉及一种训练模型的更新方法、系统、智能体、服务器及存储介质。
技术介绍
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,数据处理技术也不例外,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。时下工业界应用强化学习的训练方式通常为,训练的强化学习智能体(Agent)会维持一个固定规模的经验池(经验回放),而当该经验池的规模超过一定大小时,强化学习智能体会按照一定的规则对之前的记忆进行遗忘,即按照一定的规则删除之前存储的数据。该方式存在如下问题:①样本浪费:一般情况下,实时环境中强化学习智能体搜集到的数据具备重大的价值,如果按照当前的强化学习训练方式,会删除历史搜集的样本数据,因此会导致历史搜集的样本数据的价值存在巨大浪费;②知识遗忘:由于实时环境的难以预测性质,样本数据的分布具有较大的不确定性,随着经验池中历史样本数据的更迭,强化学习智能体在历史环境学习到的知识可能会被覆盖甚至遗忘。由此可知,现有的强化学习训练只会采用当前的样本数据进行强化学习,从而导致训练所得的模型对样本的知识抽取能力低下,且训练所得的模型稳定性差。
技术实现思路
本专利技术的主要目的在于提供一种训练模型的更新方法、系统、智能体、服务器及存储介质,旨在解决现有的通过强化学习训练所得的模型对样本的知识抽取能力低下,且训练所得的模型稳定性差的技术问题。为实现上述目的,本专利技术提供一种训练模型的更新方法,所述训练模型的更新方法包括步骤:运行在实时环境中的强化学习智能体获取预设长度存储队列中的实时样本数据进行强化学习训练,得到第一训练模型;将所述第一训练模型发送给联邦学习服务器,以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的,根据历史样本数据训练得到的第二训练模型进行联邦学习,得到联邦模型,并返回所述联邦模型;当接收到所述联邦学习服务器返回的联邦模型后,根据所述联邦模型更新所述第一训练模型。优选地,所述运行在实时环境中的强化学习智能体获取预设长度存储队列中的实时样本数据进行强化学习训练,得到第一训练模型的步骤之前,还包括:获取所述实时环境中的实时样本数据,并将所述实时样本数据存储至预设长度的存储队列中。优选地,所述获取所述实时环境中的实时样本数据,并将所述实时样本数据存储至预设长度的存储队列中的步骤包括:获取所述实时环境中的实时样本数据,检测预设长度的存储队列的剩余存储空间是否小于存储所述实时样本数据所需的数据空间;若所述剩余存储空间小于所述数据空间,则在按照预设删除规则删除所述存储队列中存储的样本数据后,将所述实时样本数据存储至预设长度的存储队列中。优选地,所述获取所述实时环境中的实时样本数据的步骤之后,还包括:根据预设的样本发送周期确定发送所述实时样本数据的数据发送时间,并在当前时间为所述数据发送时间时将所述实时样本数据发送给数据服务器,以供所述数据服务器接收并存储所述实时样本数据。优选地,所述将所述第一训练模型发送给联邦学习服务器,以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的,根据历史样本数据训练得到的第二训练模型进行联邦学习,得到联邦模型,并返回所述联邦模型的步骤之前,还包括:根据预设的模型发送周期确定发送所述第一训练模型的模型发送时间;所述将所述第一训练模型发送给联邦学习服务器,包括:在当前时间为所述模型发送时间时执行将所述第一训练模型发送给联邦学习服务器。优选地,所述当接收到所述联邦学习服务器返回的联邦模型后,根据所述联邦模型更新所述第一训练模型的步骤包括:当接收到所述联邦学习服务器返回的联邦模型后,获取当前时间;若根据更新周期确定所述当前时间为更新时间,则根据所述联邦模型更新所述第一训练模型。此外,为实现上述目的,本专利技术提供一种训练模型的更新方法,所述训练模型的更新方法包括步骤:联邦学习服务器接收运行在实时环境中的各强化学习智能体发送的第一训练模型,以及接收数据服务器发送的,根据历史样本数据训练得到的第二训练模型;对所述第一训练模型和所述第二训练模型进行联邦学习,得到联邦模型;将所述联邦模型发送给所述数据服务器和各强化学习智能体,以供所述数据服务器和各强化学习智能体根据所述联邦模型对应更新训练模型。优选地,所述对所述第一训练模型和所述第二训练模型进行联邦学习,得到联邦模型的步骤包括:获取所述第一训练模型和所述第二训练模型对应的模型权重;根据所述模型权重对所述第一训练模型和所述第二训练模型进行联邦学习,得到联邦模型。此外,为实现上述目的,本专利技术还提供一种训练模型的更新系统,系统包括运行在实时环境中的强化学习智能体、联邦学习服务器和数据服务器,所述训练模型的更新系统包括:所述联邦服务器,用于接收运行在实时环境中的各强化学习智能体发送的第一训练模型,以及接收数据服务器发送的,根据历史样本数据训练得到的第二训练模型;对所述第一训练模型和所述第二训练模型进行联邦学习,得到联邦模型;将所述联邦模型发送给所述数据服务器和各强化学习智能体;所述强化学习智能体,用于根据所述联邦模型更新所述第一训练模型;所述数据服务器,用于根据所述联邦模型更新所述第二训练模型。此外,为实现上述目的,本专利技术还提供一种联邦学习服务器,所述联邦学习服务器包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的训练模型的更新程序,所述训练模型的更新程序被所述处理器执行时实现如联邦学习服务器对应的训练模型的更新方法的步骤。此外,为实现上述目的,本专利技术还提供一种强化学习智能体,所述强化学习智能体运行在实时环境中,所述强化学习智能体包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的训练模型的更新程序,所述训练模型的更新程序被所述处理器执行时实现强化学习智能体对应的训练模型的更新方法的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有训练模型的更新程序,所述训练模型的更新程序被处理器执行时实现如上所述的训练模型的更新方法的步骤。本专利技术通过在预设长度存储队列中获取的实时样本数据和所获取历史样本数据进行强化学习训练,得到对应的训练模型,然后对实时样本数据对应的训练模型和历史样本数据对应的训练模型进行联邦学习,得到联邦模型,将联邦模型发送给运行在实时环境中的各个强化学习智能体和存储历史样本数据的数据服务器,运行在实时环境中的各个强化学习智能体和数据服务器会根据所接收的联邦模型更新其强化学习训练的训练模型,通过联邦学习对实时在预设长度存储队列中获取的样本数据,以及所获取的历史样本数据进行知识的交换和迁移,使最终运行在实时环境中的强化学习智能体和数据服务器对应的训练模型是由实时获取的本文档来自技高网...
【技术保护点】
1.一种训练模型的更新方法,其特征在于,所述训练模型的更新方法包括以下步骤:/n运行在实时环境中的强化学习智能体获取预设长度存储队列中的实时样本数据进行强化学习训练,得到第一训练模型;/n将所述第一训练模型发送给联邦学习服务器,以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的,根据历史样本数据训练得到的第二训练模型进行联邦学习,得到联邦模型;/n当接收到所述联邦学习服务器返回的联邦模型后,根据所述联邦模型更新所述第一训练模型。/n
【技术特征摘要】
1.一种训练模型的更新方法,其特征在于,所述训练模型的更新方法包括以下步骤:
运行在实时环境中的强化学习智能体获取预设长度存储队列中的实时样本数据进行强化学习训练,得到第一训练模型;
将所述第一训练模型发送给联邦学习服务器,以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的,根据历史样本数据训练得到的第二训练模型进行联邦学习,得到联邦模型;
当接收到所述联邦学习服务器返回的联邦模型后,根据所述联邦模型更新所述第一训练模型。
2.如权利要求1所述的训练模型的更新方法,其特征在于,所述运行在实时环境中的强化学习智能体获取预设长度存储队列中的实时样本数据进行强化学习训练,得到第一训练模型的步骤之前,还包括:
获取所述实时环境中的实时样本数据,并将所述实时样本数据存储至预设长度的存储队列中。
3.如权利要求2所述的训练模型的更新方法,其特征在于,所述获取所述实时环境中的实时样本数据,并将所述实时样本数据存储至预设长度的存储队列中的步骤包括:
获取所述实时环境中的实时样本数据,检测预设长度的存储队列的剩余存储空间是否小于存储所述实时样本数据所需的数据空间;
若所述剩余存储空间小于所述数据空间,则在按照预设删除规则删除所述存储队列中存储的样本数据后,将所述实时样本数据存储至预设长度的存储队列中。
4.如权利要求3所述的训练模型的更新方法,其特征在于,所述获取所述实时环境中的实时样本数据的步骤之后,还包括:
根据预设的样本发送周期确定发送所述实时样本数据的数据发送时间,并在当前时间为所述数据发送时间时将所述实时样本数据发送给数据服务器,以供所述数据服务器接收并存储所述实时样本数据。
5.如权利要求1所述的训练模型的更新方法,其特征在于,所述将所述第一训练模型发送给联邦学习服务器,以供所述联邦学习服务器对所述第一训练模型和数据服务器发送的,根据历史样本数据训练得到的第二训练模型进行联邦学习,得到联邦模型,并返回所述联邦模型的步骤之前,还包括:
根据预设的模型发送周期确定发送所述第一训练模型的模型发送时间;
所述将所述第一训练模型发送给联邦学习服务器,包括:
在当前时间为所述模型发送时间时执行将所述第一训练模型发送给联邦学习服务器。
6.如权利要求1至5任一项所述的训练模型的更新方法,其特征在于,所述当接收到所述联邦学习服务器返回的联邦模型后,根据所述联邦模型更新所述第一训练模型的步骤包括:
当接收到所述联邦学习服务器返...
【专利技术属性】
技术研发人员:梁新乐,刘洋,陈天健,董苗波,
申请(专利权)人:深圳前海微众银行股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。