模型训练方法、装置及计算机设备制造方法及图纸

技术编号:27978274 阅读:43 留言:0更新日期:2021-04-06 14:13
本申请公开了一种模型训练方法、装置及计算机设备,该方法包括:获取目标用户集的用户基础特征数据集以及用户实时产生的用户行为数据;将所述用户行为数据存储到目标存储单元,统计出所述每一条用户行为数据的用户兴趣标签;对所述存储单元中的用户兴趣标签进行分组以得到目标时间区段内的用户兴趣标签集;将所述用户兴趣标签集从所述目标存储单元取出,与所述用户基础特征数据集聚合,生成所述目标时间区段的用户实时特征数据集,用于对预设模型进行模型训练。本申请还提供一种计算机可读存储介质。本申请能够快速生成用户实时特征数据从而有效降低模型训练的资源消耗,提升点击率预估模型的训练效率。

【技术实现步骤摘要】
模型训练方法、装置及计算机设备
本申请涉及数据处理
,尤其涉及一种模型训练方法、装置及计算机设备。
技术介绍
随着互联网技术的发展,越来越多的用户选择在网上浏览、挑选或者购买自己需要的商品。随着商品数目和种类的增多,用户往往需要花费大量的时间才能找到自己需要的商品。为了解决这个问题,各个电商平台都不同程度地采用各种形式的推荐技术向用户进行商品推荐。其中,为了达到向用户及时推荐各种有用信息又尽量避免推荐无用信息的目的,通常会先根据用户信息构建出用户的用户特征数据;然后再将用户的用户特征数据输入到初始点击率预估模型,从而训练出能够预估出不同的用户对于推荐数据的点击概率的点击率预估模型。其中,点击率预估模型的预估准确度与训练数据的新鲜度息息相关,因此现有技术中通常会周期性获取用户数据并进行用户特征数据提取,以用于对初始点击率预估模型进行模型训练。然而,现有技术中的做法通常需要将用户数据缓存到内存中,然后通过设置时间窗口的方式对所述用户数据进行用户特征提取,因此,需要耗费较多的内存资源,且效率低下。
技术实现思路
本申请提出一种模型训练方法、装置及计算机设备,能够解决上述的点击率预估模型的训练过程耗费资源较多、效率低下的问题。首先,为实现上述目的,本申请提供一种模型训练方法,所述方法包括:获取目标用户集的用户信息数据,识别出对应的用户基础特征数据集;获取所述目标用户集的用户实时产生的用户行为数据,将所述用户行为数据存储到目标存储单元;在每一条用户行为数据存入到所述目标存储单元时统计出所述每一条用户行为数据的用户兴趣标签;对所述存储单元中的用户兴趣标签进行分组以得到目标时间区段内的用户兴趣标签集;将所述用户兴趣标签集从所述目标存储单元取出,与所述用户基础特征数据集聚合,生成所述目标时间区段的用户实时特征数据集;将所述用户实时特征数据集输入到预设的模型进行模型训练。在一个例子中,所述目标存储单元为SSD磁盘。在一个例子中,通过RocksDB数据库引擎技术实现所述将所述用户行为数据存储到目标存储单元的步骤和所述将所述用户兴趣标签集从所述目标存储单元取出的步骤。在一个例子中,所述对所述存储单元中的用户兴趣标签进行分组包括:识别出每一条用户兴趣标签对应的用户行为数据的产生时间;对所述目标存储单元中产生时间处于所述目标时间区段用户兴趣标签分组为所述用户兴趣标签集。在一个例子中,所述对所述存储单元中的用户兴趣标签进行分组包括:获取用户输入的或预先设置的拉取周期;根据所述拉取周期,周期性执行所述对所述存储单元中的用户兴趣标签进行分组的步骤。在一个例子中,所述方法还包括:监测所述目标存储单元中的用户行为数据的最小产生时间和当前时间的时间差;当所述时间差大于预设的时间阈值时,将产生时间最小的用户行为数据清除。在一个例子中,所述用户基础特征数据集包括:用户性别、年龄、职业或在网年龄中的至少一项用户基础特征数据;所述用户兴趣标签集包括:教育资源偏好标签、鬼畜视频偏好标签、动漫视频偏好标签或二次元视频偏好标签的至少一项用户兴趣标签。此外,为实现上述目的,本申请还提供一种模型训练装置,所述装置包括:获取模块,用于获取目标用户集的用户信息数据,识别出对应的用户基础特征数据集;以及获取所述目标用户集的用户实时产生的用户行为数据;存取模块,用于将所述用户行为数据存储到目标存储单元;识别模块,用于在每一条用户行为数据存入到所述目标存储单元时统计出所述每一条用户行为数据的用户兴趣标签;分组模块,用于对所述存储单元中的用户兴趣标签进行分组以得到目标时间区段内的用户兴趣标签集;所述存取模块,还用于将所述用户兴趣标签集从所述目标存储单元取出;聚合模块,用于将所述用户兴趣标签集与所述用户基础特征数据集聚合,生成所述目标时间区段的用户实时特征数据集;训练模块,用于将所述用户实时特征数据集输入到预设的模型进行模型训练。进一步地,本申请还提出一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上述的模型训练方法的步骤。进一步地,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的模型训练方法的步骤。相较于现有技术,本申请所提出的模型训练方法、装置、计算机设备及计算机可读存储介质,能够获获取目标用户集的用户信息数据,识别出对应的用户基础特征数据集;获取所述目标用户集的用户实时产生的用户行为数据,将所述用户行为数据存储到目标存储单元;在每一条用户行为数据存入到所述目标存储单元时统计出所述每一条用户行为数据的用户兴趣标签;对所述存储单元中的用户兴趣标签进行分组以得到目标时间区段内的用户兴趣标签集;将所述用户兴趣标签集从所述目标存储单元取出,与所述用户基础特征数据集聚合,生成所述目标时间区段的用户实时特征数据集;将所述用户实时特征数据集输入到预设的模型进行模型训练。通过对用户实时行为数据单独处理,得到用户兴趣标签,然后与用户基础特征数据聚合,从而快速生成用户实时特征数据用于进行模型训练,能够有效降低资源消耗,提升点击率预估模型的训练效率。附图说明图1是本申请一实施例的应用环境示意图;图2是本申请模型训练方法一具体实施例的流程示意图;图3是本申请模型训练装置一实施例的程序模块示意图;图4是本申请计算机设备一可选的硬件架构的示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。图1是本申请一实施例的应用环境示意图。参阅图1所示,所述计算机设备1与数据服务器20连接,所述数据服务器20与用户端10连接。任一用户端10均可以访问所述数据服务器20上的数据,比如通过访问App页面或者网页的方式访问所述数据服务器20上的数据,然后所述数据服务器20可以将推荐数据通过所述App页面或者网页推荐给用户端10,并且,所述数据服务器20可以通过得到用户端10的授权后获取用户端10上的用户数据。因此,所述计算机设备1与所述数据服务器20连接后,能够通过所述数据服务器本文档来自技高网...

【技术保护点】
1.一种模型训练方法,其特征在于,所述方法包括:/n获取目标用户集的用户信息数据,识别出对应的用户基础特征数据集;/n获取所述目标用户集的用户实时产生的用户行为数据,将所述用户行为数据存储到目标存储单元;/n在每一条用户行为数据存入到所述目标存储单元时统计出所述每一条用户行为数据的用户兴趣标签;/n对所述存储单元中的用户兴趣标签进行分组以得到目标时间区段内的用户兴趣标签集;/n将所述用户兴趣标签集从所述目标存储单元取出,与所述用户基础特征数据集聚合,生成所述目标时间区段的用户实时特征数据集;/n将所述用户实时特征数据集输入到预设的模型进行模型训练。/n

【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:
获取目标用户集的用户信息数据,识别出对应的用户基础特征数据集;
获取所述目标用户集的用户实时产生的用户行为数据,将所述用户行为数据存储到目标存储单元;
在每一条用户行为数据存入到所述目标存储单元时统计出所述每一条用户行为数据的用户兴趣标签;
对所述存储单元中的用户兴趣标签进行分组以得到目标时间区段内的用户兴趣标签集;
将所述用户兴趣标签集从所述目标存储单元取出,与所述用户基础特征数据集聚合,生成所述目标时间区段的用户实时特征数据集;
将所述用户实时特征数据集输入到预设的模型进行模型训练。


2.如权利要求1所述的模型训练方法,其特征在于,所述目标存储单元为SSD磁盘。


3.如权利要求1或2中任一项所述的模型训练方法,其特征在于,通过RocksDB数据库引擎技术实现所述将所述用户行为数据存储到目标存储单元的步骤和所述将所述用户兴趣标签集从所述目标存储单元取出的步骤。


4.如权利要求1所述的模型训练方法,其特征在于,所述对所述存储单元中的用户兴趣标签进行分组包括:
识别出每一条用户兴趣标签对应的用户行为数据的产生时间;
对所述目标存储单元中产生时间处于所述目标时间区段用户兴趣标签分组为所述用户兴趣标签集。


5.如权利要求1所述的模型训练方法,其特征在于,所述对所述存储单元中的用户兴趣标签进行分组包括:
获取用户输入的或预先设置的拉取周期;
根据所述拉取周期,周期性执行所述对所述存储单元中的用户兴趣标签进行分组的步骤。


6.如权利要求1所述的模型训练方法,其特征在于,所述方法还包括:
监测所述目标存储单元中的用户行为数据的最小产生时间和当前...

【专利技术属性】
技术研发人员:张杨刘方奇
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1