特征筛选方法、装置及系统制造方法及图纸

技术编号:35995141 阅读:25 留言:0更新日期:2022-12-17 23:11
本申请公开了一种特征筛选方法,包括:根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有N个特征,所述第二训练样本数据中包含有所述待筛选特征;将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。本申请可以减少确定新的有效特征所需要花费的时间和人力成本。要花费的时间和人力成本。要花费的时间和人力成本。

【技术实现步骤摘要】
特征筛选方法、装置及系统


[0001]本申请涉及互联网
,尤其涉及一种特征筛选方法、装置及系统。

技术介绍

[0002]在推荐模型的训练中,基于各项机器学习、深度学习算法模型被越来越多的应用在各种推荐场景中,这就需要开发人员基于累积的大量数据构建训练样本和特征,从而实现推荐模型的建立。在开发人员对推荐模型进行模型训练的过程中,特征的生产和筛选是一个重要且繁琐的过程。通常开发人员会根据自己的经验确认一部分特征并用这部分特征对模型进行训练,得到一个基线推荐模型。之后,开发人员会继续尝试将不同的新特征加入模型中进行模型调优,以使得推荐模型的推荐结果更加准确。然而,专利技术人发现,开发人员在确认新的特征的过程中,需要经过离线调研过程、包含新的特征的训练样本数据的构建过程,模型的训练过程等,整个新的特征的确认过程,非常耗时耗力。

技术实现思路

[0003]有鉴于此,现提供一种特征筛选方法、装置、系统、计算机设备及计算机可读存储介质,以解决现有技术中在确定新的有效特征时,非常耗时耗力的问题。
[0004]本申请提供了一种特征筛选方法,包括:
[0005]根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述第一训练样本数据为用于对第二推荐模型进行训练的样本数据,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有N个特征,N为整数,所述第二训练样本数据中包含有所述待筛选特征;
[0006]将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;
[0007]对所述第三推荐模型与所述第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。
[0008]可选地,所述方法还包括:
[0009]通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至数据库中,以供在线服务端根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。
[0010]可选地,所述在线服务端通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征
[0011]可选地,每一个用户特征画像数据中携带有版本号,所述方法还包括:
[0012]所述在线服务端在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中,以供所述离线视图根据从所
述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据。
[0013]本申请还提供了一种特征筛选装置,包括:
[0014]抽取模块,用于根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有N个特征,N为整数,所述第二训练样本数据中包含有待筛选特征;
[0015]训练模型,用于将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;
[0016]确定模块,用于对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。
[0017]本申请还提供了一种特征筛选系统,包括:
[0018]数据中台,用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有N个特征,N为整数;
[0019]离线视图,用于存储用于对第二推荐模型进行训练的第一样本数据;
[0020]特征筛选装置,用于根据所述离线视图中的第一训练样本数据从所述数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型,对所述第三推荐模型与第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征,其中,所述第二训练样本数据中包含有待筛选特征。
[0021]可选地,所述特征筛选系统还包括在线服务端及数据库,其中:
[0022]所述特征筛选装置,还用于通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至所述数据库中;
[0023]所述在线服务端,用于根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。
[0024]可选地,所述在线服务端,还用于通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征计算处理,得到所述前端用户对应的特征数据。
[0025]可选地,每一个用户特征画像数据中携带有版本号,所述特征筛选系统还包括后端日志库,其中:
[0026]所述在线服务端,还用于在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中;
[0027]所述离线视图,还用于根据从所述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据。
[0028]本申请还提供了一种计算机设备,所述计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0029]本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0030]本实施例中基于数据中台实现特征筛选方法,可以实现数据、工程、模型联动,从而大幅减少确定新的有效特征所需要花费的时间和人力成本。
附图说明
[0031]图1为本申请实施例的特征筛选方法的一实施例的环境示意图;
[0032]图2为本申请所述的特征筛选方法的一种实施例的流程图;
[0033]图3为本申请一实施方式中用户特征画像数据的数据流向图;
[0034]图4为本申请一实施方式中第三训练样本数据的构建图;
[0035]图5为本申请一实施方式中的特征筛选装置的程序模块图;
[0036]图6为本申请一实施方式中特征筛选系统一实施例的架构图;
[0037]图7为本申请实施例提供的执行特征筛选方法的计算机设备的硬件结构示意图。
具体实施方式
[0038]以下结合附图与具体实施例进一步阐述本申请的优点。
[0039]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征筛选方法,其特征在于,包括:根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述第一训练样本数据为用于对第二推荐模型进行训练的样本数据,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有N个特征,N为整数,所述第二训练样本数据中包含有所述待筛选特征;将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;对所述第三推荐模型与所述第二推荐模型进行效果评估,并在评估通过时将所述待筛选特征作为有效特征。2.根据权利要求1所述的特征筛选方法,其特征在于,所述方法还包括:通过定时任务将所述数据中台中存储的多个所述用户特征画像数据同步至数据库中,以供在线服务端根据从所述数据库中获取到的前端用户对应的特征数据为所述前端用户提供推荐服务。3.根据权利要求2所述的特征筛选方法,其特征在于,所述在线服务端通过调用特征数据处理算子对从所述数据库中获取到的与所述前端用户关联的用户特征画像数据进行特征计算处理,得到所述前端用户对应的特征数据。4.根据权利要求2所述的特征筛选方法,其特征在于,每一个用户特征画像数据中携带有版本号,所述方法还包括:所述在线服务端在为所述前端用户提供推荐服务后,将所述推荐服务对应的推荐数据与所述前端用户对应的版本号关联保存至后端日志库中,以供所述离线视图根据从所述后端日志库中获取到的所述推荐数据及从所述数据中台中获取到的所述前端用户对应的用户特征画面数据构建第三训练样本数据。5.一种特征筛选装置,其特征在于,包括:抽取模块,用于根据离线视图中的第一训练样本数据及待筛选特征从数据中台中包含的多个用户特征画像数据中抽取出用于对第一推荐模型进行训练的第二训练样本数据,其中,所述数据中台用于对从多个数据源中获取到的用户基础数据以及用户历史行为数据进行汇总得到多个用户特征画像数据,每一个用户特征画像数据中包含有N个特征,N为整数,所述第二训练样本数据中包含有待筛选特征;训练模型,用于将所述第二训练样本数据输入至所述第一推荐模型中进行模型训练,以得到第三推荐模型;确定模块,用于对所述第三推荐模型与第二...

【专利技术属性】
技术研发人员:卢晓威金冬冬陈哲
申请(专利权)人:上海哔哩哔哩科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1