基于异构特征库的业务模型训练方法及装置制造方法及图纸

技术编号:24411940 阅读:19 留言:0更新日期:2020-06-06 09:37
本发明专利技术公开了一种基于异构特征库的业务模型训练方法及装置,其中,基于异构特征库的业务模型训练方法包括:对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本;根据训练样本,训练得到业务场景对应的业务模型。该方案实现了针对不同业务场景的训练流程的统一,针对任一业务场景,将该业务场景的用户行为日志数据与融合特征库中的特征进行关联,能够快速、便捷地生成该业务场景所需的训练样本,有效地提高了训练样本的获取效率和业务模型的训练效率。

Business model training method and device based on heterogeneous feature base

【技术实现步骤摘要】
基于异构特征库的业务模型训练方法及装置
本专利技术涉及计算机
,具体涉及一种基于异构特征库的业务模型训练方法及装置。
技术介绍
机器学习是当前人工智能领域的研究热点,其理论和方法被广泛用于解决各个领域的复杂问题。通过特定的机器学习算法以及训练样本可以训练各种业务模型。为了使得训练得到的业务模型具有较高的准确率和较好的预测效果,一般会使用海量的训练样本参与模型训练,例如几十万或几百万的训练样本。然而,在不同业务场景下的特征库大多数据、结构是不同的,为异构特征库,其通用性较差;而且在业务模型训练过程中,不同业务场景下由于侧重点或需求不同,因此所需的训练样本和特征各不相同。因此,针对不同业务场景,都需要耗费大量时间进行样本数据采集和特征处理,导致现有的模型训练方式存在着效率较低的问题。
技术实现思路
鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的基于异构特征库的业务模型训练方法及装置。根据本专利技术实施例的一个方面,提供了一种基于异构特征库的业务模型训练方法,该方法包括:对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本;根据训练样本,训练得到业务场景对应的业务模型。进一步地,融合特征库包含用户特征表和店铺特征表。进一步地,根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本进一步包括:根据样本特征配置文件,确定待关联用户特征和待关联店铺特征;依据用户行为日志数据中的用户标识,从融合特征库中的用户特征表中提取符合用户标识的待关联用户特征;依据用户行为日志数据中的店铺标识,从融合特征库中的店铺特征表中提取符合店铺标识的待关联店铺特征;将用户行为日志数据与提取到的符合用户标识的待关联用户特征以及符合店铺标识的待关联店铺特征进行关联,得到训练样本。进一步地,对不同业务场景的多个异构特征库进行融合处理,得到融合特征库进一步包括:从多个异构特征库中提取具有相同特征名称的多个特征;对多个特征的特征属性进行分析,得到特征分析结果;根据特征分析结果,对多个特征进行融合处理。进一步地,对多个特征的特征属性进行分析,得到特征分析结果进一步包括:对多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析结果。进一步地,根据特征分析结果,对多个特征进行融合处理进一步包括:若多个特征的特征名称意义不一致,则在多个特征的特征名称中添加区分标识;若多个特征的特征名称意义一致且特征值类型不一致,或者,多个特征的特征名称意义一致且特征值类型为离散枚举类型,则将多个特征的特征值映射至同一枚举取值范围内;若多个特征的特征名称意义一致且特征值类型为连续实数类型,则根据多个特征的特征值进行归一化和加权处理,得到计算结果,将计算结果确定为多个特征的融合后特征值。根据本专利技术实施例的另一方面,提供了一种基于异构特征库的业务模型训练装置,该装置包括:融合模块,适于对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;获取模块,适于针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;关联模块,适于根据样本特征配置文件,将用户行为日志数据与融合特征库中的特征进行关联,得到训练样本;训练模块,适于根据训练样本,训练得到业务场景对应的业务模型。进一步地,融合特征库包含用户特征表和店铺特征表。进一步地,关联模块进一步适于:根据样本特征配置文件,确定待关联用户特征和待关联店铺特征;依据用户行为日志数据中的用户标识,从融合特征库中的用户特征表中提取符合用户标识的待关联用户特征;依据用户行为日志数据中的店铺标识,从融合特征库中的店铺特征表中提取符合店铺标识的待关联店铺特征;将用户行为日志数据与提取到的符合用户标识的待关联用户特征以及符合店铺标识的待关联店铺特征进行关联,得到训练样本。进一步地,融合模块进一步适于:从多个异构特征库中提取具有相同特征名称的多个特征;对多个特征的特征属性进行分析,得到特征分析结果;根据特征分析结果,对多个特征进行融合处理。进一步地,融合模块进一步适于:对多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析结果。进一步地,融合模块进一步适于:若多个特征的特征名称意义不一致,则在多个特征的特征名称中添加区分标识;若多个特征的特征名称意义一致且特征值类型不一致,或者,多个特征的特征名称意义一致且特征值类型为离散枚举类型,则将多个特征的特征值映射至同一枚举取值范围内;若多个特征的特征名称意义一致且特征值类型为连续实数类型,则根据多个特征的特征值进行归一化和加权处理,得到计算结果,将计算结果确定为多个特征的融合后特征值。根据本专利技术实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行上述基于异构特征库的业务模型训练方法对应的操作。根据本专利技术实施例的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述基于异构特征库的业务模型训练方法对应的操作。根据本专利技术实施例提供的技术方案,通过对不同业务场景的多个异构特征库的融合,能够得到适用于不同业务场景的融合特征库;还实现了针对不同业务场景的训练流程的统一,针对任一业务场景,根据该业务场景的样本特征配置文件,将该业务场景的用户行为日志数据与融合特征库中的特征进行关联,能够快速、便捷地生成该业务场景所需的训练样本,无需针对每个业务场景都耗费大量时间进行样本数据采集和特征处理,有效地提高了训练样本的获取效率;并且,在业务场景变换时也无需对训练代码进行修改,实现了训练代码的统一,有效地提高了业务模型的训练效率,优化了业务模型的训练方式。上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的基于异构特征库的业务模型训练方法的流程图;图2示出本文档来自技高网...

【技术保护点】
1.一种基于异构特征库的业务模型训练方法,所述方法包括:/n对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;/n针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;/n根据所述样本特征配置文件,将所述用户行为日志数据与所述融合特征库中的特征进行关联,得到训练样本;/n根据所述训练样本,训练得到业务场景对应的业务模型。/n

【技术特征摘要】
1.一种基于异构特征库的业务模型训练方法,所述方法包括:
对不同业务场景的多个异构特征库进行融合处理,得到融合特征库;
针对任一业务场景,采集该业务场景的用户行为日志数据,读取该业务场景的样本特征配置文件;
根据所述样本特征配置文件,将所述用户行为日志数据与所述融合特征库中的特征进行关联,得到训练样本;
根据所述训练样本,训练得到业务场景对应的业务模型。


2.根据权利要求1所述的方法,其中,所述融合特征库包含用户特征表和店铺特征表。


3.根据权利要求1或2所述的方法,其中,所述根据所述样本特征配置文件,将所述用户行为日志数据与所述融合特征库中的特征进行关联,得到训练样本进一步包括:
根据所述样本特征配置文件,确定待关联用户特征和待关联店铺特征;
依据所述用户行为日志数据中的用户标识,从所述融合特征库中的用户特征表中提取符合所述用户标识的待关联用户特征;
依据所述用户行为日志数据中的店铺标识,从所述融合特征库中的店铺特征表中提取符合所述店铺标识的待关联店铺特征;
将所述用户行为日志数据与提取到的符合所述用户标识的待关联用户特征以及符合所述店铺标识的待关联店铺特征进行关联,得到训练样本。


4.根据权利要求1-3任一项所述的方法,其中,所述对不同业务场景的多个异构特征库进行融合处理,得到融合特征库进一步包括:
从多个异构特征库中提取具有相同特征名称的多个特征;
对所述多个特征的特征属性进行分析,得到特征分析结果;
根据所述特征分析结果,对所述多个特征进行融合处理。


5.根据权利要求4所述的方法,其中,所述对所述多个特征的特征属性进行分析,得到特征分析结果进一步包括:
对所述多个特征的特征名称意义、特征值类型以及特征值取值范围进行分析,得到特征分析...

【专利技术属性】
技术研发人员:马庚周小又姜谷雨
申请(专利权)人:拉扎斯网络科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1