【技术实现步骤摘要】
选择性集成异质模型的实体对象分类方法及相关设备
本公开涉及数据处理
,尤其涉及一种选择性集成异质模型的实体对象分类方法及相关设备。
技术介绍
在互联网的应用场景中,每天会有大量的数据需要分析,而机器学习作为一种技术手段,正在越来越多的场景中发挥着作用。对于给定的任务,为取得良好的部署效果,集成学习往往是一种不错的选择,通过集成多个不同的模型,来提升整体的泛化性能往往是可行的。然而,通常的模型集成就是基于训练得到的基分类器来取平均得到最后的预测结果,这样的方式往往达不到较好的效果,且会存在存储开销大,预测时间长的问题。与之对应的,选择性集成是一种缓解这一问题的方式,通过对所有的候选模型进行选择和合理组合,往往可以达到更好的整体效果,且模型存储开销和预测时间开销可以大大减小。因此,需要提供一种更快速或者更可靠的模型集成方案。
技术实现思路
有鉴于此,本说明书一个或多个实施例的目的在于提出一种选择性集成异质模型的实体对象分类方法及相关设备,以解决上述问题。基于上述目的,本说明书一个或多个实施例提供了一种选择性集成异质模型的实体对象分类方法,包括:获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;利用所述训练数据集,训练得到异质的至少两组基分类器;按照指定轮数循环执行下列基分类器组合的生成及评分步骤:生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演 ...
【技术保护点】
1.一种选择性集成异质模型的实体对象分类方法,包括:/n获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;/n利用所述训练数据集,训练得到异质的至少两组基分类器;/n按照指定轮数循环执行下列基分类器组合的生成及评分步骤:/n生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;/n利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;/n确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行实体对象分类预测。/n
【技术特征摘要】
1.一种选择性集成异质模型的实体对象分类方法,包括:
获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;
利用所述训练数据集,训练得到异质的至少两组基分类器;
按照指定轮数循环执行下列基分类器组合的生成及评分步骤:
生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;
利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;
确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行实体对象分类预测。
2.根据权利要求1所述的方法,其中,所述方法还包括:进行第一轮的基分类器组合的生成及评分步骤,具体包括:
生成若干基分类器组合;其中,每个所述基分类器组合是通过随机生成权值的方式为每个基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;
利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分。
3.根据权利要求1所述的方法,其中,所述演化算法采用遗传算法、遗传规划、进化策略和进化规划中的至少一种。
4.根据权利要求1所述的方法,其中,所述训练数据集和验证数据集中的数据均带有分类标记。
5.根据权利要求1所述的方法,其中,所述基分类器包括逻辑回归模型、支持向量机模型、决策树模型、梯度下降决策树模型、随机森林模型、神经网络模型中的至少一种。
6.根据权利要求1-5任一项所述的方法,其中,所述方法用于对用户性质进行分类;所述训练数据集和验证数据集中包括用户基本信息、用户动态信息和用户关系信息中的至少一种;所述用户基本信息中包括性别、年龄、学历中的至少一种,所述用户动态信息中包括用户在预定期间内的浏览记录和消费记录中的至少一种,所述用户关系信息包括好友数量和好友的基本信息中的至少一种,所述用户的好友的基本信息中包括该好友的性别、年龄、学历中的至少一种。
7.一种选择性集成异质模型的实体对象分类装置,包括:
获取模块,用于获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;
训练模块,用于利用所述训练数据...
【专利技术属性】
技术研发人员:张雅淋,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。