选择性集成异质模型的实体对象分类方法及相关设备技术

技术编号:24614048 阅读:21 留言:0更新日期:2020-06-24 01:25
本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类系统,提出了针对异质模型选择性集成的解决方案,通过在集成学习中包含异质的基分类器,每一种类型的基分类器在学习阶段都会给予不同的参数组合学习得到多个模型,在选择阶段,对每一类模型,选择其中一个或多个作为最终模型的组成部分。通过这样的方式,能够充分利用不同模型各有所长的特点,做到互补,提升整体模型的鲁棒性和有效性,能够较好地完成实体对象分类。

Entity object classification method and related equipment for selective integration heterogeneous model

【技术实现步骤摘要】
选择性集成异质模型的实体对象分类方法及相关设备
本公开涉及数据处理
,尤其涉及一种选择性集成异质模型的实体对象分类方法及相关设备。
技术介绍
在互联网的应用场景中,每天会有大量的数据需要分析,而机器学习作为一种技术手段,正在越来越多的场景中发挥着作用。对于给定的任务,为取得良好的部署效果,集成学习往往是一种不错的选择,通过集成多个不同的模型,来提升整体的泛化性能往往是可行的。然而,通常的模型集成就是基于训练得到的基分类器来取平均得到最后的预测结果,这样的方式往往达不到较好的效果,且会存在存储开销大,预测时间长的问题。与之对应的,选择性集成是一种缓解这一问题的方式,通过对所有的候选模型进行选择和合理组合,往往可以达到更好的整体效果,且模型存储开销和预测时间开销可以大大减小。因此,需要提供一种更快速或者更可靠的模型集成方案。
技术实现思路
有鉴于此,本说明书一个或多个实施例的目的在于提出一种选择性集成异质模型的实体对象分类方法及相关设备,以解决上述问题。基于上述目的,本说明书一个或多个实施例提供了一种选择性集成异质模型的实体对象分类方法,包括:获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;利用所述训练数据集,训练得到异质的至少两组基分类器;按照指定轮数循环执行下列基分类器组合的生成及评分步骤:生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;在第一轮中,通过随机生成权值的方式为每个基分类器赋予权值;利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行实体对象分类预测。本说明书一个或多个实施例还提供了一种选择性集成异质模型的实体对象分类装置,包括:获取模块,用于获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;训练模块,用于利用所述训练数据集,训练得到异质的至少两组基分类器;基分类器组合生成及评分模块,用于按照指定轮数循环执行下列基分类器组合的生成及评分步骤:生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;分类模块,用于确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行实体对象分类预测。本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的方法。本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行所述方法。从上面所述可以看出,本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法及相关设备,提出了针对异质模型选择性集成的解决方案,通过在集成学习中包含异质的基分类器,每一种类型的基分类器在学习阶段都会给予不同的参数组合学习得到多个模型,在选择阶段,对每一类模型,选择其中一个或多个作为最终模型的组成部分。通过这样的方式,能够充分利用不同模型各有所长的特点,做到互补,提升整体模型的鲁棒性和有效性,能够更好地完成实体对象分类。附图说明为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类系统的示意图;图2为本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法的一种流程示意图;图3为本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类方法的另一种流程示意图;图4为本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类装置的框图结构示意图;图5为本说明书一个或多个实施例提供的电子设备硬件结构示意图。具体实施方式为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。需要说明的是,除非另外定义,本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。监督学习:机器学习的一个研究领域,给定的数据包含大量有标记样本,基于如此的训练数据构建模型,来对测试样本进行预测。其中样本表示为描述其特征的特征向量,所有样本均为有标记样本,附有表示其属性的标记信息(如标记为正样本或负样本)。集成学习:机器学习的一个研究领域,通过将多个基学习器进行结合,以期得到比单个学习器优越的泛化性能。同质模型:当集成学习中的多个基分类器属于同种类的分类器(如都是神经网络模型),此时称各个模型之间是同质的。异质模型:当集成学习中的多个基分类器属于不同的分类器(如支持向量机、神经网络、随机森林等),此时称各个模型之间是异质的。作为一种集成学习的实施方案,可以基于同一种学习算法(如神经网络)训练得到多个同质基分类器(比如5个),并将多个同质基分类器各自的预测结果的平均值作为模型最终的预测结果。但是,基于同质模型的集成方案,受限于模型本身的特点,可能在某些任务上不具有优势。同时,简单地将各种模型的预测结果进行平均,而不做模型的筛选,可能会因为某些个体模型效果较差导致整体模型效果不理想。图1示出了本说明书一个或多个实施例提供的选择性集成异质模型的实体对象分类系统的示意图。如图1所示,所述本文档来自技高网...

【技术保护点】
1.一种选择性集成异质模型的实体对象分类方法,包括:/n获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;/n利用所述训练数据集,训练得到异质的至少两组基分类器;/n按照指定轮数循环执行下列基分类器组合的生成及评分步骤:/n生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;/n利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;/n确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行实体对象分类预测。/n

【技术特征摘要】
1.一种选择性集成异质模型的实体对象分类方法,包括:
获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;
利用所述训练数据集,训练得到异质的至少两组基分类器;
按照指定轮数循环执行下列基分类器组合的生成及评分步骤:
生成若干基分类器组合;其中,每个所述基分类器组合是利用前一轮基分类器组合及其包括的基分类器被赋予的权值结合基分类器组合的评分,通过演化算法为每个所述基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;
利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分;
确定所有轮中评分最高的基分类器组合,基于所述评分最高的基分类器组合,结合其包括的基分类器所对应的权值,得到所述选择性集成异质模型,用以进行实体对象分类预测。


2.根据权利要求1所述的方法,其中,所述方法还包括:进行第一轮的基分类器组合的生成及评分步骤,具体包括:
生成若干基分类器组合;其中,每个所述基分类器组合是通过随机生成权值的方式为每个基分类器赋予权值,并从每组基分类器中按照权值从大到小的顺序选出至少一个基分类器而得到的;
利用所述基分类器组合及其包括的基分类器被赋予的权值,对所述验证数据集中的数据进行预测,并根据预测结果计算每个所述基分类器组合的评分。


3.根据权利要求1所述的方法,其中,所述演化算法采用遗传算法、遗传规划、进化策略和进化规划中的至少一种。


4.根据权利要求1所述的方法,其中,所述训练数据集和验证数据集中的数据均带有分类标记。


5.根据权利要求1所述的方法,其中,所述基分类器包括逻辑回归模型、支持向量机模型、决策树模型、梯度下降决策树模型、随机森林模型、神经网络模型中的至少一种。


6.根据权利要求1-5任一项所述的方法,其中,所述方法用于对用户性质进行分类;所述训练数据集和验证数据集中包括用户基本信息、用户动态信息和用户关系信息中的至少一种;所述用户基本信息中包括性别、年龄、学历中的至少一种,所述用户动态信息中包括用户在预定期间内的浏览记录和消费记录中的至少一种,所述用户关系信息包括好友数量和好友的基本信息中的至少一种,所述用户的好友的基本信息中包括该好友的性别、年龄、学历中的至少一种。


7.一种选择性集成异质模型的实体对象分类装置,包括:
获取模块,用于获取训练数据集和验证数据集;所述训练数据集和验证数据集包括实体对象数据;
训练模块,用于利用所述训练数据...

【专利技术属性】
技术研发人员:张雅淋
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1