网址分类模型的生成方法、装置、计算设备及存储介质制造方法及图纸

技术编号:39275279 阅读:11 留言:0更新日期:2023-11-07 10:52
本发明专利技术公开了一种网址分类模型的生成方法、装置、计算设备及存储介质。方法包括:获取多个第一时间窗口的网址数据,根据该第一时间窗口的网址数据生成第一时间窗口的源域样本及训练好的第一网址分类模型;获取第二时间窗口的网址数据,根据第二时间窗口的网址数据生成第二时间窗口的目标域样本;计算第一时间窗口的源域样本与目标域样本的数据分布关联度,根据数据分布关联度确定第一时间窗口对应的权重;根据权重及训练好的第一网址分类模型,生成第二时间窗口对应的第二网址分类模型。采用本方案,能够提升第二网址分类模型的生成效率以及分类精度,并且生成的第二网址分类模型能够适配不同的数据分布,具有较高的稳定性及泛化性。泛化性。泛化性。

【技术实现步骤摘要】
网址分类模型的生成方法、装置、计算设备及存储介质


[0001]本专利技术涉及网络
,具体涉及一种网址分类模型的生成方法、装置、计算设备及存储介质。

技术介绍

[0002]随着网络技术的飞速发展,对网址分类的需求也日益增加。其中,基于机器学习的网址分类模型能够有效地实现网址分类,从而被广泛地应用于网址分类场景中。
[0003]然而,专利技术人在实施过程中发现,现有技术中存在如下缺陷:现有技术通常是通过统一的网址分类模型来对不同时段采集的网址进行分类,该种方式对网址的分类精度低,无法对不同数据分布的网址进行精准分类。

技术实现思路

[0004]鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的网址分类模型的生成方法、装置、计算设备及存储介质。
[0005]根据本专利技术的一个方面,提供了一种网址分类模型的生成方法,包括:
[0006]针对于多个第一时间窗口中的任一第一时间窗口,获取该第一时间窗口的网址数据,并根据该第一时间窗口的网址数据生成该第一时间窗口的源域样本以及获得该第一时间窗口对应的训练好的第一网址分类模型;
[0007]获取第二时间窗口的网址数据,并根据第二时间窗口的网址数据生成第二时间窗口的目标域样本;
[0008]分别计算各个第一时间窗口的源域样本与目标域样本的数据分布关联度,并根据所述数据分布关联度确定各个第一时间窗口对应的权重;
[0009]根据所述权重以及各个训练好的第一网址分类模型,生成第二时间窗口对应的第二网址分类模型。
[0010]在一种可选的实施方式中,所述获得该第一时间窗口对应的训练好的第一网址分类模型进一步包括:
[0011]构建第一网址分类模型的多个基分类器;
[0012]对所述多个基分类器进行训练,并获得训练好的基分类器;
[0013]对多个训练好的基分类器进行融合训练,以确定出各个训练好的基分类器的权重;
[0014]根据各个训练好的基分类器以及所述基分类器的权重,获得所述训练好的第一网址分类模型。
[0015]在一种可选的实施方式中,所述根据该第一时间窗口的网址数据生成该第一时间窗口的源域样本进一步包括:
[0016]根据该第一时间窗口的网址数据生成该第一时间窗口的候选源域样本,并将候选源域样本放置于源域样本集合中;
[0017]从源域样本集合中取出任一候选源域样本,利用该候选源域样本对所述多个基分类器进行训练,并获得多个基分类器针对该候选源域样本的分类结果;
[0018]根据多个基分类器针对该候选源域样本的分类结果,计算该候选源域样本的置信度;
[0019]判断该候选源域样本的置信度是否大于预设置信度阈值;若是,则将该候选源域样本放回源域样本集合中;若否,则剔除该候选源域样本;
[0020]将多个基分类器训练结束后源域样本集合中的候选源域样本作为该第一时间窗口的源域样本。
[0021]在一种可选的实施方式中,所述根据多个基分类器针对该候选源域样本的分类结果,计算该候选源域样本的置信度进一步包括:
[0022]计算多个基分类器针对该候选源域样本的分类结果的相似度,根据所述相似度确定该候选源域样本的置信度。
[0023]在一种可选的实施方式中,所述对多个训练好的基分类器进行融合训练进一步包括:
[0024]将该第一时间窗口的源域样本与目标域样本合并为该第一时间窗口的混合样本;
[0025]利用该第一时间窗口的混合样本对多个训练好的基分类器进行融合训练。
[0026]在一种可选的实施方式中,所述多个基分类器所采用的机器学习算法不同。
[0027]在一种可选的实施方式中,所述分别计算各个第一时间窗口的源域样本与目标域样本的数据分布关联度进一步包括:
[0028]针对于任一第一时间窗口,计算该第一时间窗口的源域样本集合与目标域样本集合的互信息,并基于所述互信息计算平均互信息;
[0029]根据所述平均互信息确定该第一时间窗口的源域样本与目标域样本的数据分布关联度。
[0030]根据本专利技术的另一方面,提供了一种网址分类模型的生成装置,包括:
[0031]获取模块,用于针对于多个第一时间窗口中的任一第一时间窗口,获取该第一时间窗口的网址数据;以及获取第二时间窗口的网址数据;
[0032]样本生成模块,用于根据该第一时间窗口的网址数据生成该第一时间窗口的源域样本;以及根据第二时间窗口的网址数据生成第二时间窗口的目标域样本;
[0033]第一模型生成模块,用于获得该第一时间窗口对应的训练好的第一网址分类模型;
[0034]权重计算模块,用于分别计算各个第一时间窗口的源域样本与目标域样本的数据分布关联度,并根据所述数据分布关联度确定各个第一时间窗口对应的权重;
[0035]第二模型生成模块,用于根据所述权重以及各个训练好的第一网址分类模型,生成第二时间窗口对应的第二网址分类模型。
[0036]在一种可选的实施方式中,第一模型生成模块用于:构建第一网址分类模型的多个基分类器;
[0037]对所述多个基分类器进行训练,并获得训练好的基分类器;
[0038]对多个训练好的基分类器进行融合训练,以确定出各个训练好的基分类器的权重;
[0039]根据各个训练好的基分类器以及所述基分类器的权重,获得所述训练好的第一网址分类模型。
[0040]在一种可选的实施方式中,样本生成模块用于:根据该第一时间窗口的网址数据生成该第一时间窗口的候选源域样本,并将候选源域样本放置于源域样本集合中;
[0041]从源域样本集合中取出任一候选源域样本,利用该候选源域样本对所述多个基分类器进行训练,并获得多个基分类器针对该候选源域样本的分类结果;
[0042]根据多个基分类器针对该候选源域样本的分类结果,计算该候选源域样本的置信度;
[0043]判断该候选源域样本的置信度是否大于预设置信度阈值;若是,则将该候选源域样本放回源域样本集合中;若否,则剔除该候选源域样本;
[0044]将多个基分类器训练结束后源域样本集合中的候选源域样本作为该第一时间窗口的源域样本。
[0045]在一种可选的实施方式中,第一模型生成模块用于:计算多个基分类器针对该候选源域样本的分类结果的相似度,根据所述相似度确定该候选源域样本的置信度。
[0046]在一种可选的实施方式中,第一模型生成模块用于:将该第一时间窗口的源域样本与目标域样本合并为该第一时间窗口的混合样本;
[0047]利用该第一时间窗口的混合样本对多个训练好的基分类器进行融合训练。
[0048]在一种可选的实施方式中,所述多个基分类器所采用的机器学习算法不同。
[0049]在一种可选的实施方式中,权重计算模块用于:针对于任一第一时间窗口,计算该第一时间窗口的源域样本集合与目标域样本集合的互信息,并基于所述互信息计算平均互信息;...

【技术保护点】

【技术特征摘要】
1.一种网址分类模型的生成方法,其特征在于,包括:针对于多个第一时间窗口中的任一第一时间窗口,获取该第一时间窗口的网址数据,并根据该第一时间窗口的网址数据生成该第一时间窗口的源域样本以及获得该第一时间窗口对应的训练好的第一网址分类模型;获取第二时间窗口的网址数据,并根据第二时间窗口的网址数据生成第二时间窗口的目标域样本;分别计算各个第一时间窗口的源域样本与目标域样本的数据分布关联度,并根据所述数据分布关联度确定各个第一时间窗口对应的权重;根据所述权重以及各个训练好的第一网址分类模型,生成第二时间窗口对应的第二网址分类模型。2.根据权利要求1所述的方法,其特征在于,所述获得该第一时间窗口对应的训练好的第一网址分类模型进一步包括:构建第一网址分类模型的多个基分类器;对所述多个基分类器进行训练,并获得训练好的基分类器;对多个训练好的基分类器进行融合训练,以确定出各个训练好的基分类器的权重;根据各个训练好的基分类器以及所述基分类器的权重,获得所述训练好的第一网址分类模型。3.根据权利要求2所述的方法,其特征在于,所述根据该第一时间窗口的网址数据生成该第一时间窗口的源域样本进一步包括:根据该第一时间窗口的网址数据生成该第一时间窗口的候选源域样本,并将候选源域样本放置于源域样本集合中;从源域样本集合中取出任一候选源域样本,利用该候选源域样本对所述多个基分类器进行训练,并获得多个基分类器针对该候选源域样本的分类结果;根据多个基分类器针对该候选源域样本的分类结果,计算该候选源域样本的置信度;判断该候选源域样本的置信度是否大于预设置信度阈值;若是,则将该候选源域样本放回源域样本集合中;若否,则剔除该候选源域样本;将多个基分类器训练结束后源域样本集合中的候选源域样本作为该第一时间窗口的源域样本。4.根据权利要求3所述的方法,其特征在于,所述根据多个基分类器针对该候选源域样本的分类结果,计算该候选源域样本的置信度进一步包括:计算多个基分类器针对该候选源域样本的分类结果的相似度,根据所述相似度确定该候选源域样本的置信度。5.根据权利要求2

4中任一项所述的方法,其特征在于...

【专利技术属性】
技术研发人员:胡泽远罗琼李海传蒋健
申请(专利权)人:中国移动浙江创新研究院有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1