网址分类方法、装置、计算模块及计算机存储介质制造方法及图纸

技术编号:39257628 阅读:9 留言:0更新日期:2023-10-30 12:09
本发明专利技术公开了一种网址分类方法、装置、计算模块及计算机存储介质,方法包括:获取样本网址数据;根据多个第一样本网址数据、第一样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个初始网址分类模型;利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签;根据多个第一样本网址数据、第一样本网址分类标签、多个第二样本网址数据、第二样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个目标网址分类模型;获取待预测网址数据,利用n个目标网址分类模型对待预测网址数据进行网址分类预测,得到网址分类标签,该方案简单、高效、成本低。低。低。

【技术实现步骤摘要】
网址分类方法、装置、计算模块及计算机存储介质


[0001]本专利技术涉及计算机
,具体涉及一种网址分类方法、装置、计算模块及计算机存储介质。

技术介绍

[0002]网址通常指互联网中的网页的地址。用户通过终端浏览网页时,终端中的浏览器等应用程序根据网址跳转到相应的网页。随着互联网的快速发展以及网民数量的不断攀升,用户对网址的访问行为产生了海量的数据,因此对海量网址进行精准可控的智能化管理的需求日益增多,其中的一项需求就是用算法和模型对海量网址进行精准的自动分类,这在网络安全场景和互联网营销场景中都有着广泛的应用。在相关技术中,服务器对网址进行分类时,通常爬取网址对应的网页的页面内容,并根据页面内容来判断当前的网址类别。目前业界先进的网址自动分类技术方案如下:
[0003]方案一:基于全监督学习的机器学习或深度学习。
[0004]该方案可以通过手动获取并构建特征,通过机器学习模型(如LR,SVM,NB,KNNN,GBDT等)进行训练和预测;或者无需手动构建特征,而是利用深度学习模型(如TextCNN,DPCNN,FastText,TextRCNN等)的网络结构进行训练和预测。
[0005]然而,现有方案一的缺点如下:(1)具有较大的主观性和局限性,往往是片面或冗余的,最终表现为模型可控性低,场景适用范围小,开发细节繁琐。(2)模型性能严重依赖特征工程和网络结构的设计,且在一般情况下不如预训练模型。
[0006]方案二:基于Pre

train,Fine

tune范式的模型。
[0007]该方案基于预训练模型(如BERT,XLNet,ERNIE,ALBERT,RoBERTa,BART,T5等)并将其应用到下游任务上,在预训练阶段和微调阶段根据下游任务设计训练对象并对预训练模型本体的部分参数进行调整。
[0008]现有方案二的缺点如下:(1)下游任务种类繁多,每个下游任务都需要对其参数进行微调,使得预训练和微调阶段的设计变得繁琐复杂。(2)预训练模型的体量一般较大,对其进行fine

tune的硬件要求、数据需求和实际代价较高。
[0009]综上所述,现有方案在网址自动分类领域存在步骤繁琐、实际代价高等问题。

技术实现思路

[0010]鉴于上述问题,提出了本专利技术实施例以便提供一种克服上述问题或者至少部分地解决上述问题的网址分类方法、装置、计算模块及计算机存储介质。
[0011]根据本专利技术实施例的一个方面,提供了一种网址分类方法,包括:
[0012]获取样本网址数据,其中,样本网址数据包括:多个第一样本网址数据及第一样本网址数据对应的第一样本网址分类标签、多个无标注网址分类标签的第二样本网址数据;
[0013]根据多个第一样本网址数据、第一样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个初始网址分类模型,其中,每个网址分类提示模板对
应一个初始网址分类模型;
[0014]利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签;
[0015]根据多个第一样本网址数据、第一样本网址分类标签、多个第二样本网址数据、第二样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个目标网址分类模型;
[0016]获取待预测网址数据,利用n个目标网址分类模型对待预测网址数据进行网址分类预测,得到待预测网址数据对应的网址分类标签。
[0017]根据本专利技术实施例的另一方面,提供了一种网址分类装置,包括:
[0018]获取模块,适于获取样本网址数据,其中,样本网址数据包括:多个第一样本网址数据及第一样本网址数据对应的第一样本网址分类标签、多个无标注网址分类标签的第二样本网址数据;
[0019]第一训练模块,适于根据多个第一样本网址数据、第一样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个初始网址分类模型,其中,每个网址分类提示模板对应一个初始网址分类模型;
[0020]第一预测模块,适于利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签;
[0021]第二训练模块,适于根据多个第一样本网址数据、第一样本网址分类标签、多个第二样本网址数据、第二样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个目标网址分类模型;
[0022]第二预测模块,适于获取待预测网址数据,利用n个目标网址分类模型对待预测网址数据进行网址分类预测,得到待预测网址数据对应的网址分类标签。
[0023]根据本专利技术实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
[0024]存储器用于存放至少一可执行指令,可执行指令使处理器执行上述网址分类方法对应的操作。
[0025]根据本专利技术实施例的再一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述网址分类方法对应的操作。
[0026]根据本专利技术上述实施例提供的方案,该方案简单、高效、成本低,预训练模型,相比传统的机器学习、深度学习网址分类模型的性能上准确率更高;采用基于Prompt范式的预训练,省略了fine

tune模型的步骤,大大降低了模型训练的成本;该方法减少了模型训练和测试阶段之间的gap,在网址分类识别的小样本场景下很有效。
[0027]上述说明仅是本专利技术实施例技术方案的概述,为了能够更清楚了解本专利技术实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术实施例的具体实施方式。
附图说明
[0028]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术
实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0029]图1示出了本专利技术实施例提供的网址分类方法流程图;
[0030]图2示出了本专利技术实施例提供的网址分类装置的结构示意图;
[0031]图3示出了本专利技术实施例提供的计算设备的结构示意图。
具体实施方式
[0032]下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。
[0033]在以往的“pretrain,fine

tune”范式中,预训练的时候使用的掩码语言模型任务就是一个完型填空任务,在分类任本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网址分类方法,包括:获取样本网址数据,其中,所述样本网址数据包括:多个第一样本网址数据及所述第一样本网址数据对应的第一样本网址分类标签、多个无标注网址分类标签的第二样本网址数据;根据多个第一样本网址数据、第一样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个初始网址分类模型,其中,每个网址分类提示模板对应一个初始网址分类模型;利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签;根据多个第一样本网址数据、所述第一样本网址分类标签、多个第二样本网址数据、第二样本网址分类标签、预构造的n个网址分类提示模板进行网址分类模型训练,得到n个目标网址分类模型;获取待预测网址数据,利用所述n个目标网址分类模型对所述待预测网址数据进行网址分类预测,得到所述待预测网址数据对应的网址分类标签。2.根据权利要求1所述的方法,其中,所述利用n个初始网址分类模型对第二样本网址数据进行网址分类预测,得到第二样本网址分类标签进一步包括:针对每个第二样本网址数据,分别利用n个初始网址分类模型进行网址分类预测,得到n个网址分类预测结果;对所述n个网址分类预测结果进行加权处理,得到加权结果;利用预设温度系数的归一化方法对加权结果进行归一化处理,得到第二样本网址分类标签。3.根据权利要求1或2所述的方法,其中,所述利用所述n个目标网址分类模型对所述待预测网址数据进行网址分类预测,得到所述待预测网址数据对应的网址分类标签进一步包括:针对待预测网址数据,分别利用n个目标网址分类模型进行网址分类预测,得到n个网址分类预测结果;对所述n个网址分类预测结果进行加权处理,得到加权结果;利用预设温度系数的归一化方法对加权结果进行归一化处理,得到所述待预测网址数据对应的网址分类标签。4.根据权利要求1或2所述的方法,其中,在获取样本网址数据之后,所述方法还包括:对所述样本网址数据进行数据清洗处理,得到清洗后的样本网址数据。5.一种网址分类装置,包括:获取模块,适于获取样本网址数据,其中,所述样本网址数据包括:多个第一样本网址数据及所述第一样本网址数据对应的第一样本网址分类标签、多个无标注网址分类标签的第二样本网址...

【专利技术属性】
技术研发人员:胡泽远罗琼李海传蒋健
申请(专利权)人:中国移动浙江创新研究院有限公司中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1