【技术实现步骤摘要】
网页识别模型训练方法、网页识别方法、装置及设备
[0001]本申请涉及互联网安全
,尤其涉及一种网页识别模型训练方法、网页识别方法、装置及设备。
技术介绍
[0002]随着互联网技术的不断发展,网络对人们生活至关重要。网络空间中存在各种各样的网页。其中,不良网页容易对用户造成经济损失。因此,需要识别网络空间中的不良网页,进而对不良网页进行处理。
[0003]目前,可通过识别网页链接地址来识别网页是否为不良网页。但是,网页的链接地址可以随意改变,使得通过网页链接地址识别不良网页的可靠性低。
技术实现思路
[0004]为了解决上述技术问题,本申请提供了一种网页识别模型训练方法、网页识别方法、装置及设备,用于通过网页识别模型更加准确地识别网页种类。
[0005]为了实现上述目的,本申请实施例提供的技术方案如下:
[0006]本申请实施例提供了一种网页识别模型训练方法,所述方法包括:
[0007]获取所述网页中的网页文本数据;所述网页的类别包括不良网页和/或非不良网页;
...
【技术保护点】
【技术特征摘要】
1.一种网页识别模型训练方法,其特征在于,所述方法包括:获取所述网页中的网页文本数据;所述网页的类别包括不良网页和/或非不良网页;对所述网页文本数据进行文本特征提取,获取所述网页文本数据对应的训练文本特征向量;所述网页文本数据对应有网页类别标签;根据所述训练文本特征向量和所述网页文本数据对应的网页类别标签对网页识别模型进行训练,获取训练完成的所述网页识别模型;所述网页识别模型用于识别所述网页的类别;所述网页识别模型采用机器学习算法实现。2.根据权利要求1所述的方法,其特征在于,所述根据所述训练文本特征向量和所述训练文本特征向量对应的网页类别标签对网页识别模型进行训练,获取训练完成的所述网页识别模型,包括:将所述训练文本特征向量输入到所述网页识别模型中,获取所述网页识别模型输出的所述网页文本数据对应的各个网页类别概率;比较各个所述网页类别概率,将所述网页类别概率最大的网页类别作为所述网页文本数据对应的预测网页类别;根据所述网页文本数据对应的预测网页类别和所述网页文本数据对应的网页类别标签,对所述网页识别模型进行训练,获取训练完成的所述网页识别模型。3.根据权利要求1所述的方法,其特征在于,所述对所述网页文本数据进行文本特征提取,获取所述网页文本数据对应的训练文本特征向量,包括:对所述网页文本数据进行分词处理,获取分词处理后的网页文本数据;基于N
‑
Gram语言模型对所述分词处理后的网页文本数据进行模型处理,获取模型处理后的网页文本数据;基于词频
‑
逆文档词频模型对所述模型处理后的网页文本数据进行文本特征提取,获取所述网页文本数据对应的训练文本特征向量。4.根据权利要求3所述的方法,其特征在于,所述对所述网页文本数据进行分词处理,获取分词处理后的网页文本数据,包括:对所述网页文本数据进行文本清理,获取清理后的网页文本数据;对所述清理后的网页文本数据进行分词处理,获取分词处理后的网页文本数据。5.根据权利要求4所述的方法,其特征在于,所述对所述清理后的网页文本数据进行分词处理,获取分词处理后的网页文本数据,包括:设置停用词和自定义词;结合所述停用词和所述自定义词,对所述清理后的网页文本数据进行文本分词,获取分词处理后的网页文本数据。6.根据权利要求1
‑
5任一项所述的方法,其特征在于,所述方法还包括:获取网页文本测试数据;对所述网页文本测试数据进行文本特征提取,获取所述网页文本测试数据对应的测试文本特征向量;所述网页文本测试数据对应有网页类别标签;将所述测试文本特征向量输入到所述训练完成的网页识别模型中,获取所述网页识别模型输出的所述网页文本测试数据对应的各个网页类别概率;基于所述网页文本测试数据对应的各个网页类别概率,确定所述网页文本测试数据对
应的预测网页类别;根据所述网页文本测试数据对应的预测网页类别和所述网页文本测试数据对应的网页类别标签,对所述训练完成的网页识别模型进行评价。7.根据权利要求6所述的方法,其特征在于,所述根据所述网页文本测试数据对应的预测类别和所述网页文本测试数据对应的标签,对所述训练完...
【专利技术属性】
技术研发人员:张聪,张恒,杨磊,
申请(专利权)人:中国互联网络信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。