当前位置: 首页 > 专利查询>鹏城实验室专利>正文

域名分类方法、设备及计算机可读存储介质技术

技术编号:29156739 阅读:14 留言:0更新日期:2021-07-06 22:56
本发明专利技术公开了一种域名分类方法、设备及计算机可读存储介质,所述域名分类方法通过直接提取待分类域名的页面标签特征来作为模型的输入,从而减少了特征工程的复杂性;通过预先在模型中定义具有层次结构的域名类别体系,使得能够基于此挖掘待分类域名所属域名类型之间的层次依赖关系,使得此层次依赖关系能够得到利用;通过在模型中添加递归正则化方法,使得层次依赖关系能够融入到模型参数的正则化结构中;通过利用层级依赖关系与正则化的递归结构进行模型参数估计,使得层次中临近域名类型的参数相似,有助于在估计模型参数时利用域名层次中相近类型的信息,从而提高了域名分类方法的准确度。

【技术实现步骤摘要】
域名分类方法、设备及计算机可读存储介质
本专利技术涉及机器学习
,尤其涉及一种域名分类方法、设备及计算机可读存储介质。
技术介绍
域名分类是将域名分配给一个或多个预定义类别的过程,在内容推荐、特定主题的网络分析、上下文搜索优化中起着重要作用。根据类别标签的不同,域名分类问题可以分为域名主题分类,域名功能类型分类等不同问题。域名功能类型可以看作是域名所提供给用户的功能标签,例如在线购物,新闻媒体,政府组织,资源下载和搜索引擎等,在线购物网站的目的是为用户提供搜索产品的界面并允许用户在线购物和付款。现有的面向功能类型的域名分类方法通常以特征工程为核心,依赖于不同类型的特征,对域名所属类型之间包含的关系揭示不足,难以发现域名不同类型之间关系,从而导致了域名分类的准确度不高的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种域名分类方法、设备及计算机可读存储介质,旨在解决现有的域名分类方法的域名分类准确度不高的技术问题。为实现上述目的,本专利技术提供一种域名分类方法,所述域名分类方法包括:获取待分类域名,提取所述待分类域名的页面标签特征;将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。可选地,所述基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系的步骤包括:使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。可选地,所述利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计的步骤包括:基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。可选地,所述获取待分类域名的步骤之前,还包括:爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。可选地,所述基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型的步骤包括:将所述域名分类数据集按照预设比例随机切分为训练集、验证集和测试集;对所述训练集进行训练,得到初始域名分类模型;利用所述验证集验证所述初始域名分类模型是否过拟合;若是,则判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准;若是,则判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准;若是,则将所述初始域名分类模型作为所述目标域名分类模型。可选地,所述利用所述验证集验证所述初始域名分类模型是否过拟合的步骤之后,还包括:若否,则继续对所述初始域名分类模型进行训练;所述判断所述初始域名分类模型在所述验证集上的正确率是否满足预设第一标准的步骤之后,还包括:若否,则调整所述初始域名分类模型的模型参数,并重新训练模型参数调整后的初始域名分类模型;所述判断所述初始域名分类模型在所述测试集上的正确率是否满足预设第二标准的步骤之后,还包括:若否,则对所述域名分类数据集进行重划分,以基于重划分后的域名分类数据集进行模型训练。可选地,所述对所述训练集进行训练,得到初始域名分类模型的步骤包括:在所述输入层,将所述样本域名与所述样本域名描述信息转换为特定形式的输入文本序列,以将所述输入文本序列输入所述嵌入层;在所述嵌入层,对所述输入文本序列进行词嵌入得到词嵌入结果,以将所述词嵌入结果输入所述编码层;在所述编码层,利用预设词袋模型捕获所述词嵌入结果的局部上下文信息,以供预设线性分类器基于所述局部上下文信息得到初始分类结果,将所述初始分类结果输入所述输出层;在所述输出层,基于所述初始分类结果进行模型参数估计,以得到所述初始域名分类模型。可选地,所述获取待分类域名,提取所述待分类域名的页面标签特征的步骤包括:利用爬虫技术模拟访问所述待分类域名,提取所述待分类域名的首页源代码中meta标签的标题信息与描述信息;将所述标题信息与描述信息拼接成所述待分类域名的meta标签特征,以作为所述页面标签特征。此外,为实现上述目的,本专利技术还提供一种域名分类装置,所述域名分类装置包括:标签特征提取模块,用于获取待分类域名,提取所述待分类域名的页面标签特征;标签特征输入模块,用于将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;层次关系分析模块,用于基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;目标标签获取模块,用于利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。可选地,所述层次关系分析模块包括:层次分类单元,用于使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。可选地,所述目标标签获取模块包括:递归正则化单元,用于基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。可选地,所述域名分类装置还包括:样本信息爬取模块,用于爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;类型层次划分模块,用于根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;目标模型训练模块,用于根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。可选地,所述目标模型训练模块还包括:数据划分单元,用于将所述域名本文档来自技高网...

【技术保护点】
1.一种域名分类方法,其特征在于,所述域名分类方法包括:/n获取待分类域名,提取所述待分类域名的页面标签特征;/n将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;/n基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;/n利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。/n

【技术特征摘要】
1.一种域名分类方法,其特征在于,所述域名分类方法包括:
获取待分类域名,提取所述待分类域名的页面标签特征;
将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;
基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;
利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。


2.如权利要求1所述的域名分类方法,其特征在于,所述基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系的步骤包括:
使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。


3.如权利要求2所述的域名分类方法,其特征在于,所述利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计的步骤包括:
基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;
基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。


4.如权利要求1所述的域名分类方法,其特征在于,所述获取待分类域名的步骤之前,还包括:
爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;
根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;
根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。


5.如权利要求4所述的域名分类方法,其特征在于,所述基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型的步骤包括:
将所述域名分类数据集按照预设比例随机切分为训练集、验证集和测试集;
对所述训练集进行训练,得到初始域名分类模型;
利用所述验证集验证所述初始域名分类模型是否过拟合;
若是,则判断所述初始域名分类模型在所述验证集上的正确率是否满足预...

【专利技术属性】
技术研发人员:张伟哲董国忠张宾乔延臣艾建文谭帅帅霍鹏磊
申请(专利权)人:鹏城实验室
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1