【技术实现步骤摘要】
域名分类方法、设备及计算机可读存储介质
本专利技术涉及机器学习
,尤其涉及一种域名分类方法、设备及计算机可读存储介质。
技术介绍
域名分类是将域名分配给一个或多个预定义类别的过程,在内容推荐、特定主题的网络分析、上下文搜索优化中起着重要作用。根据类别标签的不同,域名分类问题可以分为域名主题分类,域名功能类型分类等不同问题。域名功能类型可以看作是域名所提供给用户的功能标签,例如在线购物,新闻媒体,政府组织,资源下载和搜索引擎等,在线购物网站的目的是为用户提供搜索产品的界面并允许用户在线购物和付款。现有的面向功能类型的域名分类方法通常以特征工程为核心,依赖于不同类型的特征,对域名所属类型之间包含的关系揭示不足,难以发现域名不同类型之间关系,从而导致了域名分类的准确度不高的技术问题。
技术实现思路
本专利技术的主要目的在于提供一种域名分类方法、设备及计算机可读存储介质,旨在解决现有的域名分类方法的域名分类准确度不高的技术问题。为实现上述目的,本专利技术提供一种域名分类方法,所述域名分类方法包括:获取待分类域名,提取所述待分类域名的页面标签特征;将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计 ...
【技术保护点】
1.一种域名分类方法,其特征在于,所述域名分类方法包括:/n获取待分类域名,提取所述待分类域名的页面标签特征;/n将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;/n基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;/n利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。/n
【技术特征摘要】
1.一种域名分类方法,其特征在于,所述域名分类方法包括:
获取待分类域名,提取所述待分类域名的页面标签特征;
将所述页面标签特征输入预训练的具有递归正则化功能的目标域名分类模型,其中,所述目标域名分类模型中已定义具有层次结构的域名类别体系;
基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系;
利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计,以基于模型参数估计后的域名分类模型得到所述待分类域名的目标分类标签。
2.如权利要求1所述的域名分类方法,其特征在于,所述基于所述目标域名分类模型,分析所述页面标签特征相关的若干域名类型对应在所述域名类别体系上的层次依赖关系的步骤包括:
使用所述目标域名分类模型中的凸损失函数对若干所述域名类型进行层次分类,以得到所述层次依赖关系。
3.如权利要求2所述的域名分类方法,其特征在于,所述利用所述层级依赖关系并结合正则化的递归结构进行模型参数估计的步骤包括:
基于所述目标域名分类模型中的递归正则化方式,将所述层次依赖关系融入模型参数的正则化结构中;
基于所述目标域名分类模型中的凸损失函数、调节参数以及所述正则化结构进行模型参数估计。
4.如权利要求1所述的域名分类方法,其特征在于,所述获取待分类域名的步骤之前,还包括:
爬取指定网站中的域名分页列表,遍历所述域名分页列表中每一域名分页获取样本域名地址、样本域名类型与样本域名描述信息,以作为域名样本信息;
根据所述样本域名地址与所述样本域名类型,将域名类型划分为大类与亚类两个层次,以定义所述域名类别体系;
根据所述域名类别体系将所述域名样本信息构建为域名分类数据集,并基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型,其中,所述目标域名分类模型包括输入层、嵌入层、编码层和输出层。
5.如权利要求4所述的域名分类方法,其特征在于,所述基于神经网络模型架构对所述域名分类数据集进行训练,得到所述目标域名分类模型的步骤包括:
将所述域名分类数据集按照预设比例随机切分为训练集、验证集和测试集;
对所述训练集进行训练,得到初始域名分类模型;
利用所述验证集验证所述初始域名分类模型是否过拟合;
若是,则判断所述初始域名分类模型在所述验证集上的正确率是否满足预...
【专利技术属性】
技术研发人员:张伟哲,董国忠,张宾,乔延臣,艾建文,谭帅帅,霍鹏磊,
申请(专利权)人:鹏城实验室,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。