一种URL的聚类方法及装置制造方法及图纸

技术编号:14383466 阅读:83 留言:0更新日期:2017-01-10 10:49
一种URL的聚类方法及装置,所述方法包括:获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。上述方案可提升网络系统资源的利用率。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别是涉及一种URL的聚类方法及装置
技术介绍
互联网技术飞速发展,每天都会产生海量的访问请求,相应地,所访问的统一资源定位符(UniformResourceLocator,URL)数量也较多。海量URL是数据挖掘、大数据分析的重要数据来源,基于对海量URL数据的分析结果,可以预测用户对不用类型的URL的点击率,从而可以选择性的对用户进行内容推荐。现有技术中,由于URL数量过大,常常对URL进行聚类以进行大数据分析、内容推荐等。理想情况下,同一类URL的相似性较高,对其统计分析得到的用户点击率接近,因而可以对不用类别的URL所针对的页面做出不同的推送选择。然而,现有技术的聚类得到的多个类别的划分准确度较差,对推荐内容(例如新闻、广告等)的推送指导作用有待提升。具体表现为聚类后得到的多个类别之间,在点击率等推荐内容推送的预测指标上区分度不高,从而较难有效地指导推荐内容的推送,进而引起推荐内容与用户偏好不符可能性较大,导致用户需要再次对网络资源进行访问搜索,从而占用了更多的网络系统资源比如带宽资源。
技术实现思路
本专利技术解决的技术问题是提供一种URL数据的聚类方法及装置,以提高聚类的准确度,有利于提升网络系统资源的利用率。为解决上述技术问题,本专利技术实施例提供一种URL数据的聚类方法,所述方法包括:获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。可选地,所述分别对每个域名下的URL进行分割处理之前,还包括:对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。可选地,所述冗余信息包括数字和搜索词。可选地,所述URL聚类方法,还包括:对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。可选地,所述分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段,包括:对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。可选地,所述针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果,包括:对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。可选地,所述将每个域名下的每条URL映射成长度为K的一维向量,包括:针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。可选地,所述在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量,包括:对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;采用公式vec[i]=(N-P)/logX计算所述一维向量中的第i列的向量值;其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序列中的位置计数。本专利技术实施例还提供一种URL的聚类装置,所述装置包括:获取单元,适于获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;热门字段获取单元,适于分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;第一聚类单元,适于针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;第二聚类单元,适于针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。可选地,所述URL的聚类装置,还包括:降维单元,适于对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。可选地,所述冗余信息包括数字和搜索词。可选地,所述URL的聚类装置,还包括:聚类结果调整单元,适于对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。可选地,所述热门字段获取单元包括:分割子单元,适于对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;统计子单元,适于统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。可选地,所述第二聚类单元包括:总字符串序列获取子单元,适于对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;矩阵获取子单元,适于分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;第二聚类结果获取子单元,适于将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。可选地,所述矩阵获取子单元包括:全零向量获取模块,适于针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;当前字符串序列获取模块,适于根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;出现频次统计模块,适于对于所述当前URL被分割处理后得到的每个字符串,统计其在所述U本文档来自技高网...
一种URL的聚类方法及装置

【技术保护点】
一种URL的聚类方法,其特征在于,包括:获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。

【技术特征摘要】
1.一种URL的聚类方法,其特征在于,包括:获取URL数据集,所述URL数据集包括多条URL,所述多条URL隶属于至少一个域名;分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段;针对每个域名下的URL,对包括该域名对应的热门字段的URL,根据该域名对应的热门字段进行聚类,得到每个域名对应的第一聚类结果;针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果。2.根据权利要求1所述的URL的聚类方法,其特征在于,分别对每个域名下的URL进行分割处理之前,还包括:对所述URL数据集中的多条URL进行降维,以去除符合预设格式的冗余信息。3.根据权利要求2所述的URL的聚类方法,其特征在于,所述冗余信息包括数字和搜索词。4.根据权利要求1所述的URL的聚类方法,其特征在于,还包括:对于所述第一聚类结果和所述第二聚类结果,将其中URL数量超过第一预设阈值的聚类类别进行拆分,并将其中URL数量小于第二预设阈值的聚类类别进行合并,所述第一预设阈值大于所述第二预设阈值。5.根据权利要求1所述的URL的聚类方法,其特征在于,所述分别对每个域名下的URL进行分割处理,并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段,包括:对每个域名下的每条URL,按照字符“/”进行分割,并去除其中表示主机名的字符串;统计每个域名下的URL被分割后得到的字符串的出现次数,并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段,其中,M为大于或等于0的整数。6.根据权利要求1所述的URL的聚类方法,其特征在于,所述针对每个域名下的URL,对不包括该域名对应的热门字段的URL进行聚类,得到每个域名对应的第二聚类结果,包括:对所述多条URL进行分割处理后得到的字符串去重,以得到总字符串序列,所述总字符串序列包含K个依序排列的字符串;分别将每个域名下的每条URL映射成长度为K的一维向量,以得到每个域名对应的矩阵,所述矩阵的大小为S*K,其中,S为每个域名下的URL的数量;将每个域名下的URL的数量的均方根值作为聚类数,并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类,以得到每个域名对应的第二聚类结果。7.根据权利要求6所述的URL的聚类方法,其特征在于,所述将每个域名下的每条URL映射成长度为K的一维向量,包括:针对当前URL,生成长度为K的全零一维向量,所述当前URL为所述多条URL中的任一个;根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置,所述当前字符串序列包含N个字符串;对于所述当前URL被分割处理后得到的每个字符串,统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次;在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量。8.根据权利要求7所述的URL的聚类方法,其特征在于,所述在所述全零一维向量的基础上,根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置,将所述当前URL映射成长度为K的一维向量,包括:对于所述当前URL被分割处理后得到的每个字符串,确定其在总字符串序列中的位置计数i,i大于等于1且小于等于K;采用公式vec[i]=(N-P)/logX计算所述一维向量中的第i列的向量值;其中,vec[i]为第i列的向量值,X为所述字符串的出现频次,P为所述字符串在所述当前字符串序...

【专利技术属性】
技术研发人员:汤奇峰方炜超
申请(专利权)人:晶赞广告上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1