一种URL的聚类方法及装置制造方法及图纸

技术编号：14383466 阅读：83 留言：0更新日期：2017-01-10 10:49

一种URL的聚类方法及装置，所述方法包括：获取URL数据集，所述URL数据集包括多条URL，所述多条URL隶属于至少一个域名；分别对每个域名下的URL进行分割处理，并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段；针对每个域名下的URL，对包括该域名对应的热门字段的URL，根据该域名对应的热门字段进行聚类，得到每个域名对应的第一聚类结果；针对每个域名下的URL，对不包括该域名对应的热门字段的URL进行聚类，得到每个域名对应的第二聚类结果。上述方案可提升网络系统资源的利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及互联网
，特别是涉及一种URL的聚类方法及装置。
技术介绍
互联网技术飞速发展，每天都会产生海量的访问请求，相应地，所访问的统一资源定位符(UniformResourceLocator，URL)数量也较多。海量URL是数据挖掘、大数据分析的重要数据来源，基于对海量URL数据的分析结果，可以预测用户对不用类型的URL的点击率，从而可以选择性的对用户进行内容推荐。现有技术中，由于URL数量过大，常常对URL进行聚类以进行大数据分析、内容推荐等。理想情况下，同一类URL的相似性较高，对其统计分析得到的用户点击率接近，因而可以对不用类别的URL所针对的页面做出不同的推送选择。然而，现有技术的聚类得到的多个类别的划分准确度较差，对推荐内容(例如新闻、广告等)的推送指导作用有待提升。具体表现为聚类后得到的多个类别之间，在点击率等推荐内容推送的预测指标上区分度不高，从而较难有效地指导推荐内容的推送，进而引起推荐内容与用户偏好不符可能性较大，导致用户需要再次对网络资源进行访问搜索，从而占用了更多的网络系统资源比如带宽资源。
技术实现思路
本专利技术解决的技术问题是提供一种URL数据的聚类方法及装置，以提高聚类的准确度，有利于提升网络系统资源的利用率。为解决上述技术问题，本专利技术实施例提供一种URL数据的聚类方法，所述方法包括：获取URL数据集，所述URL数据集包括多条URL，所述多条URL隶属于至少一个域名；分别对每个域名下的URL进行分割处理，并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段；针对每个域名下的URL，对包括该域名对应的...
一种URL的聚类方法及装置

【技术保护点】
一种URL的聚类方法，其特征在于，包括：获取URL数据集，所述URL数据集包括多条URL，所述多条URL隶属于至少一个域名；分别对每个域名下的URL进行分割处理，并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段；针对每个域名下的URL，对包括该域名对应的热门字段的URL，根据该域名对应的热门字段进行聚类，得到每个域名对应的第一聚类结果；针对每个域名下的URL，对不包括该域名对应的热门字段的URL进行聚类，得到每个域名对应的第二聚类结果。

【技术特征摘要】
1.一种URL的聚类方法，其特征在于，包括：获取URL数据集，所述URL数据集包括多条URL，所述多条URL隶属于至少一个域名；分别对每个域名下的URL进行分割处理，并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段；针对每个域名下的URL，对包括该域名对应的热门字段的URL，根据该域名对应的热门字段进行聚类，得到每个域名对应的第一聚类结果；针对每个域名下的URL，对不包括该域名对应的热门字段的URL进行聚类，得到每个域名对应的第二聚类结果。2.根据权利要求1所述的URL的聚类方法，其特征在于，分别对每个域名下的URL进行分割处理之前，还包括：对所述URL数据集中的多条URL进行降维，以去除符合预设格式的冗余信息。3.根据权利要求2所述的URL的聚类方法，其特征在于，所述冗余信息包括数字和搜索词。4.根据权利要求1所述的URL的聚类方法，其特征在于，还包括：对于所述第一聚类结果和所述第二聚类结果，将其中URL数量超过第一预设阈值的聚类类别进行拆分，并将其中URL数量小于第二预设阈值的聚类类别进行合并，所述第一预设阈值大于所述第二预设阈值。5.根据权利要求1所述的URL的聚类方法，其特征在于，所述分别对每个域名下的URL进行分割处理，并根据分割处理得到的字段的统计结果确定每个域名对应的多个热门字段，包括：对每个域名下的每条URL，按照字符“/”进行分割，并去除其中表示主机名的字符串；统计每个域名下的URL被分割后得到的字符串的出现次数，并将出现次数大于次数阈值的字符串或按照出现次数排序的前M个字符串作为所述热门字段，其中，M为大于或等于0的整数。6.根据权利要求1所述的URL的聚类方法，其特征在于，所述针对每个域名下的URL，对不包括该域名对应的热门字段的URL进行聚类，得到每个域名对应的第二聚类结果，包括：对所述多条URL进行分割处理后得到的字符串去重，以得到总字符串序列，所述总字符串序列包含K个依序排列的字符串；分别将每个域名下的每条URL映射成长度为K的一维向量，以得到每个域名对应的矩阵，所述矩阵的大小为S*K，其中，S为每个域名下的URL的数量；将每个域名下的URL的数量的均方根值作为聚类数，并根据所述聚类数和所述矩阵采用Kmeans算法进行聚类，以得到每个域名对应的第二聚类结果。7.根据权利要求6所述的URL的聚类方法，其特征在于，所述将每个域名下的每条URL映射成长度为K的一维向量，包括：针对当前URL，生成长度为K的全零一维向量，所述当前URL为所述多条URL中的任一个；根据对所述当前URL进行分割处理得到的字符串确定当前字符串序列和每个字符串在所述当前字符串序列中的出现位置，所述当前字符串序列包含N个字符串；对于所述当前URL被分割处理后得到的每个字符串，统计其在所述URL数据集中所有URL被分割处理后得到的字符串中的出现频次；在所述全零一维向量的基础上，根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置，将所述当前URL映射成长度为K的一维向量。8.根据权利要求7所述的URL的聚类方法，其特征在于，所述在所述全零一维向量的基础上，根据所述当前URL被分割处理后得到的每个字符串的所述出现频次和所述出现位置，将所述当前URL映射成长度为K的一维向量，包括：对于所述当前URL被分割处理后得到的每个字符串，确定其在总字符串序列中的位置计数i，i大于等于1且小于等于K；采用公式vec[i]＝(N-P)/logX计算所述一维向量中的第i列的向量值；其中，vec[i]为第i列的向量值，X为所述字符串的出现频次，P为所述字符串在所述当前字符串序...

【专利技术属性】
技术研发人员：汤奇峰，方炜超，
申请(专利权)人：晶赞广告上海有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人