一种统一资源定位符的去重方法、装置及电子设备制造方法及图纸

技术编号:23161721 阅读:27 留言:0更新日期:2020-01-21 21:59
本申请公开了一种统一资源定位符的去重方法、装置及电子设备。该方法包括:获取统一资源定位符URL集;基于URL的结构对所述URL集中的URL进行聚类处理,获得至少一个URL簇;确定所述至少一个URL簇中的目标URL簇,所述目标URL簇为URL数量满足预定阈值的URL簇;基于所述目标URL簇的URL共性结构,确定所述目标URL簇对应的去重URL,所述去重URL用于表示所述目标URL簇中的URL。本申请通过对URL集中的URL进行聚类处理,以确定URL数量满足预定阈值的URL簇,并基于URL簇的URL共性结构确定其去重URL,进而可基于其去重URL对本URL集或后续的URL集进行去重处理。与现有技术中,人为设定去重规则对应的去重URL的方案相比,能够智能化地确定去重URL,具有去重效率高、精度高的优点。

A de duplication method, device and electronic equipment of uniform resource locator

【技术实现步骤摘要】
一种统一资源定位符的去重方法、装置及电子设备
本申请涉及计算机
,尤其涉及一种统一资源定位符的去重方法、装置及电子设备。
技术介绍
统一资源定位符(UniformResourceLocator,URL)去重,是指将重复抓取的URL去除,避免多次抓取同一网页。其意义在于,防止对相同网页重复下载,进而,可避免网络IO资源的浪费和爬虫抓取速度降低,也可避免数据冗余和重复处理导致的资源浪费。目前的URL去重方案,一般是预构建多个去重规则,每个去重规则有其要求的URL结构,然后,将待去重的URL的结构与去重规则所要求的URL结构进行匹配,并基于匹配结果,将对应每个去重规则的URL保留一个。
技术实现思路
本说明书实施例提供一种统一资源定位符的去重方法、装置及电子设备,用于解决现有技术中URL去重效率低、精度低的问题。本说明书实施例还提供一种统一资源定位符的去重方法,包括:获取统一资源定位符URL集;基于URL的结构对所述URL集中的URL进行聚类处理,获得至少一个URL簇;r>确定所述至少一个本文档来自技高网...

【技术保护点】
1.一种统一资源定位符的去重方法,其特征在于,包括:/n获取统一资源定位符URL集;/n基于URL的结构对所述URL集中的URL进行聚类处理,获得至少一个URL簇;/n确定所述至少一个URL簇中的目标URL簇,所述目标URL簇为URL数量满足预定阈值的URL簇;/n基于所述目标URL簇的URL共性结构,确定所述目标URL簇对应的去重URL,所述去重URL用于表示所述目标URL簇中的URL。/n

【技术特征摘要】
1.一种统一资源定位符的去重方法,其特征在于,包括:
获取统一资源定位符URL集;
基于URL的结构对所述URL集中的URL进行聚类处理,获得至少一个URL簇;
确定所述至少一个URL簇中的目标URL簇,所述目标URL簇为URL数量满足预定阈值的URL簇;
基于所述目标URL簇的URL共性结构,确定所述目标URL簇对应的去重URL,所述去重URL用于表示所述目标URL簇中的URL。


2.根据权利要求1所述的方法,其特征在于,还包括:
基于N级URL的共性结构对N级URL进行聚类处理,获得至少一个N级URL簇;
当N级URL簇的数量满足第N聚类阈值时,基于N+1级URL的共性结构对N+1级URL进行聚类处理;
其中,N∈[2,+∞),用于指示N级URL簇的URL结构中的变量个数,N+1级URL为N级URL簇对应的去重URL,一级URL簇为对所述URL集中的URL进行聚类处理获得的URL簇。


3.根据权利要求2所述的方法,其特征在于,还包括:
确定所述至少一个N级URL簇中的目标N级URL簇,所述目标N级URL簇为N级URL数量满足第N去重阈值的N级URL簇;
基于所述目标N级URL簇的N级URL共性结构,确定所述目标N级URL簇对应的去重URL。


4.根据权利要求3所述的方法,其特征在于,还包括:
当确定出目标N级URL簇对应的去重URL时,丢弃目标去重URL;
其中,所述目标去重URL为所述目标N级URL簇中的N-1级URL簇对应的去重URL。


5.根据权利要求1所述的方法,其特征在于,基于URL的结构对所述URL集中的URL进行聚类处理包括:
对所述URL集中的URL的结构进行拆分处理,获得URL的分段参数;
基于URL的分段参数,确定聚类特征变量;
基于所述聚类特征变量,对所述URL集中的URL进行聚类处理。


6.根据权利要求1所述的方法,其特征在于,确定所述至少一个URL簇中的目标URL簇包括:
基于所述至少一个URL簇中各URL簇的特征信息,确定各URL簇对应的预定阈值;
将各URL簇的URL数量与对应的预定阈值进行对比;
基于对比...

【专利技术属性】
技术研发人员:余成章陈雅芳王意林李攀
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1