网站社区获取方法及装置、电子设备、存储介质制造方法及图纸

技术编号:43895964 阅读:22 留言:0更新日期:2025-01-03 13:09
本申请的实施例揭示了网站社区获取方法及装置、电子设备、存储介质。该方法包括:获取在互联网应用中传播的多个URL;从各个URL中提取相应网站的目录信息,并基于不同的目录层级对所述目录信息进行分级处理,得到各网站对应的目录元素集合,同一网站对应至少一个URL;将各个目录元素映射为预设长度的二进制序列,基于各网站包含的目录元素对应的二进制序列生成各网站的指纹信息;对各网站的指纹信息进行层次聚类处理,得到至少一个网站社区。本申请能够进行精确的网站社区获取。

【技术实现步骤摘要】

本申请涉及数据处理,具体涉及一种网站社区获取方法、装置、电子设备以及计算机可读存储介质。


技术介绍

1、网站社区是指具有相同属性的网站集合。在现有的网站社区获取方案中,主要从网页的html(hyper text markup language,超文本标记语言)文件中提取出dom(documentobject model,文档对象模型)结构,通过dom结构之间的相似度匹配来进行网站社区发现。这种方案具有简单快捷的优点,对于静态网站非常有效,但是也非常容易受到对抗,例如很多网站是通过动态嵌入网站来实现最终的页面显示效果,html结构非常简单,这种对抗导致现有的网站社区获取方案无法发挥作用。因此,如何提出一种不易产生对抗的网站社区获取方案是本领域技术人员亟待解决的技术问题。


技术实现思路

1、为了提出不易于产生对抗的网站社区获取方案,本申请的实施例分别提供了一种网站社区获取方法、一种网站社区获取装置、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。

2、第一方面,本申请实施例提供了一种网站社本文档来自技高网...

【技术保护点】

1.一种网站社区获取方法,其特征在于,所述网站社区表征具有相同属性的网站集合,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从各个URL中提取相应网站的目录信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于不同的目录层级对所述目录信息进行分级处理,得到各网站对应的目录元素集合,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述将各个目录元素映射为预设长度的二进制序列,基于各网站...

【技术特征摘要】

1.一种网站社区获取方法,其特征在于,所述网站社区表征具有相同属性的网站集合,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述从各个url中提取相应网站的目录信息,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于不同的目录层级对所述目录信息进行分级处理,得到各网站对应的目录元素集合,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求3所述的方法,其特征在于,所述方法还包括:

6.根据权利要求1所述的方法,其特征在于,所述将各个目录元素映射为预设长度的二进制序列,基于各网站包含的目录元素对应的二进制序列生成各网站的指纹信息,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据各个目录元素的统计频次以及二进制序列构建各目录元素...

【专利技术属性】
技术研发人员:牛亚峰张凯张旭甘晓华
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1