System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种网站列表及详情页面的识别及分类方法技术_技高网

一种网站列表及详情页面的识别及分类方法技术

技术编号:40353499 阅读:4 留言:0更新日期:2024-02-09 14:38
本发明专利技术的技术方案是提供了一种网站列表及详情页面的识别及分类方法,其特征在于,依序进行数据采集、网页详情页识别及列表页识别。本发明专利技术为解决列表页识别系统资源和人力资源使用高的问题,提出了基于详情页判断及离线计算样式的方法来进行列表页识别。相比于现有技术方案,本发明专利技术提供了一种普适度较高且人力成本较低的新的技术方案,能够广泛适用不同页面、不同站点的列表页识别需求。

【技术实现步骤摘要】

本专利技术涉及一种网站列表及详情页面的识别及分类方法,属于互联网。


技术介绍

1、互联网,作为现代人类获取信息的重要渠道,已经深刻地改变了生活方式和信息获取方式。在过去,人们依赖于传统媒体、书籍和口头传统来获取信息,但今天,互联网为人们提供了前所未有的信息丰富性和便捷性。无论是寻找新闻、学术知识、娱乐内容还是社交互动,互联网都成为了不可或缺的工具。

2、然而,互联网的信息丰富性也伴随着一个严峻的挑战:信息过载和信息混乱。随着互联网上的信息不断增长,人们需要花费大量的时间和精力来过滤无效信息,以获取有价值的内容。这不仅浪费了我们的时间,还可能误导人们的判断和决策。因此需要一种通用方法来识别通用网站公布聚合信息的列表页,方便人们直接进行检索。

3、目前识别列表页的方法主要有:

4、1)基于url规则进行识别。通过判断请求的url是否在规则列表中,来进行网页类型的识别。该方法需要不断维护规则库,否则识别率无法保证,需要较多的人力成本进行日常维护。

5、2)纯图像识别。通过判断网页渲染后的样式,计算网页各个模块距离网页边界的距离判断是否是列表页。该方法需要大量系统资源,识别效率很低。同时对于非标准形态的网页无法进行识别。

6、3)基于正则表达式的识别。通过获取网页锚文本及页眉页脚,正则表达式来命中特定条件的样式。该方法较为死板,只能支持特定格式的样本的识别,灵活度不够且需要后期不断维护表达式。


技术实现思路

1、本专利技术要解决的技术问题是:基于url规则进行识别列表页的方法需要不断维护规则库,人力成本高;纯图像识别列表页的方法需要大量系统资源,识别效率很低;基于正则表达式识别列表页的方法较为死板,只能支持特定格式的样本的识别,灵活度不够且需要后期不断维护表达式。

2、为了解决上述技术问题,本专利技术的技术方案是提供了一种网站列表及详情页面的识别及分类方法,其特征在于,依序进行数据采集、网页详情页识别及列表页识别,其中:

3、数据采集包括以下步骤:

4、步骤101、根据客户需求数据维度的类型,设定采集目标host集合,采集目标集合host内存储的url为采集目标网站的首页url;

5、步骤102、轮询采集目标host集合中的每个采集目标host,依据采集目标host的网站类型是否为动态或静态将采集目标host集合进一步分为动态网站host集合和静态网站host集合;

6、步骤103、分别轮询动态网站host集合和静态网站host集合,下载目标网站数据,包括以下步骤:

7、步骤1031、初始化host信息对象,该host信息对象包括基础host域名、首页url、最大爬取深度、网站消重url集合,其中,网站消重url集合初始化为空;

8、步骤1032、从首页url开始,初始化网页信息对象,该网页信息对象包括网页所属host网站地址、当前爬取深度n、网页锚文本、点击路径、网页源码以及上一级url,其中:

9、当前爬取深度n为当前网页url需要从首页起点击可以访问到的次数;

10、点击路径为从首页url起点击路径xpth的集合;

11、步骤1033、将当前url作为目标url,开始进行访问,其中,对于动态网站host集合中的采集目标集合host,采取浏览器方式打开并获取目标url的html源码;若静态网站host集合中的采集目标集合host,直接通过接口访问,直接获取目标url的html源码;

12、步骤1034、基于html源码,通过href属性匹配当前页面中出现的所有url,逐个生成相关点击路径xpath,获得子url集合;

13、步骤1035、若步骤1034获取的子url集合为空,则基于上一级url返回上一级网页继续遍历;若步骤1034获取的子url集合不为空,则轮询该子url集合,逐个进行以下判断:

14、a)若消重url集合中包含当前url时,则直接进行过滤,判定当前url为无效url;否则进入下一个判断条件;

15、b)若当前爬取深度n大于设定的最大爬取深度时,则判定当前url为无效url;否则进入下一个判断条件;

16、c)若当前url跳转到其他网站,则判定当前url为无效url;否则进入下一个判断条件;

17、d)若当前url中包含非文本类的资源,则判定当前url为无效url;否则认定当前url为有效url,添加到页面有效子url集合;

18、若页面有效子url集合不为空,则轮询该页面有效子url集合,逐条在数据库website_info表中记录下当前页面提取的url集合信息,包括host信息、自首页起点击路径、当前网页锚文本、网页源码、爬取深度信息,其中,当前爬取深度n更新为当前爬取深度n加1作为爬取深度信息,并将页面有效子url集合中的当前url加入消重url集合;

19、若页面有效子url集合为空,则认为该条路径已爬取完毕,基于上一级url返回上一级网页继续遍历;

20、步骤1036、重复步骤1033到步骤1035,直到当前url为首页url且子url集合全部遍历完成时,认为当前采集目标host已全部爬取完毕;

21、网页详情页识别包括以下步骤:

22、步骤201、动态网站host集合和静态网站host集合全部下载完成后,轮询从数据库website_info表中提取每个站点的全量页面信息;

23、步骤202、去除网页中的无效源码;

24、步骤203、提取网页正文,若无法提取网页正文,则认为当前页面为非详情页,否则认为当前页面为详情页,并记录提取的正文段落及去除正文段落后的html源码;

25、列表页识别包括以下步骤:

26、步骤301、数据清洗及分组

27、在数据库website_info表中进行以下详细操作:

28、步骤3011、根据host对url进行分组,获得同一host下的所有url的html源码信息;

29、步骤3012、在同一个host下,对上一级url字段进行清洗后,按照上一级url进行分组,得到同一个上级url下所有网页信息的集合;

30、步骤302、计算阈值设定

31、根据情况为所有host设置合适的列表页识别计算阈值及列表页识别比例阈值,其中,列表页识别计算阈值指的是符合详情页要求的数量,列表页识别比例阈值指的是详情页数据占该识别网页下最低的比例;

32、步骤303、识别

33、对同一host下、同一上一级url的所有url进行计算:

34、获取按上一级url分组后url的数量,获得当前层级url总数,计算为详情页页面的数量,比较详情页页面数量是否达到当前host设定的列表页识别计算阈值,若未达到则跳过计算,若达到则开始计算详情页数量占总数的比例,本文档来自技高网...

【技术保护点】

1.一种网站列表及详情页面的识别及分类方法,其特征在于,依序进行数据采集、网页详情页识别及列表页识别,其中:

2.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,步骤102中,检测采集目标host的JavaScript脚本,并通过JavaScript代码所占源代码比例判断判断采集目标host的网站类型是否为动态或静态。

3.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,步骤1034中,href属性获得方法为解析请求获取的html源码,利用BeautifulSoup组件提取源码中出现的所有<a>标签。轮询<a>标签,通过get方法获取其中href属性,即为所需的子url集合。

4.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,步骤202中,无效源码判断依赖源码中对应部分的html标签进行。

5.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,步骤203中提取网页正文时,依序采用基于文本密度的方法、DOM树分析以及视觉布局分析的方法提取网页正文,若上述三种方法均无法提取出正文,则认为当前页面为非详情页,跳过处理。

6.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,步骤3012中,对上一级url字段进行清洗的原则为清洗掉页数相关信息。

7.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,当素材库开始录入数据后,后续若上新新网站,则在完成所述数据采集步骤后,先轮询比较下载后的数据是否满足或命中素材库中的框架:若满足,则直接认定当前url为列表页;若不满足,则重复所述详情页识别和所述列表页识别逻辑。

...

【技术特征摘要】

1.一种网站列表及详情页面的识别及分类方法,其特征在于,依序进行数据采集、网页详情页识别及列表页识别,其中:

2.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,步骤102中,检测采集目标host的javascript脚本,并通过javascript代码所占源代码比例判断判断采集目标host的网站类型是否为动态或静态。

3.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,步骤1034中,href属性获得方法为解析请求获取的html源码,利用beautifulsoup组件提取源码中出现的所有<a>标签。轮询<a>标签,通过get方法获取其中href属性,即为所需的子url集合。

4.如权利要求1所述的一种网站列表及详情页面的识别及分类方法,其特征在于,步骤202...

【专利技术属性】
技术研发人员:周立费雨霏孙伟
申请(专利权)人:上海万得征信服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1