新闻站点的解析方法和装置制造方法及图纸

技术编号:43277591 阅读:23 留言:0更新日期:2024-11-12 16:02
本申请提供一种新闻站点的解析方法和装置,该方法包括:获取新闻网站的站点列表,站点列表中包括多个链接;根据多个链接的链接结构,从多个链接中提取新闻链接;根据新闻链接的html页面源码以及html页面源码中各html节点的属性信息,提取新闻链接的新闻数据,新闻数据包括新闻正文、新闻发布时间和新闻标题中的至少一项。由于新闻链接的链接结构与其他链接的链接结构不同,因此,通过分析新闻站点中多个链接的链接结构,可以从新闻站点中有效提取得到新闻链接;由于可以根据新闻链接的html页面源码和html页面源码中各html节点的属性信息对新闻链接进行分析,因此,可以有效提取得到新闻数据,提高新闻数据的解析准确率。

【技术实现步骤摘要】

本申请涉及互联网,尤其涉及一种新闻站点的解析方法和装置


技术介绍

1、在相关技术中,在提取新闻数据时,通常是采用标定模板、正则解析、通过html标签筛选等方式对新闻详情页进行解析,并根据解析结果提取新闻详情页中的新闻数据,比如新闻正文、新闻标题和新闻发布时间。然而,在实际应用中,上述解析方法提取到的新闻数据的准确度较低,且针对新闻站点列表,无法快速有效地挖掘新闻数据。


技术实现思路

1、本申请提供一种新闻站点的解析方法和装置,用于解决相关技术中对新闻详情页进行新闻数据的提取时,准确度较低的问题,且针对新闻站点列表,无法快速有效地挖掘新闻数据。

2、为解决上述技术问题,本申请是这样实现的:

3、第一方面,提供一种新闻站点的解析方法,包括:

4、获取新闻网站的站点列表,所述站点列表中包括多个链接;

5、根据所述多个链接的链接结构,从所述多个链接中提取新闻链接;

6、根据所述新闻链接的html页面源码以及所述html页面源码中各html节点的属性信息,提本文档来自技高网...

【技术保护点】

1.一种新闻站点的解析方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,根据所述多个链接的链接结构,从所述多个链接中提取新闻链接,包括:

3.如权利要求2所述的方法,其特征在于,所述根据所述多个a标签链接的链接结构,确定所述a标签链接各自的结构特征,包括:

4.如权利要求2所述的方法,其特征在于,所述根据所述多个a标签链接各自的结构特征,从所述多个a标签链接中提取新闻链接,包括:

5.如权利要求1所述的方法,其特征在于,在所述新闻数据包括所述新闻正文的情况下,所述根据所述新闻链接的html页面源码以及所述html页面源码中各...

【技术特征摘要】

1.一种新闻站点的解析方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,根据所述多个链接的链接结构,从所述多个链接中提取新闻链接,包括:

3.如权利要求2所述的方法,其特征在于,所述根据所述多个a标签链接的链接结构,确定所述a标签链接各自的结构特征,包括:

4.如权利要求2所述的方法,其特征在于,所述根据所述多个a标签链接各自的结构特征,从所述多个a标签链接中提取新闻链接,包括:

5.如权利要求1所述的方法,其特征在于,在所述新闻数据包括所述新闻正文的情况下,所述根据所述新闻链接的html页面源码以及所述html页面源码中各html节点的属性信息,提取所述新闻链接的新闻数据,包括:

6...

【专利技术属性】
技术研发人员:刘译璟苏萌李亚博李晨睿杜静李彦泽
申请(专利权)人:北京百分点科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1