一种面向多平台的定向数据采集方法及系统技术方案

技术编号:42690498 阅读:32 留言:0更新日期:2024-09-10 12:39
本发明专利技术公开了一种面向多平台的定向数据采集方法及系统,涉及舆情数据采集领域,包括:确定目标网站;确定所述目标网站中待爬取URL在页面上的位置;抽取待爬取页面的URL,并将抽取到的URL加入待爬取队列;访问URL所对应的页面,并获取页面的HTML文档;对所述HTML文档进行处理和解析,得到目标数据。本发明专利技术中的上述方案能够代替人工注释的方式定位并抽取URL,并适用于多个平台,极大降低了编写爬虫的成本,加入了分布式调度策略和节点中间件构建了分布式爬取框架,在同时爬取多个平台数据时效率显著提高。

【技术实现步骤摘要】

本专利技术涉及舆情数据采集,特别涉及一种面向多平台的定向数据采集方法及系统


技术介绍

1、舆情数据采集是指通过各种渠道收集、整理和分析社会公众舆论信息,从而获取某个话题、事件或人物在社会上的影响力、关注度和评价等数据。随着社交媒体的兴起,舆情数据采集已经成为了一种重要的社会调研方法,被广泛应用于政府、企业、媒体等领域。

2、社会公众对信息的获取需求不断增加。随着互联网的发展和普及,社会公众获取信息的方式发生了巨大变化,传统的媒体已经不能满足公众对信息获取的需求,而网络媒体平台成为了公众获取信息的主要渠道。通过对舆情数据采集和分析,可以更好地了解社会公众对某个话题或事件的看法和态度。在过去,舆情数据采集主要是依靠人工收集和分析,这种方法费时费力且容易出现主观偏差,而随着计算机技术和人工智能技术的不断发展,自动化的舆情数据采集方法逐渐被开发和应用,大大提高了数据的采集效率和准确度。同时,舆情数据采集也面临着一系列的挑战和问题。例如,网页平台的数据权限和使用规则不断变化,导致数据的可用性和可信度难以保证。另外,如何从大量的数据中提取有价值的信息,如本文档来自技高网...

【技术保护点】

1.一种面向多平台的定向数据采集方法,其特征在于,包括:

2.根据权利要求1所述的面向多平台的定向数据采集方法,其特征在于,所述面向多平台的定向数据采集方法还包括:

3.根据权利要求1所述的面向多平台的定向数据采集方法,其特征在于,确定所述目标网站中待爬取URL在页面上的位置具体包括以下步骤:

4.根据权利要求3所述的面向多平台的定向数据采集方法,其特征在于,计算预处理后的所有<a>标签之间,两两的属性相似度具体采用以下公式:

5.根据权利要求3所述的面向多平台的定向数据采集方法,其特征在于,基于所述属性相似度和文本特征相似度计...

【技术特征摘要】

1.一种面向多平台的定向数据采集方法,其特征在于,包括:

2.根据权利要求1所述的面向多平台的定向数据采集方法,其特征在于,所述面向多平台的定向数据采集方法还包括:

3.根据权利要求1所述的面向多平台的定向数据采集方法,其特征在于,确定所述目标网站中待爬取url在页面上的位置具体包括以下步骤:

4.根据权利要求3所述的面向多平台的定向数据采集方法,其特征在于,计算预处理后的所有<a>标签之间,两两的属性相似度具体采用以下公式:

5.根据权利要求3所述的面向多平台的定向数据采集方法,其特征在于,基于所述属性相似度和文本特征相似度计算<a>标签两两之间的相似度具体采用以下公式:

【专利技术属性】
技术研发人员:程渤刘鑫煜陈俊亮
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1