网络舆情信息统计方法及系统技术方案

技术编号:8413161 阅读:202 留言:0更新日期:2013-03-14 02:10
本发明专利技术提出一种网络舆情信息统计方法及系统。其中,方法包括以下步骤:输入需要统计的主题;通过网络爬虫从网页和微博抓取与主题相关的数据并保存;将抓取数据进行统计生成统计数据;根据统计数据生成统计报表。根据本发明专利技术实施例的方法,通过对网页和微博数据的抓取与统计得出了获得统计数据,并且对数据统计与展现的并行进行提高了数据统计效率和速度,同时生成统计报表方便了用户。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种网络舆情信息统计方法及系统
技术介绍
随着互联网应用的广泛普及,数据的海量性在各方面的体现越来越突出,从网络流量数据,到移动通信用户行为记录;从搜索引擎的日志数据,到银行的客户操作记录,等。这些海量信息与生俱来的数字化与网络化性质,在给人们带来了改善服务机遇的同时也提出了许多新的技术挑战,如何从这些海量的数据里方便快捷的找到新的信息,如何从这里面统计分析得到我们想要的数据。目前使用的普遍采用的方法是直接根据需求从网络获取相关数据进行分析处理的方法。 解决海量数据统计速度和效率瓶颈问题目前所使用的一定程度上可以得出相关信息,但是存在如下缺陷(I)在面对海量的数据时,找不到头绪和重点统计效率低。(2)展现速度慢不能及时快速呈现在用户面前。
技术实现思路
本专利技术的目的旨在至少解决上述的技术缺陷之一。为达到上述目的,本专利技术一方面的实施例提出一种网络舆情信息统计方法,包括以下步骤S1 :输入需要统计的主题;S2 :通过网络爬虫从网页和微博抓取与所述主题相关的数据并保存;S3 :将抓取所述数据进行统计生成统计数据;以及S4 :根据所述统计数据生成统计报表。根据本专利技术实施例的方法,通过对网页和微博数据的抓取与统计得出了获得统计数据,并且对数据统计与展现的并行进行提高了数据统计效率和速度,同时生成统计报表方便了用户。在本专利技术的一个实施例中,所述方法还包括将所述统计报表进行保存,并呈现给用户。在本专利技术的一个实施例中,所述步骤S3具体包括S31 :设置数据的统计方式;以及S32 :根据统计方式将数据中将相关联的数据进行整合并进行统计。在本专利技术的一个实施例中,所述主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。为达到上述目的,本专利技术的实施例另一方面提出一种网络舆情信息统计系统,包括输入模块,用于输入需要统计的主题;抓取模块,用于通过网络爬虫从网页和微博抓取与所述主题相关的数据并保存;统计模块,将抓取所述数据进行统计生成统计数据;以及报表模块,用于根据所述统计数据生成统计报表。根据本专利技术实施例的系统,通过对网页和微博数据的抓取与统计得出了获得统计数据,并且对数据统计与展现的并行进行提高了数据统计效率和速度,同时生成统计报表方便了用户。本专利技术的一个实施例中,所述系统还包括保存模块,用于将所述统计报表进行保存,并呈现给用户。本专利技术的一个实施例中,所述统计模块具体包括设置单元,用于设置数据的统计方式以及;统计单元,用于根据统计方式将数据中将相关联的数据进行整合并进行统计。本专利技术的一个实施例中,所述主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。 附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中图I为根据本专利技术一个实施例的网络舆情信息统计方法的流程图;图2为根据本专利技术另一个实施例的网络舆情信息统计方法的流程图;图3为根据本专利技术另一个实施例的情感统计报表图;图4为根据本专利技术一个实施例的网络舆情信息统计系统的框架图;图5为根据本专利技术一个实施例的统计模块的框架图;以及图6为根据本专利技术另一个实施例的网络舆情信息统计系统的框架图。具体实施例方式下面详细描述本专利技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。图I为本专利技术实施例的基于视频的广告发现方法的流程图。如图I所示,根据本专利技术实施例的基于视频的广告发现方法,包括以下步骤步骤S101,输入需要统计的主题。具体地,用户在输入界面输入需要统计或感兴趣的主题,其中,主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。步骤S102,通过网络爬虫从网页和微博抓取与主题相关的数据并保存。具体地,在获取需要统计的主题后,通过网络爬虫从互联网抓取与主题相关信息。在获取过程当中,同时将于主题相关的信息与该信息的来源、抓取时间等进行记录并保存到网页数据库中。微博抽取涉及到目前用户量较大的腾讯微博、新浪微博、搜狐微博和网易微博,在抓取到与主题相关的信息后同信息的来抓取时间等进行记录保存到微博数据库中。在本专利技术的一个实施例中,网页数据的抓取与微博数据的抓取并行进行分别保存到网页数据库与微博数据库中之后,交由总的数据库进行保存管理而网页数据库与微博数据库中的信息则进行删除清空处理。根据本专利技术实施例的方法,通过对处理后数据库信息的删除,提高了数据交互的速度,进而提闻了效率。步骤S103,将抓取数据进行统计生成统计数据。具体地,首先设置数据的统计方式,其中,数据的统计方式包括按月统计、按日统计和按小时统计,并设置统计周期,其中,统计周期为每隔多长时间获取一次统计数据的时间。例如,统计方式为按月统计、统计周期为一个月,则根据所设置的统计方式和统计周期从数据库中提取相关数据并进行整合及统计生成统计数据。例如,所设置为按月并且周期为一个月,则根据数据的周期从数据库中提取数据并按日进行统计生成统计数据。在本专利技术的一个实施例中,计算机处于空闲时间进行统计,而在繁忙时暂停统计。需要说明的是,由于所要处理的是海量的网络数据需要大量的时间进行处理因此在所设置的周期内统计出来的数据位中间数据而不是对整个海量的网络数据进行处理后的数据。步骤S104,根据统计数据生成统计报表。 在本专利技术的一个实施例中,所生成的统计数据是关于主题的一些文字数据,根据这些文字数据以及统计方式和统计周期的设置,将文字数据处理生成统计报表。根据本专利技术实施例的方法,通过对网页和微博数据的抓取与统计得出统计数据,并且通过数据统计与展现的并行进行提高了数据统计效率和速度,同时生成统计报表方便了用户。图2为根据本专利技术另一个实施例的网络舆情信息统计方法的流程图。如图2所示,根据本专利技术实施例的网络舆情信息统计方法,包括以下步骤步骤S201,输入需要统计的主题。具体地,用户在输入界面输入需要统计或感兴趣的主题,其中,主题为情感信息、热门话题、转载率排名、点击率排名中的一种或者用户自定义的主题。步骤S202,通过网络爬虫从网页和微博抓取与主题相关的数据并保存。在本专利技术的一个实施例中,网页数据的抓取与微博数据的抓取并行进行分别保存到网页数据库与微博数据库中之后,交由总的数据库进行保存管理而网页数据库与微博数据库中的信息则进行删除清空处理。步骤S203,将抓取数据进行统计生成统计数据。具体地,首先设置数据的统计方式,其中,数据的统计方式包括按月统计、按日统计和按小时统计,并设置统计周期,其中,统计周期为每隔多长时间获取一次统计数据的时间。例如,统计方式为按月统计、统计周期为一个月,则根据所设置的统计方式和统计周期从数据库中提取相关数据并进行整合及统计生成统计数据。例如,所设置为按月并且周期为一个月,则根据数据的周期从数据库中提取数据并按日进行统计生成统计数据。在本专利技术的一个实施例中,计算机处于空闲时间进行统计,而在繁忙时暂停统计。需要说明的是,由于所本文档来自技高网...

【技术保护点】
一种网络舆情信息统计方法,其特征在于,包括以下步骤:S1:输入需要统计的主题;S2:通过网络爬虫从网页和微博抓取与所述主题相关的数据并保存;S3:将抓取所述数据进行统计生成统计数据;以及S4:根据所述统计数据生成统计报表。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨睿尘
申请(专利权)人:北京腾逸科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1