并行化分布式网络舆情数据管理方法及系统技术方案

技术编号:8366807 阅读:222 留言:0更新日期:2013-02-28 05:27
本发明专利技术提出一种并行化分布式网络舆情数据管理方法及系统,其中该方法包括:对互联网数据进行抓取;对互联网数据进行抽取;存储和展示抓取和抽取得到的互联网舆情数据;以及对互联网舆情数据的索引和查询进行优化。本发明专利技术的方法和系统具有效率较高的优点。

【技术实现步骤摘要】

本专利技术属于计算机应用
和信息
,特别涉及一种并行化分布式网络舆情数据管理方法及系统
技术介绍
随着互联网应用的广泛普及,数据的海量性在各方面的体现越来越突出,从网络流量数据,到移动通信用户行为记录;从搜索引擎的日志数据,到银行的客户操作记录,等等。这些海量信息与生俱来的数字化与网络化性质,人们在共享海量网络信息的同时,也面临着海量数据存储、访问和管理问题。以往当人们需要存储结构化数据时,数据库通常是首选的解决方案,在数据规模不大时,其可以提供便捷、稳定的服务。然而随着数据量的增长,特别是当Web时代来临后,针对动辄TB级的庞大数据,海量数据的存储和访问成为了系统设计的瓶颈问题。·
技术实现思路
本专利技术旨在解决海量数据的存储和访问数据库设计瓶颈问题,并对数据库及数据操作进行优化设计。本专利技术的一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理方法。本专利技术的并行化分布式网络舆情数据管理方法,包括对互联网数据进行抓取;对所述互联网数据进行抽取;存储和展示抓取和抽取得到的互联网舆情数据;以及对所述互联网舆情数据的索引和查询进行优化。在本专利技术的方法的一个实施例中,所述对互联网数据进行抓取包括用户设定网站的类型、所属行业、所要抓取索引页的链接;然后将所述索引页对应的网页信息抓取的正则配置网页导入数据库;以及读取所述索引页的完整抓取配置信息,对所述索引页下的所有全文和评论进行抓取,并对抓取的网页进行标定和记录。在本专利技术的方法的一个实施例中,所述对所述互联网数据进行抽取包括将所述索引页对应的网页信息抽取正则配置文件导入数据库;以及读取所述索引页下正文、评论的完整抽取配置信息,进行所述索引页下的所有正文及评论的抽取,并对抽取的网页进行标定和记录。在本专利技术的方法的一个实施例中,所述数据库的读操作和写操作在不同数据库服务器中进行。本专利技术的另一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理系统。本专利技术的并行化分布式网络舆情数据管理系统,包括数据抓取模块,所述数据抓取模块用于对互联网数据进行抓取;数据抽取模块,所述数据抽取模块用于对所述互联网数据进行抽取;存储模块,所述存储模块用于存储和展示抓取和抽取得到的互联网舆情数据;以及优化模块,所述优化模块用于对所述互联网舆情数据的索引和查询进行优化。在本专利技术的系统的一个实施例中,所述数据抓取模块包括用户设定模块,所述用户设定模块用于用户设定网站的类型、所属行业、所要抓取索引页的链接;第一导入模块,所述第一导入模块用于将所述索引页对应的网页信息抓取的正则配置网页导入数据库;以及抓取及标定子模块,所述抓取及标定子模块用于读取所述索引页的完整抓取配置信息,对所述索引页下的所有全文和评论进行抓取,并对抓取的网页进行标定和记录。在本专利技术的系统的一个实施例中,所述数据抽取模块包括第二导入模块,所述第二导入模块用于将所述索引页对应的网页信息抽取正则配置文件导入数据库;以及抽取及标定子模块,装置抽取及标定子模块用于读取所述索引页下正文、评论的完整抽取配置信息,进行所述索引页下的所有正文及评论的抽取,并对抽取的网页进行标定和记录。在本专利技术的系统的一个实施例中,所述数据库的读操作和写操作在不同数据库服 务器中进行。本专利技术借鉴当前通用的负载均衡技术、数据库的读写分离技术、数据库拆分技术,并结合项目自身的特点对数据库的设计进行优化处理,达到将数据库建立在一台服务器上,客户端运行在各自的服务器上,只将处理后的数据存储到数据库服务器上;也可以将现有数据库进行分拆,建立多个服务器上,公共的基础信息和关联信息可以通过数据库同步和分发技术实现数据的一致性。本专利技术可以完成数据抓取所需配置的编辑、删除管理功能;数据抽取所需配置的编辑、删除管理功能;对抓取的网页进行标定和记录,对抽取的信息进行结构化的数据存储。为上层系统提供单台服务器部署或多台服务器分布式部署两种部署方式。本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中图I为本专利技术的并行化分布式网络舆情数据管理方法的流程图;图2为本专利技术的并行化分布式网络舆情数据管理系统的结构框图;图3为本专利技术的方法和系统中的数据结构图;图4为数据抓取部分数据结构图;图5为数据抽取部分数据结构图;图6为数据存储和展示数据结构图;和图7为程序接口结构图。具体实施例方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。在本专利技术中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元 件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本专利技术中的具体含义。在本专利技术中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。本专利技术旨在解决海量数据的存储和访问数据库设计瓶颈问题,并对数据库及数据操作进行优化设计。本专利技术的一个目的在于提出一种效率较高的并行化分布式网络舆情数据管理方法。如图I所示,该方法包括S1.对互联网数据进行抓取;S2.对互联网数据进行抽取;S3.存储和展示抓取和抽取得到的互联网舆情数据;以及S4.对互联网舆情数据的索引和查询进行优化。在本专利技术的方法的一个实施例中,步骤SI进一步包括用户设定网站的类型、所属行业、所要抓取索引页的链接;然后将索引页对应的网页信息抓取的正则配置网页导入数据库;以及读取索引页的完整抓取配置信息,对索引页下的所有全文和评论进行抓取,并对抓取的网页进行标定和记录。在本专利技术的方法的本文档来自技高网...

【技术保护点】
一种并行化分布式网络舆情数据管理方法,其特征在于,包括:对互联网数据进行抓取;对所述互联网数据进行抽取;存储和展示抓取和抽取得到的互联网舆情数据;以及对所述互联网舆情数据的索引和查询进行优化。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨睿尘
申请(专利权)人:北京腾逸科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1