一种社区管理服务大数据处理系统及其处理方法技术方案

技术编号:11456911 阅读:83 留言:0更新日期:2015-05-14 14:03
本发明专利技术公开了一种社区管理服务大数据处理系统及其处理方法,包括社区管理服务数据库、数据收集系统和数据集成系统;数据收集系统用于实现对社区管理服务大数据的采集;数据集成系统用于实现对社区管理服务大数据的转换与融合。本发明专利技术能形成面向社区管理服务的半结构化数据和结构化数据的采集机制,针对具有不同时效性的社区管理服务大数据形成高效的存储机制,为解决社区管理服务大数据冗余性高的问题形成完整的集成机制,从而提升社区管理服务大数据的处理效率。

【技术实现步骤摘要】
一种社区管理服务大数据处理系统及其处理方法
本专利技术涉及大数据处理分析,特别是涉及针对社区管理服务的大数据处理系统及方法。
技术介绍
社区管理是社会治理的细胞,是国家治理体系和治理能力现代化建设的重要基础。互联网尤其是移动互联网在社区管理服务中的广泛应用,以及社交网络、智慧城市等新型信息源的不断涌现,催生了多源、动态、海量、异构的社区管理服务大数据。目前主流的大数据计算方法为开源分布式计算平台Hadoop,其核心为分布式文件系统HDFS与编程模型MapReduce。虽然Mapreduce擅长处理半结构化数据与结构化数据,然而针对特定需求的数据处理任务效率低下,面对社区管理服务大数据对时效性要求高的问题尚未形成良好的解决办法,也没有形成完整的冗余数据集成机制,为开发社区管理服务大数据的潜在价值带来了不便。
技术实现思路
本专利技术是为了克服现有技术存在的不足之处,提供一种社区管理服务大数据处理系统及其处理方法,以期能形成面向社区管理服务的半结构化数据和结构化数据的采集机制,针对具有不同时效性的社区管理服务大数据形成高效的存储机制,为解决社区管理服务大数据冗余性高的问题形成完整的集成机制,从而提升社区管理服务大数据的处理效率。本专利技术为达到上述目的所采用的技术方案是:本专利技术一种社区管理服务大数据处理系统的特点包括:社区管理服务数据库、数据收集系统和数据集成系统;所述数据收集系统包括半结构化数据采集模块和结构化数据采集模块;所述半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集,获得半结构化数据;所述结构化数据采集模块对社区管理服务数据库的数据进行定向采集,获得结构化数据;所述数据集成系统包括数据转换模块和数据融合模块;所述数据转换模块将所述半结构化数据转换为新结构化数据,所述数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,获得社区管理服务的结构化数据。本专利技术一种社区管理服务大数据处理系统的处理方法的特点是按如下步骤进行:步骤1、获得半结构化数据并进行存储;步骤1.1、构建用于临时存储半结构化数据的XML模板文档;步骤1.2、利用筛选器对社区管理服务的HTML格式数据进行解析并定向抓取;获得半结构化数据;将所述半结构化数据存入所述XML模板文档中;步骤2、获得长期存储数据并进行存储;步骤2.1、对社区管理服务数据库中的任意长期存储数据进行定向采集,获得第v个长期结构化数据,记为表示所述第v个长期结构化数据Av中第i个的元素;1≤i≤n;1≤v≤V;V表示所述长期存储数据的总数;步骤2.2、创建用于存储所述第v个长期结构化数据Av的第一数据链栈与第二数据链栈步骤2.3、根据所述第v个长期结构化数据Av的生成时间将所述第v个长期结构化数据Av依次存入所述第一数据链栈并用元素属性Date来表示所述第v个长期结构化数据Av的生成时间,记为表示所述第v个长期结构化数据Av中第i个的元素的生成时间;步骤2.4、初始化i=1;则所述第一数据链栈中第i个元素表示栈顶元素;步骤2.5、令指针指向所述第i个元素步骤2.6、将所述第i个元素的生成时间与时间阈值A进行比较;在所述第i个元素生成时间大于所述时间阈值A时,取出所述第i个元素并压入到所述第二数据链栈中;并将i+1赋给i后,返回步骤2.5顺序执行;从而利用所述第二数据链栈完成长期存储数据的存储;并形成第v个长期存储数据表,进而获得V个长期存储数据表;步骤3、获得临时存储数据并进行存储;步骤3.1、根据设定周期对所述社区管理服务数据库中的临时存储数据进行定向采集,获得临时结构化数据;步骤3.2、创建容量为S的队列Queue1;步骤3.3、将所述临时存储数据压入所述队列Queue1;步骤3.4、用元素数据Data来表示存放在所述社区管理服务数据库中的其他临时存储数据;步骤3.5、判断所述队列Queue1是否空余,若空余,则将所述元素数据Data顺序存放在所述队列Queue1的队尾;若所述队列Queue1已满,则删除所述队列Queue1的队头元素,并将所述元素数据Data插入到所述队列Queue1的队尾;从而形成临时存储数据表;步骤4、将所述XML模板文档采用关键字映射机制生成结构化数据表;将所述半结构化数据存入所述结构化数据表;步骤5、对所述长期存储数据表、临时存储数据表与结构化数据表进行基于主键关联的去冗整合操作,包括:步骤5.1、对所述V个长期存储数据表、临时存储数据表与结构化数据表依次标记形成数据表label={label1,label2,...,labelj,...,labelv+2};labelj表示第j个数据表;1≤j≤V+2;步骤5.2、对所述数据表label依次设立整合标志位flag;记为flag={flag1,flag2,...,flagj,...,flagv+2};flagj表示第j个数据表labelj的整合标志位;步骤5.3、初始化j=1,flagj=1;则将第j个数据表labelj作为参照表;步骤5.4、将所述第j个数据表labelj与第j+1个数据表labelj+1按照相似度规则进行关键字相似度比较;所述相似度规则为:若则设置flagj+1=1,并进行表整合操作,即labelj∪labelj+1=labelj∪j+1;并执行步骤5.5;若则设置flagj+1=0,并执行步骤5.6;步骤5.5、将labelj∪j+1赋值给labelj+1;判断j+1=V+2是否成立,若成立,表示完成表整合操作,形成社区管理服务数据表label′;并执行步骤5.7;否则,则将j+1赋值给j后返回步骤5.4;步骤5.6、将labelj+2赋值给labelj+1并返回步骤5.4;步骤5.7、在所述数据表label中任意挑选整合标志位flag为0的数据表作为参照表,并与其他整合标志位flag为0的数据表按照相似度规则进行关键字相似度比较,直到整合标志位flag为0的数据表都完成关键字相似度比较为止,从而形成最终更新的社区管理服务数据表;由此获得社区管理服务的结构化数据。与现有技术相比,本专利技术的有益技术效果体现在:1、本专利技术由社区管理服务数据库、数据收集系统和数据集成系统组成社区管理服务大数据处理系统,其社区管理服务数据库为数据收集系统提供数据,数据收集系统包括半结构化数据采集模块和结构化数据采集模块,分别采集半结构化数据与结构化数据,数据集成系统包括数据转换模块和数据融合模块,数据转换模块将半结构化数据转换为新结构化数据,数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,从而获得社区管理服务的结构化数据。2、本专利技术通过创建数据链栈的方法,对需要进行长期存储的社区管理服务大数据进行采集与存储,实现了对该类型数据的批量式存储,大幅提高了社区管理服务大数据的采集与存储性能,为社区管理服务的数据分析任务提供了数据来源。3、本专利技术通过创建数据队列的方法,对需要进行临时存储的社区管理服务大数据进行采集与存储,实现了对该类型数据的临时性存储,解决了现有大数据处理技术中时效性问题,提升了社区管理服务大数据存储选择的多样性,同时也为社区管理服务的数据分析任务提供了数据来源。4、本专利技术通过基于主键的数据表整合方法,解决了现有大数据处理技术中数据冗本文档来自技高网...
一种社区管理服务大数据处理系统及其处理方法

【技术保护点】
一种社区管理服务大数据处理系统,其特征包括:社区管理服务数据库、数据收集系统和数据集成系统;所述数据收集系统包括半结构化数据采集模块和结构化数据采集模块;所述半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集,获得半结构化数据;所述结构化数据采集模块对社区管理服务数据库的数据进行定向采集,获得结构化数据;所述数据集成系统包括数据转换模块和数据融合模块;所述数据转换模块将所述半结构化数据转换为新结构化数据,所述数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,获得社区管理服务的结构化数据。

【技术特征摘要】
1.一种社区管理服务大数据处理系统的处理方法,所述社区管理服务大数据处理系统,包括:社区管理服务数据库、数据收集系统和数据集成系统;所述数据收集系统包括半结构化数据采集模块和结构化数据采集模块;所述半结构化数据采集模块用于对社区管理服务的HTML格式数据进行定向采集,获得半结构化数据;所述结构化数据采集模块对社区管理服务数据库的数据进行定向采集,获得结构化数据;所述数据集成系统包括数据转换模块和数据融合模块;所述数据转换模块将所述半结构化数据转换为新结构化数据,所述数据融合模块对结构化数据和新结构化数据进行基于关键字的整合处理,获得社区管理服务的结构化数据;其特征是,所述处理方法按如下步骤进行:步骤1、获得半结构化数据并进行存储;步骤1.1、构建用于临时存储半结构化数据的XML模板文档;步骤1.2、利用筛选器对社区管理服务的HTML格式数据进行解析并定向抓取;获得半结构化数据;将所述半结构化数据存入所述XML模板文档中;步骤2、获得长期存储数据并进行存储;步骤2.1、对社区管理服务数据库中的任意长期存储数据进行定向采集,获得第v个长期结构化数据,记为表示所述第v个长期结构化数据Av中第i个的元素;1≤i≤n;1≤v≤V;V表示所述长期存储数据的总数;步骤2.2、创建用于存储所述第v个长期结构化数据Av的第一数据链栈与第二数据链栈步骤2.3、根据所述第v个长期结构化数据Av的生成时间将所述第v个长期结构化数据Av依次存入所述第一数据链栈并用元素属性Date来表示所述第v个长期结构化数据Av的生成时间,记为表示所述第v个长期结构化数据Av中第i个的元素的生成时间;步骤2.4、初始化i=1;则所述第一数据链栈中第i个元素表示栈顶元素;步骤2.5、令指针指向所述第i个元素步骤2.6、将所述第i个元素的生成时间与时间阈值A进行比较;在所述第i个元素生成时间大于所述时间阈值A时,取出所述第i个元素并压入到所述第二数据链栈中;并将i+1赋给i后,返回步骤2.5顺序执行;从而利用所述第二数据链栈完成长期存储数据的存储;并形成第v个长期存储数据表,进而获得V个长期存储数据表;步骤3、获得临时存储数据并进行存储;步骤3.1、根据设定周期对所述社区管理服务数据库中的临时存储数据进行定向采集,获得临时结构化数据;步骤3.2、创建容量为S的队列Queue1...

【专利技术属性】
技术研发人员:丁帅杨善林蔡琼徐健潘禹辰牛锋
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1