基于微信群信息的数据分析系统技术方案

技术编号:19547887 阅读:23 留言:0更新日期:2018-11-24 21:18
本发明专利技术公开一种基于微信群信息的数据分析系统,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块;对象存储模块;关键词提取模块;群消息库模块。本发明专利技术具有能将采集到的微信群消息数据进行分析和统计,最后直观的展示出来,可以有效、直观的监测微信群的优点。

Data Analysis System Based on Wechat Group Information

The present invention discloses a data analysis system based on Wechat group information, which includes: an information acquisition module, which collects a batch of HTML tags of a preset number of Wechat group messages in the order of sending every preset time; and a data analysis module, which obtains the HTML tags collected by the information acquisition module through regular parsing each of them. The attribute of a group message, which includes the group number and the group message number; the cache de-duplication module, which hashes the group number and the group message number contained in each group message attribute to get the hash value, and then compares the hash value of each group message in the two adjacent batches. If there is a duplicate part, the latter will be Group message deletion with repeated hash values in batches; multimedia extraction module; object storage module; keyword extraction module; group message library module. The invention has the advantages that the collected message data of the micro-message group can be analyzed and counted, and displayed intuitively at last, and the micro-message group can be monitored effectively and intuitively.

【技术实现步骤摘要】
基于微信群信息的数据分析系统
本专利技术涉及信息
更具体地说,本专利技术涉及一种基于微信群信息的数据分析系统。
技术介绍
当今社会,互联网发展十分迅速,导致网民的数量急剧上升。随着网民数量的上升,互联网越来越成为人们获取信息的主要途径,一些有影响力的门户网站,博客,社交工具逐渐变得越来越受欢迎。在众多社交工具中微信群成为最受人们欢迎的交流方式之一。这种通过微信在网上把人与人联结在一起的虚拟社群,正在渗透和影响着人们的身心和生活。在群里可以分享一切你想与大家分享沟通的信息。但是,在互联网快速发展的同时,也不断的产生一些问题。少数不法分子借助互联网开放自由的特性,传播一些不法信息,严重影这社会安定团结,这就需要对微信群进行实时的查看。但是,微信群用户众多,数据量每天都在以惊人的速度增长,如何高效率的对微信群信息进行实时的查看成为了难题。针对此难题,需要一种有效的基于微信群的数据分析系统及方法。目前,对微信群查看存在着一定的问题:1、完全依靠人工操作,监测人员无法对微信群群内的信息进行类型和时间区间的筛选,而且对于某个关键词,无法在目前正在监测的微信群群内的言论中进行检索,大大降低的查看的效率。2、监测人员不能直观且清晰的看到群内主要讨论的内容以及微信群的活跃度,只能定性模糊的对微信群进行审查。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种将采集到的微信群消息数据进行分析和统计,最后直观的展示出来,以此达到可以有效、直观的查看微信群的目的的基于微信群信息的数据分析系统。为了实现根据本专利技术的这些目的和其它优点,提供了一种基于微信群信息的数据分析系统,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号、群消息类型、群消息发送时间和群消息主体,所述数据分析模块将不同的群消息类型赋予不同的数值;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块,其根据群消息类型的数值识别出不同类型的群消息,并将群消息主体中包含多媒体文件链接的多媒体文件内容进行下载,再以每条群消息的哈希值为键,以每条群消息主体的内容为值生成键值对;对象存储模块,其存储每条群消息的键值对;关键词提取模块,其对包含文字内容的群消息主体进行关键词提取运算提取出其中的关键词;群消息库模块,其存储除群消息主体以外的每条群消息的属性和哈希值,若群消息主体中包含文字内容,所述群消息库模块还继续存储该群消息的关键词。优选的是,还包括:定时请求模块,其每隔预设时间从群消息库模块中获取所有群消息主体中包含文字内容的群消息的关键词;垃圾词库模块,其存储预先设定的垃圾词或垃圾短语;分析过滤模块,其将定时请求模块中每条群消息主体包含文字内容的群消息的关键词与垃圾词库模块中的垃圾词或垃圾短语进行对比,若发现关键词中有垃圾词或垃圾短语,则将关键词中的垃圾词或垃圾短语进行删除,保留剩余的关键词。优选的是,所述群消息属性还包括群消息发送时间、群消息发送人编号;群消息统计模块,其将每日发送的群消息总量进行统计,将每日发送群消息的群消息发送人总量进行统计,将每日发送的群消息的关键词的出现次数进行统计,并筛选出出现次数排名前三的关键词。优选的是,还包括:群成员统计模块,其采集每日发送消息的群消息发送人编号,并统计当日内每位群消息发送人发送群消息的总量。优选的是,还包括:群消息统计库模块,其存储群消息统计模块得到的每日的群消息总量、每日的群消息发送人总量、每日发送的群消息中出现次数排名前三的关键词,所述群消息统计库模块的数据保存时间为七天。优选的是,还包括:群成员统计库模块,其存储每日所有的群消息发送人编号、当日内每位群消息发送人发送群消息的总量,所述群成员统计库模块的数据保存时间为七天。优选的是,还包括:全文检索模块,其从关键词提取模块获取每条包含文字内容的群消息主体的关键词作为相应的群消息的索引。本专利技术至少包括以下有益效果:1、对采集到的群信息进行解析处理,将群信息进行分类(例如:文字、视频、语音、红包、分享等),以此让微信群消息的查看更加清晰。2、可以对微信群消息在类型和时间上的可筛选的查看。3、能够查看群内某个成员发布过的言论以及群内成员活跃度排行。4、能对群内发布过的言论进行数量和高频词的统计。5、可以通过某个关键词对已经发布的群信息进行检索。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。具体实施方式下面结合实施例对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。本专利技术提供一种基于微信群信息的数据分析系统,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签,所述预设时间可以为半小时、一小时或者两小时等,具体数值根据实际采集需求而定,所述预设数量可以是5条、10条或者15条等群消息的html标签,具体数值也根据实际采集需求而定;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号、群消息类型、群消息发送时间和群消息主体,所述数据分析模块将不同的群消息类型赋予不同的数值,所述群编号在每一微信群建立时微信服务器自动赋予的,所述群消息编号在群消息发送时微信服务器自动赋予的,所述群消息类型包括文字、视频、语音、红包、分享等,在不同类型的群消息发送时,微信服务器也会给不同类型的群消息赋予不同标记,如图片类群消息的标记为image,其它类型的群消息就不一一列举了,数据分析模块就是将微信服务器给不同类型的群消息赋予的不同标记转化为本专利技术中其他模块能识别的赋值代码,下面列举一例不同的群消息类型的各赋值代码:文字类消息赋值为1,视频类消息赋值为2,语音类消息赋值为3,红包类消息赋值为4,分享类消息赋值为5,当然也可以有其他的赋值方式,具体数值根据实际需求而定,以减少模块计算量的赋值方案优先。缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除,由于信息采集模块是按发送顺序批量采集微信群消息的,当预设时间内发送的群消息量小于每批次预设数量的微信群消息,相邻两批次采集到的微信群消息会有重叠的部分,通过缓存去重模块能够去掉后一批次中重叠的微信群消息,确保微信群消息采集的有效性,另外,由于哈希算法得到的哈希值的重复率低,用哈希值来作为每条微信群消息的唯一标识辨识度高。多媒体提取模块,其根据群消息类型的数值识别出不同类型的群消息,并将群消息主体中包含多媒体文件链接的多媒体文件内容进行下载,再以每条群消本文档来自技高网...

【技术保护点】
1.基于微信群信息的数据分析系统,其特征在于,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号、群消息类型、群消息发送时间和群消息主体,所述数据分析模块将不同的群消息类型赋予不同的数值;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块,其根据群消息类型的数值识别出不同类型的群消息,并将群消息主体中包含多媒体文件链接的多媒体文件内容进行下载,再以每条群消息的哈希值为键,以每条群消息主体的内容为值生成键值对;对象存储模块,其存储每条群消息的键值对;关键词提取模块,其对包含文字内容的群消息主体进行关键词提取运算提取出其中的关键词;群消息库模块,其存储除群消息主体以外的每条群消息的属性和哈希值,若群消息主体中包含文字内容,所述群消息库模块还继续存储该群消息的关键词。

【技术特征摘要】
1.基于微信群信息的数据分析系统,其特征在于,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号、群消息类型、群消息发送时间和群消息主体,所述数据分析模块将不同的群消息类型赋予不同的数值;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块,其根据群消息类型的数值识别出不同类型的群消息,并将群消息主体中包含多媒体文件链接的多媒体文件内容进行下载,再以每条群消息的哈希值为键,以每条群消息主体的内容为值生成键值对;对象存储模块,其存储每条群消息的键值对;关键词提取模块,其对包含文字内容的群消息主体进行关键词提取运算提取出其中的关键词;群消息库模块,其存储除群消息主体以外的每条群消息的属性和哈希值,若群消息主体中包含文字内容,所述群消息库模块还继续存储该群消息的关键词。2.如权利要求1所述的基于微信群信息的数据分析系统,其特征在于,还包括:定时请求模块,其每隔预设时间从群消息库模块中获取所有群消息主体中包含文字内容的群消息的关键词;垃圾词库模块,其存储预先设定的垃圾词或垃圾短语;分析过滤模块,其将定时请求模块中每条群消息主体包含...

【专利技术属性】
技术研发人员:刘春阳张旭梁汝锋张传新刘正阳李雄刘巨安王菲
申请(专利权)人:国家计算机网络与信息安全管理中心北京蓝光汇智网络科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1