The present invention discloses a data analysis system based on Wechat group information, which includes: an information acquisition module, which collects a batch of HTML tags of a preset number of Wechat group messages in the order of sending every preset time; and a data analysis module, which obtains the HTML tags collected by the information acquisition module through regular parsing each of them. The attribute of a group message, which includes the group number and the group message number; the cache de-duplication module, which hashes the group number and the group message number contained in each group message attribute to get the hash value, and then compares the hash value of each group message in the two adjacent batches. If there is a duplicate part, the latter will be Group message deletion with repeated hash values in batches; multimedia extraction module; object storage module; keyword extraction module; group message library module. The invention has the advantages that the collected message data of the micro-message group can be analyzed and counted, and displayed intuitively at last, and the micro-message group can be monitored effectively and intuitively.
【技术实现步骤摘要】
基于微信群信息的数据分析系统
本专利技术涉及信息
更具体地说,本专利技术涉及一种基于微信群信息的数据分析系统。
技术介绍
当今社会,互联网发展十分迅速,导致网民的数量急剧上升。随着网民数量的上升,互联网越来越成为人们获取信息的主要途径,一些有影响力的门户网站,博客,社交工具逐渐变得越来越受欢迎。在众多社交工具中微信群成为最受人们欢迎的交流方式之一。这种通过微信在网上把人与人联结在一起的虚拟社群,正在渗透和影响着人们的身心和生活。在群里可以分享一切你想与大家分享沟通的信息。但是,在互联网快速发展的同时,也不断的产生一些问题。少数不法分子借助互联网开放自由的特性,传播一些不法信息,严重影这社会安定团结,这就需要对微信群进行实时的查看。但是,微信群用户众多,数据量每天都在以惊人的速度增长,如何高效率的对微信群信息进行实时的查看成为了难题。针对此难题,需要一种有效的基于微信群的数据分析系统及方法。目前,对微信群查看存在着一定的问题:1、完全依靠人工操作,监测人员无法对微信群群内的信息进行类型和时间区间的筛选,而且对于某个关键词,无法在目前正在监测的微信群群内的言论中进行检索,大大降低的查看的效率。2、监测人员不能直观且清晰的看到群内主要讨论的内容以及微信群的活跃度,只能定性模糊的对微信群进行审查。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种将采集到的微信群消息数据进行分析和统计,最后直观的展示出来,以此达到可以有效、直观的查看微信群的目的的基于微信群信息的数据分析系统。为了实现根据本专利技 ...
【技术保护点】
1.基于微信群信息的数据分析系统,其特征在于,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号、群消息类型、群消息发送时间和群消息主体,所述数据分析模块将不同的群消息类型赋予不同的数值;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块,其根据群消息类型的数值识别出不同类型的群消息,并将群消息主体中包含多媒体文件链接的多媒体文件内容进行下载,再以每条群消息的哈希值为键,以每条群消息主体的内容为值生成键值对;对象存储模块,其存储每条群消息的键值对;关键词提取模块,其对包含文字内容的群消息主体进行关键词提取运算提取出其中的关键词;群消息库模块,其存储除群消息主体以外的每条群消息的属性和哈希值,若群消息主体中包含文字内容,所述群消息库模块还继续存储该群消息的关键词。
【技术特征摘要】
1.基于微信群信息的数据分析系统,其特征在于,包括:信息采集模块,其每隔预设时间按发送顺序采集一批预设数量的微信群消息的html标签;数据分析模块,其将信息采集模块采集到的html标签通过正则解析得出其中包含的每条群消息的属性,所述群消息属性包括群编号、群消息编号、群消息类型、群消息发送时间和群消息主体,所述数据分析模块将不同的群消息类型赋予不同的数值;缓存去重模块,其将每条群消息属性包含的群编号和群消息编号进行哈希运算得到哈希值,再将相邻两批次中的每条群消息的哈希值对比,若有重复部分,则将后一批次中哈希值重复的群消息删除;多媒体提取模块,其根据群消息类型的数值识别出不同类型的群消息,并将群消息主体中包含多媒体文件链接的多媒体文件内容进行下载,再以每条群消息的哈希值为键,以每条群消息主体的内容为值生成键值对;对象存储模块,其存储每条群消息的键值对;关键词提取模块,其对包含文字内容的群消息主体进行关键词提取运算提取出其中的关键词;群消息库模块,其存储除群消息主体以外的每条群消息的属性和哈希值,若群消息主体中包含文字内容,所述群消息库模块还继续存储该群消息的关键词。2.如权利要求1所述的基于微信群信息的数据分析系统,其特征在于,还包括:定时请求模块,其每隔预设时间从群消息库模块中获取所有群消息主体中包含文字内容的群消息的关键词;垃圾词库模块,其存储预先设定的垃圾词或垃圾短语;分析过滤模块,其将定时请求模块中每条群消息主体包含...
【专利技术属性】
技术研发人员:刘春阳,张旭,梁汝锋,张传新,刘正阳,李雄,刘巨安,王菲,
申请(专利权)人:国家计算机网络与信息安全管理中心,北京蓝光汇智网络科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。