面向云平台的一种政务舆情监控方法技术

技术编号:13084228 阅读:102 留言:0更新日期:2016-03-30 15:50
本发明专利技术涉及云计算技术领域,尤其是面向云平台的一种政务舆情监控方法。本发明专利技术方法包括数据采集、数据预处理、数据分析及预警;所述的系统搭载在分布式集群上,由一个作为主节点的爬虫服务器和多个作为从节点的爬虫客户端组成,主节点负责任务分配,子节点负责任务执行,主从节点之间采用加密的心跳包进行通信;从节点上包括数据采集、预处理、分析及预警模块;所述的采集模块根据用户配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并自动过滤重复数据,构建主题数据库;数据预处理模块基于规则和自动混合的方式提取正文数据;数据分析及预警模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、热点分析,并对分析结果进行预警。本发明专利技术解决用户的网络舆情监测等问题,可以用于政务舆情监控上。

【技术实现步骤摘要】

本专利技术涉及云计算
,尤其是面向云平台的一种政务舆情监控方法。
技术介绍
基于云数据库的分布式实时智能监控方法,整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测、专题聚焦,实现用户的网络舆情监测和新闻专题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。
技术实现思路
本专利技术解决的技术问题在于提供面向云平台的一种政务舆情监控方法。本专利技术解决上述技术问题的技术方案是:所述的方法包括数据采集、数据预处理、数据分析及预警;所述的系统搭载在分布式集群上,由一个作为主节点的爬虫服务器和多个作为从节点的爬虫客户端组成,主节点负责任务分配,子节点负责任务执行,主从节点之间采用加密的心跳包进行通信;从节点上包括数据采集、预处理、分析及预警模块;所述的采集模块根据用户配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并自动过滤重复数据,构建主题数据库;数据预处理模块基于规则和自动混合的方式提取正文数据;数据分析及预警模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、热点分析,并对分析结果进行预警。所述的主从节点之间的通信,包括如下步骤:第一步,用户开启采集任务;第二步,主节点保存任务信息到元数据信息库;第三步,主节点根据用户配置信息进行任务初始化;第四步,主节点根据丛节点的CPU、内存、当前任务数等指标进行任务分配;第五步,从节点接收任务;第六步,从节点发送成功接收任务消息到主节点;第七步,主节点写任务信息到元数据库;第八步,从节点开始执行任务;第九步,若主节点N次未接收到从节点心跳包,则视为丛节点宕机并记录到日志系统,并重新分配任务给其他节点。所述的采集模块具体处理流程是:第一步,获取待采集的URL;第二步,通过数据路由器对URL进行过滤;第三步,抓取页面数据;第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;第五步,自动文本特征提取,生成网页指纹;第六步,检测是否为有相同文章;第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第八步,用TF_IDF算法提取N个关键词;第九步,找到与其重合度最高的m篇文章;第十步,若其重合度大于c则归为相应主题数据库;第十一步,建立倒排索引以供其他模块使用。所述的数据分析及预警模块具体处理流程是:第一步,将主题数据库进行重构,选择有代表性的数据;第二步,对每篇文档进行情感分析并计算分值Tendency∈[-1,1];第三步,对上述分析结果记入预警数据库;第四步,计算预警级别,其中degreei代表第i篇文档的热度,其计算公式为:degreei=(praisei×0.3+commenti×0.7)/(houri+2)其中:praisei代表赞数,commenti代表评论数,houri代表发帖时间到现在的时差;第五步,根据预警策略和预警级别给予email或短信等相应预警信息。所述的自动文本特征提取,生成网页指纹的步骤是:。第一步,提取正文各段落首句关键词(去掉停用词)作为文章的主特征;第二步,提取正文各段落的标点符号作为副特征;第三步,分别对主特征和副特征使用SimHash,然后拼接两段特征码,得到整个文章的指纹;第四步,存入缓存数据库。本专利技术采用分布式多线程的方式提高了抓取速度,提高了新闻的时效性;通过URL去重和使用文本相似度算法检测文本重复性,从而节省了磁盘空间,也同时提高了抓取速度;通过网页指纹算法提高了网页重复性检测的速度以及准确度。附图说明下面结合附图对本专利技术进一步说明:图1是本专利技术运用框架图;图2是主从节点架构图;图3是心数据抓取流程图;图4是数据分析流程图。具体实施方式如图1至4所示,本专利技术方法包括数据采集、数据预处理、数据分析及预警;所述的系统搭载在分布式集群上,由一个作为主节点的爬虫服务器和多个作为从节点的爬虫客户端组成,主节点负责任务分配,子节点负责任务执行,主从节点之间采用加密的心跳包进行通信;从节点上包括数据采集、预处理、分析及预警模块;所述的采集模块根据用户配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并自动过滤重复数据,构建主题数据库;数据预处理模块基于规则和自动混合的方式提取正文数据;数据分析及预警模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、热点分析,并对分析结果进行预警。如图2所示:所述的一个主节点和多个从节点组成,主节点负责任务分配,子节点负责任务执行,主从节点之间采用加密的心跳包进行通信,包括如下步骤:第一步,用户开启采集任务;第二步,主节点保存任务信息到元数据信息库;第三步,主节点根据用户配置信息进行任务初始化;第四步,主节点根据丛节点的CPU、内存、当前任务数等指标进行任务分配;第五步,从节点接收任务;第六步,从节点发送成功接收任务消息到主节点;第七步,主节点写任务信息到元数据库;第八步,从节点开始执行任务;第九步,若主节点N次未接收到从节点心跳包,则视为丛节点宕机并记录到日志系统,并重新分配任务给其他节点。如图3所示:所述的采集模块根据用户配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并过滤重复数据,构建主题数据库,包括如下流程:第一步,获取待采集的URL;第二步,通过数据路由器对URL进行过滤;第三步,抓取页面数据;第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采集URL集合;第五步,自动文本特征提取,生成网页指纹;第六步,检测是否为有相同文章;第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行分词操作;第八步,用TF_IDF算法提取N个关键词;第九步,找到与其重合度最高的m篇文章;第十步,若其重合度大于c则归为相应主题数据库;第十一步,建立倒排索引以供其他模块使用。如图4所示,数据分析模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、热点分析,并对分析结果进行预警,包括如下步骤:第一步,将主题数据库进行重构,选择有代表性的数据;第二步,对每篇文档进行情感分析并计算分值Tendency∈[-1,1];第三步,本文档来自技高网...

【技术保护点】
面向政务的一种舆情实时监控方法,其特征在于:所述的方法包括数据采集、数据预处理、数据分析及预警;所述的系统搭载在分布式集群上,由一个作为主节点的爬虫服务器和多个作为从节点的爬虫客户端组成,主节点负责任务分配,子节点负责任务执行,主从节点之间采用加密的心跳包进行通信;从节点上包括数据采集、预处理、分析及预警模块;所述的采集模块根据用户配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并自动过滤重复数据,构建主题数据库;数据预处理模块基于规则和自动混合的方式提取正文数据;数据分析及预警模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、热点分析,并对分析结果进行预警。

【技术特征摘要】
1.面向政务的一种舆情实时监控方法,其特征在于:所述的方法包括数据
采集、数据预处理、数据分析及预警;所述的系统搭载在分布式集群上,由一
个作为主节点的爬虫服务器和多个作为从节点的爬虫客户端组成,主节点负责
任务分配,子节点负责任务执行,主从节点之间采用加密的心跳包进行通信;
从节点上包括数据采集、预处理、分析及预警模块;所述的采集模块根据用户
配置、以及知识库抓取论坛、新闻、贴吧、博客等数据,并自动过滤重复数据,
构建主题数据库;数据预处理模块基于规则和自动混合的方式提取正文数据;
数据分析及预警模块利用机器学习的方法对清洗后的文本进行聚类、情感分析、
热点分析,并对分析结果进行预警。
2.根据权利要求1所述的面向政务的一种舆情实时监控方法,其特征在于:
所述的主从节点之间的通信,包括如下步骤:
第一步,用户开启采集任务;
第二步,主节点保存任务信息到元数据信息库;
第三步,主节点根据用户配置信息进行任务初始化;
第四步,主节点根据丛节点的CPU、内存、当前任务数等指标进行任务分
配;
第五步,从节点接收任务;
第六步,从节点发送成功接收任务消息到主节点;
第七步,主节点写任务信息到元数据库;
第八步,从节点开始执行任务;
第九步,若主节点N次未接收到从节点心跳包,则视为丛节点宕机并记录

\t到日志系统,并重新分配任务给其他节点。
3.根据权利要求1所述的面向政务的一种舆情实时监控方法,其特征在于:
所述的采集模块具体处理流程是:
第一步,获取待采集的URL;
第二步,通过数据路由器对URL进行过滤;
第三步,抓取页面数据;
第四步,对抓取的数据进行文本抽取,链接抽取,把抽取的链接加入待采
集URL集合;
第五步,自动文本特征提取,生成网页指纹;
第六步,检测是否为有相同文章;
第七步,如果已有相同文章则放弃抓取返回第一步,否则对正文文本进行
分词操作;
第八步,用TF_IDF算法提取N个关键词;
第九步,找到与其重合度最高的m篇文章;
第十步,若其重合度大于c则归为相应主题数据库;
第十一步,建立倒排索引以供其他模块使用。
4.根据权利要求2所述的面向政务的一种舆情实时监控方法,其特征在于:
所述的采集模块具...

【专利技术属性】
技术研发人员:侯朋李勇波季统凯
申请(专利权)人:国云科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1