一种电力新闻数据采集系统技术方案

技术编号:19934310 阅读:88 留言:0更新日期:2018-12-29 04:35
本发明专利技术涉及一种电力新闻数据采集系统,包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元,其中信息采集单元包括:定向抓取子单元,搜索引擎子单元,来源及采集频率子单元;信息处理单元包括:垃圾信息过滤子单元,智能去重子单元,HTML内容提取子单元,和快照保存子单元。舆情分析单元包括:文章权重计算子单元,传播轨迹分析子单元,自动分类与情感分析子单元,相似文章算法子单元和媒体覆盖子单元,舆情展示单元,包括WEB客户界面子单元,舆情预警子单元,舆情分析报告子单元。本发明专利技术实现在电力行业内的海量信息获取、主题思想内容自动提取、重大新闻话题自动聚类、排序和检索结果自动聚类等功能。

【技术实现步骤摘要】
一种电力新闻数据采集系统
本专利技术创造涉及信息监控领域,具体涉及电力行业的新闻数据采集系统。
技术介绍
电力是一个国家巩固、稳定的基本,随着社会的发展,电力行业在不断的改革和调整,发电、输配电方式越来越多样化,也在一定程度上增加了电力行业风险,因此,对电力行业进行实时监控,有利于预防电力负面舆论的产生和加剧,对于稳定电力行业发展有着极其重要的意义。随着科技的进步、互联网的发展,社会舆论的网络已成为可以表达民众观点、立场和情感的重要载体,网络舆论中反应了当今社会中人们较为关注的问题,随着网络的普及,参与者的增加,致使产生网络舆情的速率急速增长,网络舆情对社会带来的影响也迅速增大,研究发现,随着电力行业网站影响力的不断扩大,电力网络已经逐步发展起来,电力网络舆情的分析研究有利于实时了解电力行业的舆论走向,从而及时进行应对和改进,对于营造一个安稳的电力网络环境有着积极的作用。
技术实现思路
本专利技术涉及一种电力新闻数据采集系统,包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元,其中:为了实现上述目的,本专利技术是通过以下技术方案实现的:一种电力新闻数据采集系统,包括信息采集单元、本文档来自技高网...

【技术保护点】
1.一种电力新闻数据采集系统,其特征在于:所述的电力新闻数据采集系统包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元,其中:信息采集单元:用于监测站点及关键词,进一步包括:定向抓取子单元:可对人工定义的15万重点站点中的新闻、论坛、博客实现全面的抓取,同时对主流新闻网站分页、评论内容的采集以及对论坛点击数、回帖数的抓取;搜索引擎子单元:自动跟踪多个搜索引擎的搜索结果,对系统抓取进行补充,确保信息全面无遗漏;来源及采集频率子单元:自定义需要重点监测的信息,设定采集的栏目、URL、更新时间、扫描间隔,以便及时发现目标信息源的最新变化,并以最快的速度将个性化关注内容采集到本地;信息处理单元...

【技术特征摘要】
1.一种电力新闻数据采集系统,其特征在于:所述的电力新闻数据采集系统包括信息采集单元、信息处理单元、舆情分析单元和舆情展示单元,其中:信息采集单元:用于监测站点及关键词,进一步包括:定向抓取子单元:可对人工定义的15万重点站点中的新闻、论坛、博客实现全面的抓取,同时对主流新闻网站分页、评论内容的采集以及对论坛点击数、回帖数的抓取;搜索引擎子单元:自动跟踪多个搜索引擎的搜索结果,对系统抓取进行补充,确保信息全面无遗漏;来源及采集频率子单元:自定义需要重点监测的信息,设定采集的栏目、URL、更新时间、扫描间隔,以便及时发现目标信息源的最新变化,并以最快的速度将个性化关注内容采集到本地;信息处理单元:用于对接收的信息进行处理,进一步包括:垃圾信息过滤子单元:基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息;智能去重子单元:根据文档内容的匹配程度确定是否重复、去重的级别;HTML内容提取子单元:自动提取任意复杂网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以及作者等信息;快照保存子单元:对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便用户快速浏览,也方便用户查看被删除的文章或帖子;舆情分析单元:进一步包括:文章权重计算子单元:综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及用户自定义规则等复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息;传播轨迹分析子单元:系统可以对于一段时间内的舆情信息走势进行分析展示,同时可以以不同的载体如论坛、新闻等分类呈现;自动分类与情感分析子单元:将自然语言处理技术(NLP)应用于舆情监测领域,对信息精准分类并自动做情感分析;相似文章算法子单元:基于自然语言处理技术,系统根据文章内容相似程度计算相似文章,方便获取同一内容文章的所有传播网站;媒体覆盖子单元:系统可以对于监测信息的媒体类型情况进行展示,同时对于信息的主要传播媒体自动识别,进行整合分析,以图表呈现;舆情展示单元,进一步包括:WEB客户界面子单元:基于云计算模式,用户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进行全面的了解;客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容,并以列表以及图表展示等可视化方式呈现,导航栏方便用户查看各种分类;栏目定制功能,用户可以在首页自行删、减、增添所需要的功能模块;舆情预警子单元:预警级别显示,显示当日舆情级别,方便用户整体把握,同时呈现预警信息走势和预警信息列表,建立多个舆情指标,对于突发舆情自动发出预警信号,在最短时间内通过短信或邮件方式通知用户,辅助进行舆情干预和引导;舆情分析报告子单元:根据舆情分析引擎处理后的结果库生成报告,客户可通过浏览器浏览,并且可以导出生成为Word、PDF等格式的本地文档,方便客户对不同时段的重点和热点以及对事件舆情数据的把握。2.如权利要求1所述,所述的一种电力新闻数据采集系统,其特征在于:所述的文章权重计算子单元,进一步包括:根据文章自身的权重,与客户关系,以及其他权重因子最终生成权重值,最终的权重值=a*文章自身的权重+b*与客户关系的权重+c*其他权重因子,其中,a、b、c分别为影响因子各自的权重系数。3.如权利要求2所述,所述的一种电力新闻数据采集系统,其特征在于:通过以上方式计算出文章权重级别后,再进行权重级别的定义,首先将信息文章分为5个级别选项,从级别1到级别5,其中级别5的文章信息权重为最高,级别1:文章权重小于1的;级别2:文章权重在1-2.8之间的(包含1);级别3:文章权重在2.8-4.8之间的(包含2.8);级别4:文章权重在4.8-6之间的(包含4.8);级别5:重点关注的和文章权重在6以上的(含6)。4.如权利要求1所述,所述的一种电力新闻数据采集系统,其特征在于:所述的自动分类与情感分析子单元进一步包括:自动分类,使用语料训练统计量与代码词表模型混合算法,计算过TF-IDF后,再对指定类别Class中出现的所有单词W计算其权重Weight,具体分为以下步骤:步骤一:导入训练文档步骤:Step11,从训练集中读取文档;Step12,提取已读取文档的内容及其类别;Step13,对所有需要分类的文章进行分词(不要进行词性标注),分词后的文件名以.seg为扩展名,保存到指定的文件夹中;步骤二:统计词频步骤:Step21,对训练文档进行分词与词性标注处理,词性标注的后的文件名以.pos为扩展名,保存到指定的文件夹中;Step22,类别特征抽取Step221统计要处理的文件(指定训练目录下所有的.pos文件)Step222统计这些文件的词频(TF,词出现的总次数)、逆向文档频率(IDF,出现该词的文档数目);Step23对指定类别Class中出现的所有单词W计算其权重Weight;步骤三:计算词权重步骤:Step31,计算训练文档总数N;Step32,计算指定类别Class中出现单词W的文档数目A;Step33,计算除指定类别Class外,其他所有类别中出现单词W的文档数目B;Step34,计算指定类别Class中没有出现单词W的文档数目C;Step35,计算除指定类别Class外,其他所有类别中没有出现单词W的文档数目D;采用如下公式计算单词W在类别Class中的权重Wweight=N×(A×D-B×C)2/((A+B)×(C+D)×(A+C)×(B+D));Step36对每类别的词按权重从大到小排序;Step37提取权重最大的前M个词(一般为500或2000)为类别的特征词;步骤四:优化类别特征步骤:Step41设定特征数目num,类别名称name,任...

【专利技术属性】
技术研发人员:黄颖孟肖虎齐丰
申请(专利权)人:中电传媒股份有限公司
类型:发明
国别省市:北京,11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1