当前位置: 首页 > 专利查询>济南大学专利>正文

一种概率主题计算与匹配的舆情监测方法及系统技术方案

技术编号:16038251 阅读:38 留言:0更新日期:2017-08-19 20:05
本发明专利技术公开了一种概率主题计算与匹配的舆情监测方法及系统;包括:数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档进行主题匹配;中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,对合并后的内容进行分词,分词后去掉停用词;主题估计:对分词后的内容估计出主题库与历史文档主题集;主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集,从而实现舆情监测。

【技术实现步骤摘要】
一种概率主题计算与匹配的舆情监测方法及系统
本专利技术涉及一种概率主题计算与匹配的舆情监测方法及系统。
技术介绍
互联网成为继报纸、广播、电视之后的第四媒体,每天会产生大量的类似论坛、博客、微博、微信等媒体数据。网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。随着社交媒体的爆炸性增长,自动化舆情分析与监控可为多个领域或行业提供决策支持。然而,现有技术主要通过文本匹配实现舆情监测,缺乏语义支持,匹配后监测结果的排序并不一定完全准确。大数据环境下,计算机辅助内容数据自动化分析技术是舆情监测的关键。现有技术主要存在三类内容分析方法:(1)基于情感词典的内容分析:该方法将搜索关键词与预定义的标准词典进行匹配。然而,由于每个单词组合可以仅具有用于所有文本的一个固定的含义,所以这些手工创建的单词索引通常是不充分且有限的。除此之外,内容匹配不能考虑到语义相似的同义词;(2)基于头词和修饰符共现的统计方法:不同于能够理解语言细微差别的程序员,该方法从大量内容文本中统计特定关本文档来自技高网...
一种概率主题计算与匹配的舆情监测方法及系统

【技术保护点】
一种概率主题计算与匹配的舆情监测方法,其特征是,包括:步骤(1):数据采集:步骤(101):数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;步骤(102):存储推送:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至步骤(3)进行主题匹配;步骤(2):主题计算:步骤(201):中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;...

【技术特征摘要】
1.一种概率主题计算与匹配的舆情监测方法,其特征是,包括:步骤(1):数据采集:步骤(101):数据采集解析:利用爬虫集群从数据源中采集页面HTML,然后爬虫集群依据规则库对采集到的页面HTML进行解析得到若干条媒体数据;解析出来的每一条媒体数据均被称作一篇文档,每篇文档包括标题、时间与内容;步骤(102):存储推送:所述爬虫集群采用异步方式将解析得到的文档存储在全文检索系统,采用同步方法将解析得到的文档推送至步骤(3)进行主题匹配;步骤(2):主题计算:步骤(201):中文分词:从全文检索系统中读取文档,将每个文档的标题与内容合并,利用条件随机场分词算法对合并后的内容进行分词,分词后去掉停用词;步骤(202):主题估计:采用Gibbs抽样对分词后的内容估计出主题库与历史文档主题集;步骤(3):主题匹配:将数据采集实时推送的文档推断出实际文档主题集,并将实际文档主题集与用户输入的舆情监测关键词进行匹配,得到有序文档集。2.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,所述步骤(3)包括如下步骤:步骤(301):文档分发:按轮询模式将数据采集实时推送的文档并行分发下去;步骤(302):中文分词:将分发得到的每个文档的标题与对应内容合并后,用条件随机场CRF算法进行分词,然后去掉停用词;步骤(303):主题推断:采用Gibbs抽样对分词后的内容和主题估计得到的主题库推断出实时文档主题集;步骤(304):关键词匹配:将实时文档主题集与用户输入的舆情监测关键词进行匹配;步骤(305):排序:按照文档评分从高到低对匹配后的文档集进行排序形成有序文档集。3.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,还包括:步骤(4):舆情监测:根据步骤(3)得到的有序文档集中的排序,得出舆情的监控情况,排序越靠前的,越是当前舆情关注的热点。4.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,所述规则库包括一组选择器;所述爬虫集群使用选择器从采集到的页面HTML解析出包含标题、时间和内容属性的文档;所述选择器包括三种,分别是元素选择器、属性选择器、联合选择器;所述元素选择器通过HTML标签名称、HTML标签ID或HTML标签类名选择相应的元素;所述属性选择器通过HTML标签属性值、HTML标签属性值模糊匹配或HTML标签属性值正则匹配选择相应的元素;所述联合选择器通过元素ID、元素类名、元素属性、相同祖先元素的子元素或相同父母元素的子元素等选择相应的元素。5.如权利要求1所述的一种概率主题计算与匹配的舆情监测方法,其特征是,主题计算中的主题估计,将主题估计抽象为Map任务与Reduce任务进行计算,步骤为:Map任务,求解隐变量:为每个关键词随机生成一个主题,为每个文档计算伪频数,计算主题的后验概率;Reduce任务,求解模型参数:将每个主题关键词的伪频数叠加后标准化,计算出每个主题的关键词分布与每个文档的主题分布;...

【专利技术属性】
技术研发人员:马坤周劲于自强纪科
申请(专利权)人:济南大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1