【技术实现步骤摘要】
一种高效的粮食舆情监控系统
本专利技术创造涉及舆情监控领域,具体涉及一种高效的粮食舆情监控系统。
技术介绍
粮食是一个国家巩固、稳定的基本,随着社会的发展,粮食现代市场在不断的改革和调整,粮食的流通体制越来越丰富,然后这在一定程度上增加了粮食危机的系数,因此,对粮食市场以及粮食危机的实时监控,有利于预防粮食危机的产生和加剧,对于稳定粮食市场有着极其重要的意义。随着科技的进步、互联网的发展,社会舆论的网络已成为可以表达民众观点、立场和情感的重要载体,网络舆论中反应了当今社会中人们较为关注的问题,随着网络的普及,参与者的增加,致使产生网络舆情的速率急速增长,网络舆情对社会带来的影响也迅速增大,研究发现,随着粮食相关网站的兴起,粮食网络已经逐步发展起来,粮食网络舆情的分析研究有利于实时了解粮食市场的舆论走向,从而及时进行应对和改进,对于营造一个安稳的粮食网络环境有着积极的作用。
技术实现思路
针对上述问题,本专利技术旨在提供一种高效的粮食舆情监控系统。本专利技术创造的目的通过以下技术方案实现:一种高效的粮食舆情监控系统,包括舆情采集模块、舆情处理模块和客户端模块,所述舆情采 ...
【技术保护点】
一种高效的粮食舆情监控系统,其特征是,包括舆情采集模块、舆情处理模块和客户端模块,所述舆情采集模块用于设定粮食相关网站的链接为种子链接,并采用主题爬虫策略从此种子链接出发,搜集与粮食主题相关的网页,所述舆情处理模块用于对采集得到的网页进行正文部分的提取并对正文部分进行中文分词,从所述中文分词结果中提取具有代表性的特征项并计算相应特征项的权重,从而通过计算网页的主题相似性系数,对采集得到的网页进行筛选,所述客户端模块用于存储粮食主题相关的网页信息,用户可以通过访问客户端模块实时了解粮食的舆情信息。
【技术特征摘要】
1.一种高效的粮食舆情监控系统,其特征是,包括舆情采集模块、舆情处理模块和客户端模块,所述舆情采集模块用于设定粮食相关网站的链接为种子链接,并采用主题爬虫策略从此种子链接出发,搜集与粮食主题相关的网页,所述舆情处理模块用于对采集得到的网页进行正文部分的提取并对正文部分进行中文分词,从所述中文分词结果中提取具有代表性的特征项并计算相应特征项的权重,从而通过计算网页的主题相似性系数,对采集得到的网页进行筛选,所述客户端模块用于存储粮食主题相关的网页信息,用户可以通过访问客户端模块实时了解粮食的舆情信息。2.根据权利要求1所述的一种高效的粮食舆情监控系统,其特征是,所述客户端模块为安装有相关应用的智能手机或平板电脑。3.根据权利要求2所述的一种高效的粮食舆情监控系统,其特征是,所述舆情采集模块包括主题设置单元、链接分析单元和舆情采集单元,所述主题设置单元用于根据本系统的主题设置粮食相关网站的网页链接为种子链接,所述链接分析单元用于分析URL队列中链接的主题相关度,去除主题相关度较小的链接,所述舆情采集单元用于根据设置的初始链接,采用主题爬虫策略进行主题相关网页的爬取。4.根据权利要求3所述的一种高效的粮食舆情监控系统,其特征是,所述链接分析单元用于分析URL队列中链接的主题相关度,确定与本系统主题相关的网页链接,具体包括:(1)分析主题相关网页的IP链接中URL字符串的特点,定义URL字符串中代表粮食主题的关键词组D,则网页的URL字符串的网页系数x1为:式中,dr为采集得到的网页的URL中包含的词组D中的关键词的个数,D为网页链接的URL中代表粮食主题相关的关键词组;(2)分析主题相关的网页的锚文本的特点,则网页的锚文本的网页系数x2为:式中,mr为网页中锚文本中包含的关键词组G中的关键词的个数,G为代表粮食主题的关键词组;(3)根据上述所得的网页系数x1和网页系数x2,计算网页链接的主题相关度系数ε,则ε的表达式为:式中,x1为URL字符串的网页系数,x2为锚文本的网页系数,σ1和σ2分别为URL字符串的网页系数x1和锚文本的网页系数x2的权重;(4)定义网页主题相关阈值γ,则当ε大于阈值γ时即确定为主题相关链接,予以保留,当ε小于阈值γ时,即确定为主题不相关链接,则删除此网页链接。5.根据权利要求4所述的一种高效的粮食舆情监控系统,其特征是,所述舆情处理模块包括特征项提取单元、权重计算单元和网页筛选单元,所述特征项提取单元用于从正文部分的分词结果中选取具有代表性的特征项,所述权重计算单元用于计算所述特征项在文本中的权重,所述网页筛选单元用于通过计算网页的主题相似性系数,从而筛选出主题相关的网页进行保存。6.根据权利要求5所述的一种高效的粮食舆情监控系统,其特征是,所述特征项提取单元用于从正文部分的分词结果中提取特征项,其采用一种改进的信息增益计算方法进行特征项的选择,具体包括:定义采集得到的文档中类别为Ci(1≤i≤m)的文本有{ci1,ci2,……...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:上海耐相智能科技有限公司,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。