一种舆情分析系统技术方案

技术编号:36350418 阅读:12 留言:0更新日期:2023-01-14 18:05
本发明专利技术公开了一种舆情分析系统,涉及网站用户评论语义分析技术领域,包括数据收集模块、数据解析模块、数据存储模块、数据分析模块和数据展示模块,数据收集模块用于获取网站页面HTML数据;数据解析模块用于解析数据收集模块获取的网站页面HTML数据;数据存储模块用于存储数据解析模块解析得到的数据;本发明专利技术的有益效果为:该系统可以更加直观的展现出用户对产品、事件的情感,根据用户评论的情绪及云图展示出用户关注点,对产品进行及时的改善以及对事件发展的方向进行及时的调控,从而降低了分析时间以及人工成本,并提高实际的工作效率,而且收集数据的及时性好,且数据分析全面彻底。彻底。彻底。

【技术实现步骤摘要】
一种舆情分析系统


[0001]本专利技术涉及网站用户评论语义分析
,具体为一种舆情分析系统。

技术介绍

[0002]随着互联网技术以及国民经济的不断发展,参与互联网社交的人数日益增长,孕育出越来越多的社交平台,使得互联网中的“网民声音”与日俱增。这些“网民声音”在互联网发展中,慢慢形成网络舆情,这些舆情对事物影响及事件的发展都有着重要的意义。所以,为了更好的改进事件及发展事件,对舆情的语义分析也成为互联网大数据分析的主流。
[0003]在消费品行业,品牌商会在各大社交平台进行新品发布、活动预热。当经过一段时间后,需要对用户的反馈信息进行收集,来分析用户对新品及活动的情绪。
[0004]品牌商通常会安排运营人员,去各个平台收集用户言论数据,收集方式通常都是人工浏览社交平台下的数据,将其统计到Excel中,并逐一人工分析用户的对新品及活动的情绪。
[0005]现有技术存在的不足之处在于:首先,通过人工搜集用户言论数据,效率地下,且增加了分析时间、人工成本;其次,社交平台种类繁多,人工收集往往不够及时,且会漏统计,导致数据分析不全面;还有,用户言论数据收集后,只能简单分析用户对产品的情绪,无法直观的展示收集的数据。

技术实现思路

[0006]针对
技术介绍
中提出的现有技术的问题,本专利技术提供了一种舆情分析系统,解决了上述
技术介绍
中提出的问题。
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:一种舆情分析系统,包括:
[0008]数据收集模块,用于获取网站页面HTML数据;
[0009]数据解析模块,用于解析数据收集模块获取的网站页面HTML数据;
[0010]数据存储模块,用于存储数据解析模块解析得到的数据;
[0011]数据分析模块,用于对数据存储模块中存在的数据进行分析;以及数据展示模块,用于进行用户评论汇总展示、云图展示等工作。
[0012]优选的,所述数据收集模块包括开源包requests,该开源包requests用于HTTP请求,以获取网站页面数据。
[0013]优选的,所述数据解析模块包括:
[0014]开源爬虫框架Scrapy,所述开源爬虫框架Scrapy用于抓取web站点并从页面中提取结构化的数据;
[0015]开源包fontTools.ttLib,所述开源包fontTools.ttLib用于对网站页面编码字体进行解码;
[0016]开源包lxml,用于获取网页中的标签内容;
[0017]开源包os,用于对文件的操作,例如读取Azure相关配置;以及
[0018]开源包json,用于对Json字符串的序列化、反序列化。
[0019]利用开源爬虫框架Scrapy7,进行模拟点击下一页操作,在请求过程中,如果请求次数过于频繁会导致请求IP被禁止访问,所以需要增加代理服务,在Scrapy框架的setting.py文件中设置UserAgent及IP代理PROXIES,在中间件middlewares.py文件中调用设置的代理数据,解决了人工收集数据效率低、成本高的问题。
[0020]优选的,所述数据存储模块包括用于存储数据至csv文件的开源包csv以及用于超大规模的数据存储的开源关系数据库。
[0021]优选的,所述数据分析模块包括:
[0022]开源包azure.core.credentials,用于提供Azure授权的API;以及
[0023]开源包azure.ai.textanalytics,用于提供文本分析的API。
[0024]优选的,所述数据展示模块包括软件服务Power BI,该软件服务Power BI用于读取存储在开源关系数据库中的用户言论数据,并汇总展示用户言论数据的语言分析。
[0025]本专利技术提供了一种舆情分析系统,具备以下有益效果:
[0026]该舆情分析系统基于Scrapy框架及Azure认知服务,统一各大社交平台的用户评论获取、分析、与展示。后台基于开源爬虫框架Scrapy定时获取用户对某个产品、某个事件的评论,利用Azure认知服务,对用户的评论进行语义分析,从而判断出用户对产品、事件的情绪,再通过软件服务PowerBI对分析完的用户评论进行云图展示,可以更加直观的展现出用户对产品、事件的情感,根据用户评论的情绪及云图展示出用户关注点,对产品进行及时的改善以及对事件发展的方向进行及时的调控,从而降低了分析时间以及人工成本,并提高实际的工作效率,而且收集数据的及时性好,且数据分析全面彻底。
附图说明
[0027]图1为本专利技术的模块图;
[0028]图2为本专利技术数据收集模块的模块结构示意图;
[0029]图3为本专利技术数据解析模块的模块结构示意图;
[0030]图4为本专利技术数据存储模块的模块结构示意图;
[0031]图5为本专利技术数据分析模块的模块结构示意图;
[0032]图6为本专利技术数据展示模块的模块结构示意图。
[0033]图中:1、数据收集模块;2、数据解析模块;3、数据存储模块;4、数据分析模块;5、数据展示模块;6、开源包requests;7、开源爬虫框架Scrapy;8、开源包fontTools.ttLib;9、开源包lxml;10、开源包os;11、开源包json;12、开源包csv;13、开源关系数据库;14、开源包azure.core.credentials;15、开源包azure.ai.textanalytics;16、软件服务PowerBI。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。
[0035]本专利技术提供一种舆情分析系统,如图1所示,该系统包括数据收集模块1、数据解析模块2、数据存储模块3、数据分析模块4和数据展示模块5;其中,数据收集模块1用于获取网站页面HTML数据,数据解析模块2用于解析数据收集模块1获取的网站页面HTML数据,数据
存储模块3用于存储数据解析模块2解析得到的数据,数据分析模块4用于对数据存储模块3中存在的数据进行分析,数据展示模块5用于进行用户评论汇总展示、云图展示等工作;下面对上述五个模块进行详细的说明。
[0036]如图2所示,数据收集模块1包括开源包requests6,通过该开源包requests6,可以对各个社交平台的网站进行请求,以获取网站页面HTML数据,并利用开源爬虫框架Scrapy7,进行模拟点击下一页操作,在请求过程中,如果请求次数过于频繁会导致请求IP被禁止访问,所以需要增加代理服务,在Scrapy框架的setting.py文件中设置UserAgent及IP代理PROXIES,在中间件middlewares.py文件中调用设置的代理数据,解决了人工收集数据效率低、成本高的问题。
[0037]如图3所示,数据解析模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种舆情分析系统,其特征在于,包括:数据收集模块(1),用于获取网站页面HTML数据;数据解析模块(2),用于解析数据收集模块(1)获取的网站页面HTML数据;数据存储模块(3),用于存储数据解析模块(2)解析得到的数据;数据分析模块(4),用于对数据存储模块(3)中存在的数据进行分析;以及数据展示模块(5),用于进行用户评论汇总展示、云图展示等工作。2.根据权利要求1所述的一种舆情分析系统,其特征在于:所述数据收集模块(1)包括开源包requests(6),该开源包requests(6)用于HTTP请求,以获取网站页面数据。3.根据权利要求1所述的一种舆情分析系统,其特征在于:所述数据解析模块(2)包括:开源爬虫框架Scrapy(7),所述开源爬虫框架Scrapy(7)用于抓取web站点并从页面中提取结构化的数据;开源包fontTools.ttLib(8),所述开源包fontTools.ttLib(8)用于对网站页面编码字体进行解码;开源包lx...

【专利技术属性】
技术研发人员:单建炜陈阳
申请(专利权)人:苏州瑞泰信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1