舆情分析方法、系统、计算机设备和存储介质技术方案

技术编号:17994510 阅读:74 留言:0更新日期:2018-05-19 11:42
本发明专利技术公开了一种针对利用互联网营销活动,以低成本甚至零成本换取高额奖励的行为的舆情分析方法、系统、计算机设备和存储介质,该舆情分析方法包括:S101:根据预先定义的搜索策略,通过网络爬虫搜索并读取网页文件,从网页文件中提取舆情数据;S102:对提取的舆情数据进行过滤,去除垃圾信息;S103:对过滤后的舆情数据进行整理分类;S104:对每个分类结果中的舆情数据进行分析处理;S105:以图表和报告形式显示和输出经过S104得到的舆情分析结果;一种舆情分析系统,所述舆情分析系统包括爬虫模块、过滤模块、分类模块、分析模块和展示模块。本发明专利技术提高了数据收集的精准度和舆情分析的准确度,通过主动式感知风险,能尽早对风险点进行有效处理。

Public opinion analysis method, system, computer equipment and storage medium

The present invention discloses a public opinion analysis method, system, computer equipment and storage medium for the use of Internet marketing activities to exchange high rewards at low or even zero costs. The public opinion analysis method includes: S101: search and read web pages through a web crawler based on a pre defined search strategy. To extract public opinion data from web pages; S102: filter the extracted public opinion data and remove garbage information; S103: sorting out the public opinion data after filtering; S104: analysis and processing of public opinion data in each classification result; S105: displays and outputs public opinion from S104 by chart and report form. The public opinion analysis system includes a crawler module, a filtering module, a classification module, an analysis module and a display module. The invention improves the accuracy of data collection and the accuracy of public opinion analysis, and can effectively handle risk points as early as possible through active perception of risks.

【技术实现步骤摘要】
舆情分析方法、系统、计算机设备和存储介质
本专利技术涉及信息分析的
,尤其涉及一种针对利用互联网营销活动,以低成本甚至零成本换取高额奖励的行为的舆情分析方法、系统、计算机设备和存储介质。
技术介绍
舆情监控系统又被称作互联网舆情监控系统,是指通过相关的专业舆情软件按照一定的规则和方法将互联网上繁杂的信息当中关注的舆情信息抓取出来,并通过分析过滤等方式加工处理最终呈现出与需求相匹配的舆情信息。近年来,以80后为代表的白领,对搜集各大电子商城、银行、实体店等各渠道的优惠促销活动、免费业务之类的信息产生了浓厚的兴趣。他们有选择地参与活动,从而以相对较低成本甚至零成本换取物质上的实惠。这一行为被称为“薅羊毛”,而关注与热衷于“薅羊毛”的群体就被称作“羊毛党”。随着互联网金融的蓬勃发展,一些网贷平台为吸引投资者常推出一些收益丰厚的活动,如注册认证奖励、充值返现、投标返利,更繁荣了以此寄生的上述群体。例如,一个活动,一个银行卡可以赚20,假如某人有三个银行卡,一个活动就赚60,如果每天参与3个活动,就是200元左右,而且,90%的活动都是邀请也有奖励的,他们或者邀请朋友,或者邀请自己小号,就能赚取更多。目前业内的舆情分析方法及系统大多实现了四个基本功能,包括互联网信息获取、互联网信息处理、舆情分析和辅助决策,但是面对复杂的互联网情况,存在以下三个方面缺陷:对于人为特殊书写上的评论,如修改同音字、特殊符号干扰,数据的爬取难度大,出现关键信息漏爬和垃圾信息乱爬的情况;由于数据源的收集受到干扰,无法从爬取的现有的局限信息中准确分析出一种动态倾向性;对信息的分析欠缺专业性,不能有效针对利用互联网营销活动,以低成本甚至零成本换取高额奖励的行为高发人群进行准确地风险感知。
技术实现思路
本专利技术目的在于提出的一种舆情分析方法、系统、计算机设备和存储介质,以解决上述
技术介绍
中的不足之处,对于人为特殊书写上的评论,如修改同音字、特殊符号干扰,数据的爬取难度大,出现关键信息漏爬和垃圾信息乱爬的情况;由于数据源的收集受到干扰,无法从爬取的现有的局限信息中准确分析出一种动态倾向性;对信息的分析欠缺专业性,不能有效针对利用互联网营销活动,以低成本甚至零成本换取高额奖励的行为高发人群进行准确地风险感知。为了实现上述目的,本专利技术提供如下技术方案:一种舆情分析方法,所述舆情分析方法,具体步骤如下:S101:根据预先定义的搜索策略,通过网络爬虫搜索并读取网页文件,从网页文件中提取舆情数据;S102:对提取的舆情数据进行过滤,去除垃圾信息;S103:对过滤后的舆情数据进行整理分类,分类类型包括来源、强相关和活跃人员所发贴;S104:对每个分类结果中的舆情数据进行分析处理,包括所述起源、所述舆论情感色彩、所述网络扩散状态、所述发展趋势、所述地域分布信息、所述年龄段范围信息和所述关注热点;S105:以图表和报告形式显示和输出经过步骤S104得到的舆情分析结果。优选的,舆情数据包括网址、标题、时间、作者、来源、正文、评论、点击率、回复数和转载量。优选的,所述步骤S102中,对舆情数据进行过滤包括:当触发预设条件时,判定舆情数据为垃圾信息,并进行过滤,其中,垃圾信息=A||B||C||D,A=中文长度少于4,B=连续英文长度大于15,C=黑名单词语,D=包含符号*&^%$#@。优选的,步骤S104,对每个分类结果中的舆情数据进行分析处理包括:S401:分析爬取来源,得到该舆情数据对应的起源;S402:对统计单位时间内的舆情数据进行情感分析,得到舆论情感色彩;S403:分析各爬虫来源是否包含该舆情事件,得到该舆情事件的所述网络扩散状态;S404:分析单位时间内关键词出现频率,得到该舆情事件的所述发展趋势;S405:分析参与该舆情事件的用户的登录IP和年龄信息,得到该舆情事件发生的所在地域分布信息和年龄段范围信息;S406:分析单位时间内词语出现频率,得到所述关注热点。优选的,步骤S402中,对统计单位时间内的舆情数据进行情感分析包括:结合词典的方式,使用基于句子加权算法的情感分析方法。优选的,舆论情感色彩包括高兴、普通或愤怒,网络扩散状态包括扩散初期、扩散中期或扩散晚期。优选的,所述步骤S105中,所述图表包括饼形图、折线图、柱形图、条形图、面积图、散点图、表格中的一种或数种,或饼形图、折线图、柱形图、条形图、面积图、散点图、表格中两种或两种以上叠加而成的复合图。基于相同的技术构思,本专利技术还提供一种舆情分析系统,所述舆情分析系统包括爬虫模块、过滤模块、分类模块、分析模块和展示模块。所述爬虫模块,用于根据预先定义的搜索策略,通过网络爬虫搜索并读取网页文件,从网页文件中提取舆情数据;所述过滤模块,用于对提取的舆情数据进行过滤,去除垃圾信息;所述分类模块,用于对过滤后的舆情数据进行整理分类,分类类型包括来源、强相关和活跃人员所发贴;所述分析模块,用于对每个分类结果中的舆情数据进行分析处理,得到舆情分析结果,包括起源、舆论情感色彩、网络扩散状态、发展趋势、地域分布信息、年龄段范围信息和关注热点;所述展示模块,用于以图表和报告形式显示和输出经过步骤S104得到的所述舆情分析结果。基于相同的技术构思,本专利技术还提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述舆情分析方法的步骤。基于相同的技术构思,本专利技术还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述舆情分析方法的步骤。上述舆情分析方法、系统、计算机设备和存储介质,根据预先定义的搜索策略,通过网络爬虫搜索并读取网页文件,从网页文件中提取舆情数据,对提取的舆情数据进行过滤包括:当触发预设条件时,判定所述舆情数据为垃圾信息,并进行过滤,其中,垃圾信息=A||B||C||D,A=中文长度少于4,B=连续英文长度大于15,C=黑名单词语,D=包含符号*&^%$#@,去除垃圾信息,对过滤后的舆情数据进行整理分类,分类类型包括来源、强相关和活跃人员所发贴;对每个分类结果中的舆情数据进行分析处理,得到舆情分析结果,包括起源、舆论情感色彩、网络扩散状态、发展趋势、地域分布信息、年龄段范围信息和关注热点;以图表和报告形式显示和输出经过步骤S104得到的所述舆情分析结果。与现有技术相比,本专利技术的有益效果是:增加数据收集精准度,对数据格式化处理,主动增加热点词汇词频后,增加舆情分析准确度;获得关注的倾向,对凌乱的社区论坛进行言论收集,感知人们的关注倾向,情绪倾向;主动式感知风险,通过跟踪在论坛、公众号、微博、报刊中发贴浏览量排名前50的会员或发贴回复量排名前50的会员,即利用互联网营销活动,以低成本甚至零成本换取高额奖励的行为核心人员的发贴动作,提前预测下一次利用互联网营销活动,以低成本甚至零成本换取高额奖励的行为高发人群的重大事件内容,来主动感知风险,可尽早对风险点进行有效处理。附图说明图1为本专利技术舆情分析方法的流程图;图2为本专利技术舆情分析系统的结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实本文档来自技高网
...
舆情分析方法、系统、计算机设备和存储介质

【技术保护点】
一种舆情分析方法,其特征在于,所述舆情分析方法包括:S101:根据预先定义的搜索策略,通过网络爬虫搜索并读取网页文件,从网页文件中提取舆情数据;S102:对提取的舆情数据进行过滤,去除垃圾信息;S103:对过滤后的舆情数据进行整理分类,分类类型包括来源、强相关和活跃人员所发贴;S104:对每个分类结果中的舆情数据进行分析处理,得到舆情分析结果,包括起源、舆论情感色彩、网络扩散状态、发展趋势、地域分布信息、年龄段范围信息和关注热点;S105:以图表和报告形式显示和输出经过步骤S104得到的所述舆情分析结果。

【技术特征摘要】
1.一种舆情分析方法,其特征在于,所述舆情分析方法包括:S101:根据预先定义的搜索策略,通过网络爬虫搜索并读取网页文件,从网页文件中提取舆情数据;S102:对提取的舆情数据进行过滤,去除垃圾信息;S103:对过滤后的舆情数据进行整理分类,分类类型包括来源、强相关和活跃人员所发贴;S104:对每个分类结果中的舆情数据进行分析处理,得到舆情分析结果,包括起源、舆论情感色彩、网络扩散状态、发展趋势、地域分布信息、年龄段范围信息和关注热点;S105:以图表和报告形式显示和输出经过步骤S104得到的所述舆情分析结果。2.根据权利要求1所述的舆情分析方法,其特征在于,所述舆情数据包括网址、标题、时间、作者、来源、正文、评论、点击率、回复数和转载量。3.根据权利要求1所述的舆情分析方法,其特征在于,所述步骤S102,对提取的舆情数据进行过滤包括:当触发预设条件时,判定所述舆情数据为垃圾信息,并进行过滤,其中,垃圾信息=A||B||C||D,A=中文长度少于4,B=连续英文长度大于15,C=黑名单词语,D=包含符号*&^%$#@。4.根据权利要求1所述的舆情分析方法,其特征在于,所述步骤S104,对每个分类结果中的舆情数据进行分析处理包括:S401:分析爬取来源,得到该舆情数据对应的所述起源;S402:对统计单位时间内的舆情数据进行情感分析,得到所述舆论情感色彩;S403:分析各爬虫来源是否包含该舆情事件,得到该舆情事件的所述网络扩散状态;S404:分析单位时间内关键词出现频率,得到该舆情事件的所述发展趋势;S405分析参与该舆情事件的用户的登录IP和年龄信息,得到发生该舆情事件的所述地域分布信息和所述年龄段范围信息;S406:分析单位时间内词语出现频率,得到所述关注热...

【专利技术属性】
技术研发人员:谢家杰
申请(专利权)人:上海壹账通金融科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1